lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

一度通った道なら歩きやすい。

今年の日心@立命館で発表するつもりの震災データ,分析の最初からやり直してみました。
KH Coderの使い方の件では,開発者の樋口さんから非常に丁寧で的確なアドバイスをいただけたおかげで,KH Coderで再度自由記述データを処理するのが,最初に試みたときに比べて大変スムーズに済みました。ご紹介いただいたご論文(http://www.jstage.jst.go.jp/article/ojjams/19/1/101/_pdf/-char/ja/)も参考になりました。使い始める前に読めばよかったです(汗
干天の慈雨のように,lionusの心にしみました。心より感謝申し上げます。
今回,最初に試みたときと変えた点は:

  • 複合語(例:高速+道路→高速道路)として検索してみたもののうち,強制抽出する語は極力少なくした。
  • また,コーディングルールにより「くくる」ものを厳選した。類義語と思われるものまでくくってしまうと,基準が定まらずドツボにはまる。くくったものの多くは,「みる/見る」のように,漢字やかなの表記ゆれと確認できるもの。
  • その上で,樋口さんにアドバイスいただいたように,(出現頻度を基準に)分析に使う語のみに対してコーディングルールを設定した。

以上を気をつけた結果,KH Coder内部での分析もしやすく,SPSSでの分析にものせやすいデータをKH Coderから出力することができました。
その後,あれこれ試してみて,以前の分析よりもいい感じの結果が出つつあったのですが,その中で,従属変数としていた症状レベル推移のクラスター分類そのものに疑問が生じてきました。
3月18日の時点では,

震災1ヵ月後の心身症状有訴数合計,震災5ヵ月後の心身症状有訴数合計,心身症状合計の増減数の3つの変数により,ケースのクラスター分析をおこない,症状レベル推移の分類を試みた(有訴数高持続,有訴数平均前後で横ばい〜微増,有訴数比較的大幅減)。

と書いていたのですが,この方法だと,震災5ヵ月後も心身症状有訴数が高いケースが,「有訴数平均前後で横ばい〜微増」に分類されていることが問題だなと改めて思ったので,震災1ヵ月後の心身症状有訴数合計,震災5ヵ月後の心身症状有訴数合計の2つの変数を基準に,ケースのクラスター分類をおこないました。
この方がすっきりしました。1ヵ月後も5ヵ月後も高いケース,1ヵ月後も5ヵ月後も高くないケース,1ヵ月後には高いが,5ヵ月後は高くなくなるケースに分かれました。
新しいクラスター分類を従属変数にして,決定木を使い分析をおこなったところ,「ケガ」という語が文章中に出ている場合,臨床的に問題と思われる「1ヵ月後も5ヵ月後も高いケース」になる傾向がみられました。
「ケガ」がどのような文脈で使われているか検討する必要がありますね。
自分が「ケガ」をしたのか,それとも家族が,とか・・・ここまでやってちょっと飽和してきたので,とりあえずここまでで小休止とします。