lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

それなりに味が出てきた。

先日,自由記述データをKH Coderでデータ化する作業をしていたのですが,抽出する語を名詞,形容詞だけでなくやっぱり動詞も入れようと,再度データ化をやり直してみました。
その後,SPSSでそのデータを分析してみると,結構面白そうな気がしてきました。
当初は出現頻度2以上の語を対象にクラスター分析などしてみましたが,語数が多すぎデンドログラムが巨大で何も見えてきません。当たり前か。したがって,出現頻度の平均値が8.1*1というのを参考にして,出現頻度8以上の語(変数)を相手にあれこれ分析を試みてみました。
ふと思いついて,震災後の心身症状レベル推移のクラスター分類と,語の出現頻度が関係していないかと思って,ノンパラメトリック検定してみました。すると,何語か有意差が出てきたのです。
その有意差が出た語と,性別,震災被害の有無,居住地を独立変数に,震災後の心身症状レベル推移の分類を従属変数として,決定木を試してみました。
その結果,「下」という語の有無で症状レベル推移分類が変わってくるという・・・「はあ?」と思いましたが,その,「下」に関連して出てくる語から何か考察を進められないかという気がしてきました。
その関連というか共起関係を図式化するのに「共起ネットワークグラフ」を描きたくなったのですが,その道具が手元にナイ。
KH Coderにはその機能はあるのですが,KH Coder内のデータベースを基にグラフ描画するので,一旦KH Coderから吐き出してさらに加工したデータを使う場合はダメですね(多分)。
KH Coderは統計ソフトのRを利用してグラフ描画しているので,じゃあRを使えばいいかなと思いました。
・・・でも今までR使ったことないので,まずRの使い方から勉強せねば・・・orz
ちょっと検索したらとても素敵そうなページを見つけました。
R言語とWEKAなど
明日はこれでちょっと勉強を始めてみます。

*1:ただし,分布は思い切り正規分布ではありません。