lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

福祉・心理・看護のテキストマイニング入門/Excelで学ぶテキストマイニング入門(レシピ本を読んだだけでは上手くならない。)

福祉・心理・看護のテキストマイニング入門

福祉・心理・看護のテキストマイニング入門

この本を参考にしつつ,KH Coderを利用してテキストマイニングなるものに挑戦しています(この本ではWordMinerが使われていますが,やることは似たようなものなので)。
Excelで学ぶテキストマイニング入門

Excelで学ぶテキストマイニング入門

ずっと以前に,この本も読んでみました。SPSS等統計パッケージが利用可能な場合は,Excelで全て,というのはちょっと面倒くさいな,と思ってそのままにしていましたが,今回再度参照して,自由記述データから抽出した語をどう取捨選択して分析にのせるか,という点は今でも参考になると思いました。
KH Coderを使うと,自由記述データからさっくりと語を抽出してくれます。類似語をくくるコーディングルールの設定とその実行が煩雑ですが,昔むかし,AUTOCODE*1を使おうとして挫折した頃のことを考えると,形態素解析の力でさくさくと生素材を提供してくれるこのソフトは神!!ですね。
KH Coderのマニュアルやチュートリアルを読むと,多変量解析の機能も備えているようですが,ともかくデータテーブルを書き出して使い慣れたSPSSで多変量解析をする方向で進めています。
今日はKH Coderで自由記述データと戯れることで終始しました。実際に作業をし始めると,本を読んで何となく分かったつもりでも,やはり,こまごましたところでつまづきますね。
今回のような比較的小規模のデータから始めて,自由記述データの調理に慣れていきたいです。

*1:これを書くために検索したら,まだあったのに驚き!

伝言ゲーム?

上記のように,今日は結局SPSSで何か多変量解析をするところまではいかなかったのですが,その直前までは試してみました。
まず四苦八苦したのは,KH Coderから書き出したデータテーブル(CSVもしくはExcelファイル)を上手くSPSSに取り込むことができなかったことです。

  • SPSSのデータでは,半角数字が変数名の先頭にあるとNG。

これを忘れていたのに気付き,無理やり何とかしようと,

  • 半角数字が変数名の先頭にある場合,その先頭に半角の「_」をつけた。

しかし,回避できませんでした。
じゃあということで,えいやの力業

  • クリップボード経由でExcel上のデータを直接SPSSのデータエディタ上に貼り付け,変数名も変数ビューに貼り付け。

これで強行突破して,さて度数分布表でも出してみようかと思ったら,エラーで分析が止まってしまいます。エラーメッセージを読むと,変数リストの途中に有効でない文字が入っているとか,半角の「?」で置き換えたとか書いてあるので,よく分かりません。昔汎用機上でコマンドシンタックスを書きSPSSを使っていた頃のことを思い出しました(ジョブを流して結果が返ってくるのを待っていたら無情のエラーメッセージ・・・読んでも意味不明なやつ)。でもともかく出されたものは読まないとと思って,ログ上のコマンドシンタックスを見ると,確かに,変数名の途中にいきなり半角「?」が入っているのです。
私はこんなもん入れた覚えはないぞと思いましたが,ダイアログボックスから分析を実行させるのではなく,昔のようにコマンドシンタックスを書いて直接実行したらどうなるかなと思い,やってみました(ダイアログボックスで分析の設定をした後,「貼り付け」ボタンを押せばOK)。
すると,すんなり通ってしまいました。嬉しいけど,謎です。
・・・あくまでもlionus妄想ですが(笑

  • GUIな)ダイアログボックス使用→lionusとSPSSの中の人の間に介在者が入り「伝言ゲーム」のような感じになる?
  • コマンドシンタックス使用→lionusが直接SPSSの中の人に話しに行く感じ?

ほんとSPSSの中の人のことは今も昔もよく分かりません。