福祉・心理・看護のテキストマイニング入門/Excelで学ぶテキストマイニング入門(レシピ本を読んだだけでは上手くならない。)
- 作者: 藤井美和,李政元,小杉考司
- 出版社/メーカー: 中央法規出版
- 発売日: 2005/07
- メディア: 単行本
- 購入: 1人 クリック: 19回
- この商品を含むブログ (12件) を見る
- 作者: 林俊克
- 出版社/メーカー: オーム社
- 発売日: 2002/10/01
- メディア: 単行本
- 購入: 3人 クリック: 42回
- この商品を含むブログ (10件) を見る
KH Coderを使うと,自由記述データからさっくりと語を抽出してくれます。類似語をくくるコーディングルールの設定とその実行が煩雑ですが,昔むかし,AUTOCODE*1を使おうとして挫折した頃のことを考えると,形態素解析の力でさくさくと生素材を提供してくれるこのソフトは神!!ですね。
KH Coderのマニュアルやチュートリアルを読むと,多変量解析の機能も備えているようですが,ともかくデータテーブルを書き出して使い慣れたSPSSで多変量解析をする方向で進めています。
今日はKH Coderで自由記述データと戯れることで終始しました。実際に作業をし始めると,本を読んで何となく分かったつもりでも,やはり,こまごましたところでつまづきますね。
今回のような比較的小規模のデータから始めて,自由記述データの調理に慣れていきたいです。
*1:これを書くために検索したら,まだあったのに驚き!
伝言ゲーム?
上記のように,今日は結局SPSSで何か多変量解析をするところまではいかなかったのですが,その直前までは試してみました。
まず四苦八苦したのは,KH Coderから書き出したデータテーブル(CSVもしくはExcelファイル)を上手くSPSSに取り込むことができなかったことです。
- SPSSのデータでは,半角数字が変数名の先頭にあるとNG。
これを忘れていたのに気付き,無理やり何とかしようと,
- 半角数字が変数名の先頭にある場合,その先頭に半角の「_」をつけた。
しかし,回避できませんでした。
じゃあということで,えいやの力業
これで強行突破して,さて度数分布表でも出してみようかと思ったら,エラーで分析が止まってしまいます。エラーメッセージを読むと,変数リストの途中に有効でない文字が入っているとか,半角の「?」で置き換えたとか書いてあるので,よく分かりません。昔汎用機上でコマンドシンタックスを書きSPSSを使っていた頃のことを思い出しました(ジョブを流して結果が返ってくるのを待っていたら無情のエラーメッセージ・・・読んでも意味不明なやつ)。でもともかく出されたものは読まないとと思って,ログ上のコマンドシンタックスを見ると,確かに,変数名の途中にいきなり半角「?」が入っているのです。
私はこんなもん入れた覚えはないぞと思いましたが,ダイアログボックスから分析を実行させるのではなく,昔のようにコマンドシンタックスを書いて直接実行したらどうなるかなと思い,やってみました(ダイアログボックスで分析の設定をした後,「貼り付け」ボタンを押せばOK)。
すると,すんなり通ってしまいました。嬉しいけど,謎です。
・・・あくまでもlionus妄想ですが(笑
ほんとSPSSの中の人のことは今も昔もよく分かりません。