lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

日本語入力を支える技術 変わり続けるコンピュータと言葉の世界(はからずもATOKをアンインストールした後に読んだ。)

昔昔,NECの98シリーズを使っていた頃,日本語ワープロジャストシステムの「一太郎」を使っていました。まだ画面が真っ黒な時代でした。
それから?年,今はMS-Wordに乗り換えてしまいましたが,日本語処理はやっぱり国産の方がいいかもとATOKを使っていました。
しかし,最近ATOKが超絶におバカになってしまい*1,しかも変換がおバカなだけにとどまらず,かな漢字変換そのものにも支障をきたすようになったので,アンインストールして契約を解除しました。
例えば,いきなり「か行」や「さ行」の文字から始まる単語がかな漢字変換できなくなり,「辞書がありません」云々のメッセージが出るようになったりしたのです。

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

そんなとき,以前(ATOKおバカ化に悩まされる前)に待ち予約を入れていて借り出し可能になった本書を読みました。
「第1章 日本語と日本語入力システムの歩み」のところは,昔の話が出てきたので,あ〜懐かしいなあ〜と思いながら読みました。もちろんATOKも出てきました。
本書のメインは表紙に書いてあるように「膨大な変換候補の中からいかに最適解を導くか」についての理論やアルゴリズム,データ構造についての概説です。
したがって,門外漢のlionusにはちんぷんかんぷんな箇所も多かったのですが,日本語=自然言語の処理ってこういう考え方でやってるんだ〜という雰囲気を味わうことができて,なかなか面白かったです。

*1:はぁ?そうくるか?という変換が相次ぐようになった。Twitterで教えていただいたのは,最近のATOKは文章を一気に入力して変換することを想定し,文章単位での変換を重視しているらしい。短い文節ごとに入力・変換する昔ながらのユーザ=lionusなどは,ATOKの想定と合わないので,その結果ATOKのおバカ化を引き起こす,らしい?