lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

酒税データ分析その1。

国税庁のH25酒税データ
4 販売(消費)数量>(3) 都道府県別の販売(消費)数量(Excelファイル)を使い,各酒類の消費量プロフィールによって47都道府県を分類できないか試してみました。
消費量は,その都道府県の人口が多いほど多くなるので,消費量プロフィールを比較するためには,人口1人当たりの消費量に補正した方がいいかな?と考え,千人単位ですが,各酒類の消費量をそれぞれの人口数で割った”人口補正値”を使ってクラスタ分析をしてみました。
(1)消費量は人口補正値利用,Ward法,値の標準化なし

デンドログラムで1番上で所属ケースも1番多いクラスタには,西日本の県が多いですが,関東甲信越もちらほら入っています。2番目に所属ケースが多いクラスタには,東北・日本海側の県が主体ですが,京都や大阪,高知も入っています。東京は,デンドログラムと一緒に出力した近接行列(省略)でも他のケースとそこそこ距離があったので,単独クラスタとみました。1番下が,宮崎,鹿児島,沖縄の3県からなるクラスタです。
(2)消費量は人口補正値利用,Ward法,Zで値の標準化

デンドログラムで1番上で所属ケースも1番多いクラスタには千葉以外,中部より西の都道府県が入っています。一方2番目に所属ケースの多いクラスタには,北海道・東北,関東甲信越の県が入っています。こちらでも宮崎,鹿児島,沖縄3県クラスタは維持され,東京も単独クラスタとみなせるようです。

で,(1)と(2)どちらのクラスタ分析結果がいいかな〜と悩んだので,あらかじめ見ていた各酒類の消費量(人口補正値)で標準偏差が大きい=各都道府県ごとの違いがくっきり出る,乙類しょうちゅう,ビール,リキュール,発泡酒清酒,甲類しょうちゅうについて,所属クラスタごとの分布を散布図を描いて比較してみました。
例えば,横軸がビール,縦軸が乙類焼酎の散布図を見ると,
(2)の場合

よりも,
(1)の場合

の方が所属クラスタ別にくっきりと分布が分かれているような感じです。
他の組合せの散布図でもほぼ一貫して同様な結果だったので,標準化なしの,(1)のクラスタ分析の結果の方がいいのかな〜と思いました。