lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

酒税データ分析その5。

先の主成分分析(2因子,クオーティマックス回転)で得た主成分得点2つを使って,47都道府県をクラスタ分析(Ward法,値の標準化なし)してみました。

うーん。最初のクラスタ分析の結果と結構違ってきてますね。特に印象的なのは,東京が単独クラスタから,大阪,高知,沖縄と同じクラスタになったことです。
先の主成分分析で計算した主成分の得点(成分1,成分2)で散布図を描いてみました。

赤で囲んだ東京,大阪,高知,沖縄は他と離れていることから,同じクラスタにまとまったぽいです。
青で囲んだ北海道東北5県+新潟クラスタの他は,成分2得点のプラスマイナスでざっくり分かれていそうな感じです。
うーむ。
都道府県を酒類消費量(人口補正値)プロフィールで分類する,という趣旨からは,最初のクラスタ分析の方がいいような気がします。
(最初のクラスタ分析結果再掲)

東京はビールの消費量がダントツに多く,清酒の消費量も多いのに加え,リキュール(第3のビール?)や洋酒(ワイン,ウイスキー,ブランデー)の消費量も多く,特異的なプロフィールという点で単独クラスタがやはり適切でしょう。
宮崎,鹿児島,沖縄クラスタは乙類焼酎の消費量が目立って多いという特徴は捨てがたい。
東北・日本海側多いけど京都や大阪,高知も入っているクラスタは,清酒の消費量が比較的多い仲間たちと解釈できそう。
うーむ。
主成分得点を使ったクラスタ分析の結果は,あらかじめ主成分分析で情報を2次元に縮減したために,色々情報が雑になっているというかこぼれ落ちているのかもしれないです。
酒類そのものの分類には主成分分析の結果(乙類焼酎とそれ以外軸,南北軸)はなかなか面白かったと思いますが〜