lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

統計学入門 (基礎統計学)/人文・社会科学の統計学 (基礎統計学)/自然科学の統計学 (基礎統計学)/日本統計学会公式認定 統計検定2級対応  統計学基礎(文系も理系も読んでねの汎用統計学入門とか、4冊。)

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

統計学の入門書における「分散」の教えられ方を確認したかったので、「統計学 定番」で検索して出てきたうちの1冊として、目を通してみました。
東京大学教養学部統計学教室 編」とあり、文系・理系の両方ともを対象にした”汎用”統計学入門教科書として書かれているようです。
さて本書では、「第2章 1次元のデータ」の「2.3 散らばりの尺度」にて、分散は

p.37
偏差を絶対値ではなく、2乗することで符号を消し、同様に平均を求めたものをデータの分散varianceという。分散はS2という記号で表され
(nで割り算している分散の式が示されている)
と定義される。

以上のように、n-1で割り算する分散ではなく、nで割り算している分散がまず紹介されています。
そしてこの後、確率や確率分布の話に続いて、「第9章 標本分布」の「9.2 母数と統計量」「9.2.2 標本平均と標本分散」では、標本分散(p.184)で、n-1で割った不偏分散が紹介されています。
つまり、分散とは何ぞやということを説明するときには、まず偏差の平方和の平均(nで割っているからね)、すなわち、各データと平均値との差を平均化したものが散らばりの尺度=分散として使うんですよ〜と言っていることになります。説明のしやすさということを意識すると、n-1で割る方を示すよりも、nで割る方を示す方がいい、ってことがあるのかな〜と感じました。
同じシリーズの

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

これらにも目を通してみたところ、前者で今考えていることにフィットする記述がありました。

p.2
母集団とは集合であり、特定の要素をそのなかに含ませるかどうかについての明確な規則(ルール)がなくてはならない。このルールには、通常は、単位そのもの、時間、場所などに関する記述が含まれている。母集団は調査者から独立に存在しているものではなくて、調査者が具体的かつ明確に設定すべきものである。

そーなんだよね。先日も書いたように、心理学などでは、

同じ人間でも、見る角度(研究の対象となる変数)が違ってくると、母集団が人間一般なのか、人間の女性なのか、大卒者なのか、日本人なのか・・・と設定が違ってくるんですよね

http://d.hatena.ne.jp/lionus/20131017#p1

そういう背景があるから、
「データ分析の目的には、大きく分けて記述descriptionと説明explanation」(p.281)があり、

p.282-283
両者はそれが言及しようとする対象のレベルにおいてまったく異なっている。記述の場合には、言明が言及しているのはあくまで現在分析しているデータに限った構造である。それに対して、説明の場合にはデータの背後にあってデータを産み出している「世界」の構造に言及しているのである。

まず手元のデータの構造を記述してから、「データの背後にあってデータを産み出している『世界』」すなわち母集団の構造を説明する分析に進むか否かを考えることがあったりするんだよね。
このシリーズの他にもう1冊、日本統計学会のお墨付きならスタンダードかなと思い、

日本統計学会公式認定 統計検定2級対応  統計学基礎

日本統計学会公式認定 統計検定2級対応  統計学基礎

にも目を通してみました。
こちらでは最初からn-1で割る方の分散が紹介されていましたが、「もう1つの分散の定義」としてnで割る方も言及されていました。しかし、「統計検定2級では、特に断らない限り、データの分散をn-1で割った値を用いる」ということで、統計を実務(研究)で使う際にはn-1で割る方の分散がふつうなのでしょう。というか、実際に統計を使う際には推測やら検定やらが目的なことが多いので、そういう意味ではn-1で割る方の分散を使うのが当然ですよね。