lionusの日記(旧はてなダイアリー)

「lionusの日記」http://d.hatena.ne.jp/lionus/としてかつてはてなダイアリーにあった記事を移転したものです。

リサーチリテラシーの記事。

リサーチ/データのリテラシー入門——社会人として恥ずかしくない調査統計の基礎知識
情報リテラシー」の中に表計算ソフトの活用の範囲として「統計リテラシー」の要素を取り入れることは必要ではないか、と考えています。
上記記事は、どちらかというと統計学ではなく、社会調査のお話になっていますが、巷に流布する大量の「統計データ」の読み方の留意点について分かりやすく解説されています。
社会人に必要なリサーチ/データリテラシー5原則——調査・リサーチ・統計の基礎その1

数字は客観的なものでなく、主観的なもの
(中略)
「アクセス数」「ページビュー数」「コンバージョン率」「平均滞在時間」「クリック率」などの客観的に見える数字でさえ、基本的には自分の主張を相手に理解してもらうために利用するものなのです。

「都合のいいところだけ切り出して見せる」ということがありますが、それについて「主観的」という表現をなされているのは新鮮でした。なるほど〜
適切な調査対象者の抽出(サンプリング)とは? ―調査・リサーチ・統計の基礎その2
サンプル数や回答数よりも回収率が大事な理由―調査・リサーチ・統計の基礎その3
世に出ている調査データの信頼性を吟味するときだけでなく、自分が調査を実施する時に役に立つ説明です。ただサンプル数を増やせばよいものではないということがよく分かります。
調査方法に潜む罠とチェックの重要性―調査・リサーチ・統計の基礎その4

使えない数字を作り出す罠の数々

集計方法と指標の定義: さまざまな平均値/中央値/最頻値―調査・リサーチ・統計の基礎その5
分布がゆがんでいるデータの代表値をどうするかという問題です。
lionusも年間給与の例は授業でもよく言っています。
ロングテールの例は興味深いです。
外部要因を意識したデータの読み解き方―調査・リサーチ・統計の基礎その6
調査データは信頼できても、それを現実と重ねてどのような解釈(結論)を引き出すかということです。
なかなか高度です。
lionusもこれに類したことを、統計学やデータ処理の授業とは別の心理系の授業で示したことがあります。
生涯未婚率の統計です。
生涯未婚率の定義:調査時点で50歳の人全員のうち、今まで結婚したことのない人のパーセンテージ
一時期、未婚30代女性を示す「負け犬」という言葉が話題になりましたが、実は、男性における生涯未婚率は増加しているのに対し(1980年2.6%→2000年12.6%)、女性はあまり変化していないのです(1980年4.5%→2000年5.8%)。
それはなぜか・・・授業で学生さんに考えてもらうと、「男性は結婚に縛られたくないから」「フリーターなどの増加で結婚するだけの経済力がある男性が減った」「生身の女性を避け、二次元の女性を選択するおたく男性が増えた」といった、個人の要因に注目する解答がほとんどです。
確かに、上記のような要因も影響している可能性がありますが、それよりも以下の3点によるところが大きいと考えられます。

  • 出生の男女比は男:女=105:100で、男児の方が多く生まれる
  • 戦後の乳幼児死亡率低下(男児は生物学的に女児より弱い傾向があるが、おかげで”死ななく”なった)
  • 戦後の結核死亡率の低下(若い人が結核で死ななくなった)

http://www.nli-research.co.jp/report/econo_eye/2007/nn070702.html
グラフが分かりやすいです。