自分にとって不愉快な統計分析が出ると「相関関係であって因果関係ではない」というのは定番だ。逆に自分にとって好都合だとまったくそういわないのも定番中の定番だが。「相関関係であって因果関係ではない」というのはとてもわかりやすいし汎用的だ。しかしそれゆえみんな口々に言うようになってしまった。その結果「相関関係であって因果関係ではない」だけではもはや通ぶれず、自分に不都合な意見を批判しながら自己顕示欲を満たすことはできない。そこで「相関関係であって因果関係ではない」ほど汎用的ではないが、わかりやすいフレーズを発表してみよう。それは「勝手に自分で指標をつくるな」だ。題材は「組合と学力に関連性はあるか? 低学力地域は日教組票多く」。ポイントは「学力とはいったいなにか?」ということだ。記事によると「小中2学年の全教科の全教科の今春の平均正答率の合算」だ。どこが問題なのだろう、具体的に考えてみよう。正答率だと面倒くさいので平均得点とする。A, B, Cという3つの県があったとする。テストの対象は数学と国語としよう。テストの結果は次のようになった。
科目 | A | B | C |
数学 | 50 | 70 | 60 |
国語 | 60 | 30 | 10 |
合計 | 110 | 100 | 70 |
単純合計ではA県がトップだ。従って産経新聞の分析ではA県の生徒がトップということになる。しかしそれでいいのだろうか?よくないだろう。同じ70点でも平均50点のテストにおける70点と平均80点における70点は異なる。また同じ「平均点プラス10点」でも得点分布のばらつきによって異なる。こうしたことを考慮しなければならない。こうしたことを考慮すると例えば平均からの差を得点分布のばらつきである標準偏差で割った数値の合計で比較する方法が考えられる。これは次のようになる((慣れないopenofficeでやったのでミスがあるかもしれない))。
科目 | A | B | C |
数学 | -1 | 1 | 0 |
国語 | 1.0 | -0.13 | -0.93 |
合計 | 0.06 | 0.87 | -0.93 |
平均との差を標準偏差で割ったものだとB県が一番ということになる。単純合計よりましだが、この指標にだって問題がないわけではなく完璧ではない。それについては置いておくとして、要はいくつかの指標から比較可能な((正確には比較に意味がある))指標を作り出すのは難しいのだ。逆に言えば分析者の作った指標についてはつっこみが入れやすい。公正な指標を作り出すのはほとんど不可能なので、ほとんどの場合「その指標は恣意的だ」という指摘が成り立つ。つまり自分に気にくわない統計的分析があり、それが自分で指標を作っていれば「その指標は恣意的だ。勝手に自分で指標をつくるな」といえばいいのだ。これからは「相関関係であって因果関係ではない」という馬鹿の一つ覚えを止めて、これを使って「俺は他の奴とは違うんだぜ」と自己満足に浸ってほしい。
それにしても「相関関係であって因果関係ではない」というのはよくいわれるのに、同じくらいわかりやすい指標の危うさについてはまったくいわれないなんて、日々自分に不愉快な分析に対して「相関関係であって因果関係ではない」といってる人の素性がよくわかる。
マジレスしておくが、いくら本当に通だったとしても周りの人がわからなかったら通ぶれないだろ。だから因果関係と相関関係という決まり文句を使い続けるべきと思うよ。
今回の試験については国語と数学の点数はほぼ相関してるから,二科目については平均でもいいと思うけど. 全国学力テストの結果 - shin_emonの日記 小学校と中学校についても一部特殊な...
そもそも論として産経の「統計(笑)」は、都道府県人口を全く考慮せずに「数」で比較していたり、産経用語で言うところの「日教組得票数」が「日教組出身の民主党候補2人の得票数」だ...