はてなキーワード: 標準偏差とは
よ、宝くじ、みんな買った?
三連休もクソもない割に今日は早起きしたから、算数の話するか。
そりゃそうさ。買おうぜ。
買い物に対価を払わないってのは、そりゃ業腹ってもんだ。
まあ、期待値の話をしようか。
四角い形したフツーのサイコロ振ると、期待値3.5とか言うな。
1x1/6 + 2x1/6 + 3x1/6 + 4x1/6 + 5x1/6 + 6x1/6 = 27/6 = 3.5
ってコトになってる。
これをひねると、例えばコインの表が出りゃ100円、裏ならゼロってゲームの期待値は、
さて、これをちょいとひねってな、裏が出たら終わりのゲームってのをしてみよう。
裏が出るまで、倍々で賞金が増えるとしてみようや。
○○○●なら、100円の倍の倍の倍で、800円。
100円x2の(表の出た回数)乗ってこったな。
さ、これの期待値っていくらになると思う?
10回連続表なら10万ぐらいだけど、11回なら20万、20回なら1億だ。
恐ろしく確率は低くても、バカみたいな金額になる。
つまり「期待値で判断するのが情強」って定義なら、このゲームにゃ全財産を賭けてもやるべきって結論になる。
こりゃあオカシイわな。
ちっと考えれば、50%で100円、25%で200円、0.1%で10万ってこた判るわけだ。
このゲームを数学屋はどう解決するかって言うと、実は解決できてねぇ。
例えば、100万が200万になる時と、1000万が1100万になる時の「嬉しさ」が違うって言ってみたりな。
詳細は省くが、対数的な値になるから発散せずに、まあ答えらしきものは出る。
ただなあ、定義する「嬉しさ」(ググるときは「効用」でググれ)を倍にするってゲームだと、結局解決はしねえ。
ま、結局のところ無限の資産を持つ胴元が、無限回数のコイン投げをするのがイカンとかなんとか言ってんだけどな、
さて、確率の話題をやると必ず出てくる、バラつきだ。
賢そうな中学生ぐらいだと「大数の法則ガー」とか言うんだけどな、ちっと待って欲しい。
まず、「コインの表が出る確率が1/2」ってのを「机上の確率」って言うな。
で、「オレが実際にコインを投げた時の、表が出た回数/投げた回数」を「やってみた結果」って言うな。
馬鹿みたいな回数コインを投げると「やってみた結果」が「机上の確率」に等しくなるってことは、無ぇ。
「やってみた結果」の数が増えれば増えるほど、「机上の確率」に対する乖離が小さくなる可能性が高いってダケだ。
判りにくいな。
逆向きに考えてみようか。
サイコロにオモリが仕込まれてなくて、1の目が1/6の確率で出るってのを判断するには、どうしたら良い?
36回ふったときに、ぴったり6回でたやつだけ取り出しても、あんまり意味はない。
例えば、100回ふりゃあ、本来なら1/6*100だからまあざっくり17回ぐらいになるハズだあな。
続けて10回、100回サイコロふるってのをやってみたら、、13,17,17,15,12,22,6,11,19だった。平均は15.2な。
100回振ったのに6回しか出なけりゃ、なんか疑うだろうし、22回でもまあ微妙かね。
でもな、こいつのバラツキ、つまり標準偏差は4.8になる。これは回数を繰り返せば繰り返すほど小さくなってく。
詳しく知りたきゃ信頼区間とかシグマでググれば良いが、まー、何が言いたいかって言うとだ。
サイコロを100回ふったときに、1が6回出ることもありゃ、22回出ることもある。コレはずっと変わらない。
でも、真に1/6の確率のサイコロなら、バラツキは正規分布に従うから、乖離は徐々に小さくなるハズだ。
つまり、バラツキがどれぐらいにおさまったらサイコロが1/6で1を出すって信頼するかを、自分で決める必要がある。
そして、幾ら大量にデータを取ったところで、次の瞬間のサイコロが1/6でふられるかを保障するわけじゃねえ。
結局のところ、自分で決めたバラツキ以内におさまってるかどうかの「信頼」とか「信念」の問題になる。
確率は、結構ばらつきがあって、正に運で変わるって話はしたな。
つまりだ、オマエさんの手元にあるサイコロが次に振った時に1/6の確率で1を出すかは、判んねえ。
ただ、何回か振ってもらえれば、ズルしてねえ、出るか出ないかのフィフティ・フィフティじゃねえってのを、ある程度信頼できる。
んで、効用ってのは、「嬉しさ」のこった。
ざっくりいや、小学生の1万円と、億万長者の1万円は、嬉しさの価値が違う。
前後賞合わせての7億円ってのは、凡人にとってみりゃ「当たれば人生変わる」金額だな。
これはな、計算したい数学屋にはこういってもイイ。「効用が無限」だと。
つまり効用の期待値を計算すりゃ、「∞x1/1000万=∞」なワケだ。
さらに言えばだ、「机上の確率」と「やってみた結果」にはズレがあるから、
「∞x(1/1000万xバラつきの程度)=∞」になるワケだ。
宝くじを買わねえ自称情強は、このバラつきを無視できるほど小さいと信頼してる。
宝くじは正しく販売されて、ユニット毎完全に理想的に配分されて全国で販売されるし、
抽選もパーフェクトに数学的な確率でランダムに選ばれているし、
手元の一枚の宝くじは、今年発売された全ての宝くじと全く同じだと「信頼」している。
逆に言えば、宝くじを買う夢追い人ってのは、
良くわからないけど当たりやすい販売所があるだろうと思ってるし、
テレビの前で祈りながら見ていれば、自分の番号に当たるかもしれないと思ってるし、
手元の一枚の宝くじは、今年の運勢や日頃の行いで、他の宝くじよりも当たりやすいと「思っている」。
これは単に、信念の問題だ。
少なくともこれを否定するには、十分にウラドリされたデータで持って、反論する必要がある。
期待値だのなんだの言うんだったら、事前確率分布で信頼水準95%程度が言えるくらいに、データを示してもらわにゃ。
こういう言い方しても良いな。
「宝くじ10枚買っても期待値が1400円だ情弱、3000円で本でも買えよ」って笑うときにゃ、
3000円で本を買って期待値が1400円以上だってコトを示さにゃいかんよな。
まー1等が当たる確率は、だいたい1000万分の1ってのは、間違いないだろうよ。
サイコロってのは、だいたい1/6ぐらいなもんだよ。麻雀やるときでもなけりゃな。
同じ言い方で、効用ってのが(近代経済学でも使われるぐらい)ありそうなことっても判るだろうよ。
つまりよ「計り知れない効用」ってのを定義するならば、300円の掛け金は安すぎるわけだ。
ほいでな、「人生の中でそれだけの効用の賭け事をするチャンス」ってのは、こりゃ無いわけだ。
7億当たるかもしれないギャンブルに参加する事なんて、そうそう無いぜ?
起業して成功して、身ぎれいなまま上場して売り抜けてやっと作れる資産が5億ってところだろ。
もちろん、そうやって人生を賭ける起業家はスゲエとは思うけどな、
ソコまでやんなくてもさ、当たりが出やすいっていう売り場に寒い中1時間並ぶだけで、
オンナジぐらいの金額手にするチャンスがあるんだぜ?
(あまりにも小さい確率を無いのと同じとみなすのであれば、この2つを同列にしても構うまい)
ただ、カネの代わりに効用って「嬉しさ」で計算する方法もある。
宝くじの1等が当たったときの「嬉しさ」は、「人生を変える無限の効用」と感じるヤツも居る。
それで計算すりゃ、宝くじの効用の期待値ってのは無限になる。情強的にいや、手持ちのカネを全部賭けてもイイ。
そして、確率推定の計算ってのは、どんなモデルをどれだけ「信頼」しているかに寄る。
ま、情強の言う「期待値140円」つってもよ、つまりは「対価は160円」という言い方も出来るわけだ。
10枚買っても期待値からすりゃ、夢を楽しむ対価が1600円なワケだ。
今の世の中で、なかなかないぜ?
人生を変えるかもしれないって夢を楽しむのに1600円でイイなんて。映画より安い。
都内じゃ昼寝するのに金払うヤツすら居るんだろ?
師走で忙しく、寒さも厳しくなってきたこの時期、
あんまイイこと無かった一年かもしんねえけどよ、
ちょっとした夢を楽しむのに最後に多少散財したって、まあバチは当たらねえよ。
あ、宝くじの方は当たると良いな。
>こんな感じの計算式で特徴付けられる、との説明があるんだけど、こういうのは意味ないんですか?
>これらは明らかに過去のチャートなりから求めるしか数値的に表現出来ないのですが。
というかwikipediaの式も具体的な値じゃなく変数でしょ?
特徴付けの3に、正規分布N(0,t-s)に従うって書いてあるとこに注目。
>(一次元)正規分布は、その平均を μ, 分散を σ2 とするとき
略
>この正規分布を N(μ, σ2) と表す
この場合、-V(X)<=Cov(X,Y)<=V(X)。
これは相関係数の定義と照らし合わせればわかる。わからなかったら高校で習った余弦定理と同じだと思って、解釈が違うだけで同じ式だから。
で、ボラティリティは正だからルートとる。そうすると2銘柄で同分布だと、分散投資すると必ずボラティリティが小さくなることがわかる。正確には、値動きが厳密に一致する場合だけは小さくならない。
三つ以上でも、全く同様の結果は得られるんだけど、Covに相当する部分は公式がないため、まじめに計算しなきゃいけない。シュワルツの不等式を使える形になおして、使うだけだけど、説明するのは面倒。
ちなみに、独立ならずっと簡単で、n銘柄に等分で分散投資すると、ボラティリティはルートn分の1になる。これはこの事実が書いてあるサイトどっかにあると思う。この場合の計算はcov的なものが全部0になるから、中学レベルの数学だけでできる。
>要するにこういう計算自体はどうでも良くて、どっかツールに突っ込んでそれがプラス化マイナスと出るか、
>もしくはあなたがプラスかマイナスか決めて投資するんでしょ?
なわけねーだろ。
>それこそドリフト項の傾きから計算するんじゃないんですかね?
そもそも平均利益という概念が先にあって、もしドリフト項つきウィーナー過程なら、ドリフト項の係数と平均利益は一致する。これはドリフト項がそもそも平均利益に相当するものを表現するための項だから、あたりまえ。
>要するにすべてあんたの"思い込み"だけじゃないか。
「世の中で考えられているほど分散投資がボラティリティを下げる効果はないかも」という1点だけは思い込みかもしれないな。今回のやりとりのなかで、怪しげなことを言ったとしたらそこくらいだ。
なお、君の意見は「分散投資がボラティリティをさげる効果はまったくない」だから、はるかにひどい。
>そういう思い込みだけでやってる様な根拠のない分散投資をやるくらいなら
>無駄に手を広げずに管理出来るような範囲でやった方が良いのでは、というのが最初のこちらの話ね?
思い込みじゃない。むしろ分散投資がボラティリティをさげないと言う方が思い込み。
分散投資で、管理できなくなるなら、それはやめたほうがいいけど、でもETFもあるよ。
>それに対して、あなたは数学的な根拠もあるかのようにドリフト項だの出してきたが、
数学的な根拠がある。
けっこう知ってるよ、君はなにを説明してほしいの?
>それでも信じるのは自由だが、いい加減な事を言うのはヤメてください。
いい加減なこと言ってるのは君です。
>例えばこれとか見て分かる通り
そのサイトの計算は全くのでたらめです。その情報だけでは、分散投資した場合のボラティリティをしっかり計算することはできない。目安というなら、独立と仮定して計算すべき。
平均利益や期待値や共分散は線形だからそういう計算ができるけれど、リスクや分散や標準偏差は線形じゃない。
独立と仮定して計算すると、34.76%じゃなく(24.10^2+3.06^2+7.60^2)^(1/2)%となります。電卓押し間違えてなければ25.45%。ちなみに、34.76%は相関が全部1だった場合の値。日本株式とその他の相関が-1だった場合は、13.44%です。正確な値は、13.44%より大きく、34.76%より小さいことははっきりいえて、独立なら25.45%と言えるでしょう。というか、その次の7ってページで説明されてる効果こそが、分散投資のボラティリティをさげる効果です。7の説明もいい加減なので、そのサイトこそ理解してないまま誰かの受け売りでもしたのでしょう。
ちなみに入力が面倒だからやらないけど、この相関の表つかうと独立と仮定するよりもう少し正確に計算できます、covの分として、相関係数*一つのリスク*他のリスクを全部足してからルートとればいい。ぱっと見た限り、かなり強い負の相関なので、20%きるかもしれないくらい。もとの本は多分、分散投資の効果を過度に強調するためにこの数値例だしてる気がする。
そのサイト作った人は、それ以前に相関使わないとリスクの計算ができないことにすら理解できてないらしい。
>それをある意味でボラリティの低下、ということも言えるかもしれないが、いわゆるリスク、振れ幅自体が小さくなっているわけではない。
ボラティリティは標準偏差のこと、数学的に定義できる概念。ある意味も何もない。
あと、振れ幅自体も小さくって何回もいってるし根拠もだしてるじゃないか。
>階段的に一気に振れることがもう少し細かく段階的に変更されるだけ。
>それでもメリットはあると思いますが、あなたが考えてる様なリスクが減る、と言う意味ではない。
これも大間違い。
結局、君がダメなサイトをあてにして、標準偏差が線形だって思い込んでたってだけでしょ。
複数の確率変数を足し算したものの標準偏差は、それぞれの標準偏差の足し算とは一致しないの。
ボラリティといい分散トレードといいこれといい、検索能力とか情報リテラシーがずいぶん低いのでは?
そして君の批判はすべて君”だけ”にあてはまってる。
一つ、間違いを指摘させてもらいたい。
単純な例で説明すると、縦線が二つ、選ぶべき政党が二つの場合を考えてみよう。
横線が偶数の場合、どんなに横線を増やそうと、選んだ直下の政党が選ばれる。
縦線が三つの場合、横線が偶数だと、やはり選んだ直下の政党が選ばれる。
この法則は、縦線の数が増えても成り立っていて、縦線がいくつあったとしても、横線が偶数だと直下の政党と、その縦線から左右に2つ、4つ、6つ…と、偶数ぶん離れた線の下に書かれた政党のいずれかが選ばれる。
そもそも実はあみだくじはえらんだところの直下にくる可能性が一番高く、そこから離れるほど確率が低くなる。
正規分布になることが知られていて、確率分布の期待値は直下、標準偏差は通過する横線の本数の期待値(横線の本数を縦線で割れば出る)の平方根となる。
横線の数が増えれば、ある程度は公平になるが、完全に公平にはなりえない。
そういうわけで、政党名を書き込んだのが自分自身である場合、やはりランダムに選んだことにはなり得ない。
今回は比例代表が12政党あったので、標準偏差が12の5倍、60くらいならくらいならどの政党も確率分布の期待値にかなりちかいところに来てると解釈すれば、43200本は横線を入れてもらいたい。
もちろん、前述の偶数か奇数かの問題もあるので、偶数か奇数かはしっかり忘れ、一心不乱に横線を引き続けるのだ。
かといって、それはどうランダムにするんだね?
またあみだくじか?
元来学業において適用されていた偏差値の概念を主観の多々入り交じる顔面の美醜という対象において摘要した点で顔面偏差値という素晴らしい概念は誠に高く評価できるものである。
偏差値とは統計的概念であり母集団の分布における統計値(確率変数の値)の高低を示すものであり、50を平均値とし10を標準偏差として算出される。
つまり60なら高め、70ならかなり高い、80ならレアアイテム、90なら激レアとまあこんな調子である。
顔面偏差値はあくまで主観的なものであるがアンケートの実施(統計調査)をすれば、客観的に扱えるようにはなる。それが美醜を客観的に正しく表しているいう意味ではなく、あくまで扱いが客観的になるだけであるが。
たとえば心理統計によくある「非常にそう思う、そう思う、どちらでもない、そう思わない、全くそう思わない」のような五段階評価を「この人が美人・イケメンだと思いますか?」という質問に対して回答させれば良いのであるから実に簡単な話である。
この方法を駆使すれば顔面偏差値と同様にさまざまなパラメータを個人に与えることもできるだろう。
また、わざわざ大がかりな統計調査を実施しなくても、人々から受けた評価をその都度反映させていくことも可能である。例えば、他人からうけた扱いや評価を主観的に5段階評価して、統計処理を行うだけのことであるから何も難しいことはない。
こうしてさまざまなパラメータが客観的に扱えるようになることそのものが実は非常に有益なことなのである。これは我らがmankogaiも再三言っていることであるが数値化しなさいと。
なんでも数値化しなさい。数値化の精度(例えば美人度70と評価したことが客観的に正しいのかといったこと)は多少ファジーであれど数値化すること自体に意味があると。そういうことを言っている人は数多い。
フェルミ推定が重視されているのもそうしたバックグラウンドがある。当のグーグルの起業家がフェルミ的な思考法を常としたことで大成功を収めたのは言うまでもない。
なのだから、常識で考えて数値化は非常に有益というのが我々の最終結論である。
数値化のいま1つのメリットは数値の変化に敏感になることである。体重を毎日量っている人は例えば体重に敏感だから食事に気をつけようという意識が違ってきますもの。
また1つのメリットは数値の上下を支配する従属変数が見えてくることでもある。bという変数が従属変数とし、a1, a2, a3, a4, ... , a10といった独立変数がbに影響しているか確認したい。
統計処理にかければこんなものは一発である。どれとどれが相関が強いのか。scilabなどで線形システムを仮定して検証するのが一般的であろう。
シストレをやっている知人がよくそんなことをやっていた。彼が言うには顔面偏差値という偉大な発明をなぜ他の人物パラメータにも摘要しないのかと。まったく同感である。
本来、「平均からどれだけ離れているかを、50を平均とした時の統計的な指標」にすぎない偏差値について、こんなにもツリーを伸びてるところを見ると、偏差値に対する誤解やイメージは相当なものなんだなあ。
両方とも「一般的には高い方が好まれる傾向にある」ことが共通しているところがポイントだろうか。
勝手に「その人物の魅力は~」云々を言う人が出てきてるし、元増田としてはしてやったりなんだろうな。
空想科学読本で、強さの単位「ジャバ」を定義し、いろんなヒーローの強さを無理やり比べたネタを思い出した。
元増田の表と同じ様な表としては、こんなのも作れる。
男の体重 | 男の血圧 | 偏差値 | 大学で言うとこの辺 |
---|---|---|---|
85.9 | 160.34 | 73.1 | 国立医学部レベル |
77.9 | 147.74 | 64.1 | MARCHレベル |
69.9 | 135.14 | 55.1 | 日東駒専レベル |
62.0 | 122.68 | 46.2 | マイナー女子大レベル |
54.0 | 110.08 | 37.2 | 名前書けば受かるレベル |
46.0 | 97.48 | 28.2 | 大学が無い |
この表からは「すらっとしたモデルはマイナーな女子大レベル以下」、「MARCH以上は高血圧注意」なんて言い方ができてしまう。
しかしこの表は統計的な意味では、元増田の表と変わりないのに、
「体重や血圧は高ければいいってもんじゃないだろ。何馬鹿なこと言ってんだ」って感じでスルーされるだろう。
作るならやはり「多いほどいいとされるもの」でやるべきだ。
例えば、年収とか、資産とか、今まで付き合った異性の数とか・・・
RI実験室の汚染調査でもやるのだけど、壁をふいたろ紙を懸濁して、液シンにかけて、その部屋の放射能を見積もった測定とするわけね。
それって、ふいた壁のごく一部だけに、強烈な放射性物質の塊があるだけなら、そこをふかなければ当然液シンに影響はない。
そうやって、いろいろな場所をちょっとずつ測ることで、このエリアは全体的にこうです、って言ってるわけね。
がれきの一部をふいた紙を測定して、このコンテナに詰め込まれたがれきの放射能汚染は~、っていうわけな。
汚染部位が多かったり、全体がまんべんなく汚染されてたら、この検査でも当然汚染部位を引き当てる率が上がったり、数値が高くなったりする。
そして、広範囲に散らばっていくような汚染の場合、だいたいがまんべんなく拡散するはずでまんべんなく汚染されているはず。
だからこの方式で問題はないんよ。
悪いとは思わないよ。
しかしなー。
俺はやっぱり信じきれないわ。
原発に近い土地ほど、原発に近い産地の食品ほど、たまたま起きたごく狭い範囲の高濃度の汚染、っていう検査のまぎれがあるはずなんだよ。と、俺は思うんだよね。
これって、検査の数が多ければ、見つけられる汚染は当然いくつも出るけども、それって平均値の中にまぎれて行ってしまうわけでさ。
については、正直、そこまで信頼していない。
俺は原発に近づくほど、測定のばらつきが当然あるはずだ、と思ってる。
まさかのドボンを引き当てる可能性はあがるんじゃないかと思っている。
そんなことはないかもしれないのだけどね。
まとめるとですね。
という2点から、俺はやっぱり関東含む福島近辺はリスクが高いと思っている。
まあこれもひとつの考え方ってことで。
学力偏差値の話なら、受験の傾向によって母集団が同じじゃないから
地方国立工学部受験組の偏差値55と早慶法学部受験組の偏差値55を
同じ偏差値55と見なせないじゃん
受験の傾向がバラバラな以上、一つの母集団に統一することはできないのだから
日本人を一つの母集団として上位から下位まで順に大学に振り分けていくと
学力偏差値50のところにいる人はFランクでした、とはならない
なので、大学進学率約50%を以て「大学行ってない奴が50%ぐらい」としても
学力偏差値50以下と「大学行ってない奴が50%ぐらい」に因果関係があるとは言えない
学力偏差値以外の財力と価値観の要素が大きくなってくるのもあるしね
ちなみに日本の大学の内訳は 国立86校 公立81校 私立596校 (H23.5.1現在) だそうで
私立の圧倒的殆どがFランクなのを考えれば、学力偏差値で合格が決まる人はそんなに多くない
面倒臭いところすまんね
すごい大雑把に言って、学力偏差値も標準偏差だから、偏差値50が50%は一致すると思うんだが違うんか?
つか、なになには何々ではなく、ちゃんと説明してくれ。
http://ja.wikipedia.org/wiki/%E5%AD%A6%E5%8A%9B%E5%81%8F%E5%B7%AE%E5%80%A4
現実問題として大学の入学者と 学力偏差値の相関を取ると40後半が足切り。
で、それは、大学進学率 の50%台とも相関してるだろ。
50%が60%だとか、 短大とか専門があるという意見なら受け入れるが、
大雑把に言って大学行ってない奴が50%ぐらいいる。は合ってるだろ。
元の文章の意味は おおよそ Fランクの入学基準が偏差値50前後 で、偏差値50前後で大学に入れるということは
50%ぐらいのやつが大学に入れる。だが、それは裏を返せば 50%の人間が大学には通っていない。
と言うことは、親だって、50%は大学に入っていない。で、それは、大学進学率とも近似する。
特に、今とちがって、昔はもっと生徒も多かったし、大学入れない奴も多かった。50%が嫌なら、40%強でもいいけどな。
で、どこが違う?そこ重要?
ごめんな、お互いめんどくさくね?
あのなー。そもそも東大生の平均IQが120って説の正しさを疑えよ。
平均IQが120ってことは、知能偏差値にして、東大生の平均知能偏差値は60ってことだよ?
ところで東大の入学標準偏差値を知ってるかな? だいたい、代ゼミとか河合あたりで70。
もちろん、知能偏差値は、だいたい全人類を母集団としているし、代ゼミの偏差値の母集団は、おおむね日本で大学受験をしようとしている人。
とすると、平均は明らかに「日本で大学受験をしようとしている人」>>>「全人類」 なのだが、なおその平均の乖離があっても、東大生の平均知能偏差値が60で代ゼミや河合の入学標準偏差値が70であることの説明はなかなかつかないと思うよ。
俺って致命的に空気とか顔色とかよめないからさ、好かれてるのか嫌われてるのかよくわかんないので、考えてもしょうがないと思って、あんまり気にしたことがない。
これはうちの男どもの血筋みたいで、弟も父も爺ちゃんも、どんなに叱られてもニコニコしてる。
承認欲求というのは、平たく言えば好かれたいってことなんかな?
というか、本質的には好かれてるか嫌われてるかなんてわかりようがないことなんだと思うよ。
腹の底じゃ、便利な男だと思われてるのかもしれないし、金づると思われてるかもしれないし。
他人の気持ちは、本当は絶対にわからない。
正確に確率分布を推定するにはサンプルが無限個必要なので無理ですが,平均と分散(標準偏差)ならある程度のサンプル数でもそれなりに正しく推定可能ですよね.
平均が分かればその事象の期待値(言い換えただけですが)が分かるし,分散がわかればその事象の不確かさが分かる.
例えば平均が45だったとしても標準偏差が100だったりしたらその推定した平均値はあまり役に立たなさそうですが,標準偏差が5程度に収まっていたらその平均値はかなり信頼してもいいですよね.もちろん過去と将来で状況が大きく変われば過去のデータに基づいた予測は難しいですが.
これらの情報を全部捨てて0か100かで判断するのももちろん一つの判断方法ですが,もっと統計的に考えたほうが得する場面が多くなるんじゃないかなと思います.
うちは理系専門職だけど、面接で専攻に関する専門知識はわりと突っ込んで訊く。あと実験、演習で果たした役割とか。
けれどそもそも「大学のレベル」って、面接してて「やっぱりあの大学からの応募者には結構良さそうな学生が多いな」みたいな印象を持つことはあるけれど、基本的には全員違うから。かなり標準偏差の大きな正規分布になってて、その平均値が大学によって多少違う、けれどもオーバーラップしている部分も大きい、という感じ。だからあくまで統計的に差が出てくるだけであって、同じ大学から出てくる人に対して輪切りみたいに同じ能力って印象を持つわけじゃない。
企業によっては大学名で選考をわけてるとこもあるかもしれないけど、それも統計的に良さげというだけであって、いい大学を出ててもその中で合う人ってのはほんとにごく一部だしね。
関係ないけど、「名前負け」っていうのは名前の方が立派すぎること。つまり本人がラベル(この場合は大学名か)の域に達していないことを言うんだけど、そういう意味で使ってる?
平均値も中央値も高いんだろうけど、標準偏差が大きすぎてそれでも有意差はないんじゃないだろうか
最頻値は他大卒とたいしてかわらない感じがする
自分にとって不愉快な統計分析が出ると「相関関係であって因果関係ではない」というのは定番だ。逆に自分にとって好都合だとまったくそういわないのも定番中の定番だが。「相関関係であって因果関係ではない」というのはとてもわかりやすいし汎用的だ。しかしそれゆえみんな口々に言うようになってしまった。その結果「相関関係であって因果関係ではない」だけではもはや通ぶれず、自分に不都合な意見を批判しながら自己顕示欲を満たすことはできない。そこで「相関関係であって因果関係ではない」ほど汎用的ではないが、わかりやすいフレーズを発表してみよう。それは「勝手に自分で指標をつくるな」だ。題材は「組合と学力に関連性はあるか? 低学力地域は日教組票多く」。ポイントは「学力とはいったいなにか?」ということだ。記事によると「小中2学年の全教科の全教科の今春の平均正答率の合算」だ。どこが問題なのだろう、具体的に考えてみよう。正答率だと面倒くさいので平均得点とする。A, B, Cという3つの県があったとする。テストの対象は数学と国語としよう。テストの結果は次のようになった。
科目 | A | B | C |
数学 | 50 | 70 | 60 |
国語 | 60 | 30 | 10 |
合計 | 110 | 100 | 70 |
単純合計ではA県がトップだ。従って産経新聞の分析ではA県の生徒がトップということになる。しかしそれでいいのだろうか?よくないだろう。同じ70点でも平均50点のテストにおける70点と平均80点における70点は異なる。また同じ「平均点プラス10点」でも得点分布のばらつきによって異なる。こうしたことを考慮しなければならない。こうしたことを考慮すると例えば平均からの差を得点分布のばらつきである標準偏差で割った数値の合計で比較する方法が考えられる。これは次のようになる((慣れないopenofficeでやったのでミスがあるかもしれない))。
科目 | A | B | C |
数学 | -1 | 1 | 0 |
国語 | 1.0 | -0.13 | -0.93 |
合計 | 0.06 | 0.87 | -0.93 |
平均との差を標準偏差で割ったものだとB県が一番ということになる。単純合計よりましだが、この指標にだって問題がないわけではなく完璧ではない。それについては置いておくとして、要はいくつかの指標から比較可能な((正確には比較に意味がある))指標を作り出すのは難しいのだ。逆に言えば分析者の作った指標についてはつっこみが入れやすい。公正な指標を作り出すのはほとんど不可能なので、ほとんどの場合「その指標は恣意的だ」という指摘が成り立つ。つまり自分に気にくわない統計的分析があり、それが自分で指標を作っていれば「その指標は恣意的だ。勝手に自分で指標をつくるな」といえばいいのだ。これからは「相関関係であって因果関係ではない」という馬鹿の一つ覚えを止めて、これを使って「俺は他の奴とは違うんだぜ」と自己満足に浸ってほしい。
それにしても「相関関係であって因果関係ではない」というのはよくいわれるのに、同じくらいわかりやすい指標の危うさについてはまったくいわれないなんて、日々自分に不愉快な分析に対して「相関関係であって因果関係ではない」といってる人の素性がよくわかる。