はてなキーワード: 中心極限定理とは
夕食前 84.1キロ 夕食+腐りそうなので残りサニーレタスとプチトマト一パック+ベビーチーズ1本 実就寝時間:01:00
実起床時間:07:00 朝食前 84キロ 朝食は納豆、油揚げ、ごはん、味噌汁、胡麻和え、しゃけ
午前中は尿のみ。うんこはなし。
昼食 水漬けパスタに半額お惣菜のエビの素揚げとホタテと半額だったスイートバジルを追加してオイルで和える
(水漬け10時間+3分茹でだと柔らかすぎだったので今後はもう少し短めに茹でること)
15:30 寝不足で頭がぼんやりしていて重力方向が変。今日は21時までに寝ること。→仕事の残りがあるので変更。
夕食は芋とキノコと玉ねぎと鶏の焼いたやつ と もやしとラディッシュの酢漬け
うんこはまだ出ていない
読書:
測度・確率・ルベーグ積分:40~59Pを行き来。具体的な証明とかは全然わからないのでどっかで手書き必要そう。「そもそも積分する対象といったものを有限加法性を持つかどうかなどで正しく構成しないと色んな不整合が生じるので自分がどんな対象に対して積分したいのかをよく認識してね」といったメッセージは読み取れたが、有限加法性やσ加法族、完備化やルベーグ可測、ルベーグ可測でないといったことがまだ頭の中で宙ぶらりんな状態で正しく事例と結びつかないのでその辺が要確認。
気になった言葉:相落手形、アイオロス(風の操縦者)、アイオワシティー(アイオワ州の州都ではない。州都はデモイン)、愛語摂→四摂事
視聴動画:
https://www.youtube.com/watch?v=DaDxCx2-hDc
https://www.youtube.com/watch?v=jfk42-0meJQ
実起床:7:35、84.3キロ(朝食前)。うんこなし。朝食はにんじん、ソーセージ、ブレッドプディング
11時8分 うんこが出る。少し柔らかそうだったが割合健康的な長うんこ。うんこ後体重は84.4
基本的にはリーマン積分のこれまでの過程をルベーグ積分でやり直してみようの回
最後の条件付き確率については加法族での確率空間の再構成という新しい概念が出ていて新鮮だった
実起床:6:30、84.2(朝食前)。朝食はごはん、納豆、味噌汁
海底二万マイルを少し読み進める。海底の森→潜水艇の日常風景→座礁→パプアの島という感じで冒険のステージが切り替わった感じ
海底二万マイルという言葉自体はまだ全く出ていない。下巻になってから? 不明。
12:30 ニンジン1/2本、蒸しじゃがいものちっちゃいの五個、半額総菜のサバのしょうゆ?煮みたいなやつ
COMIC DAYSとgoogle playの課金機能が動かなくなる。原因不明。
海底二万マイルをパプアで人食い人種が出てくるところまで読了。
0:30就寝
7:00実起床 朝食:ピーナッツバタートーストとソーセージとレタス
18:30 のりまき
読書はキングキラー・クロニクル 風の名前 宿屋の主人との会話まで完了。
腰の痛みで何度も起きてしまった。ポケモンスリープ1日目は1時間半しか寝ていないことに。
10:30に耳鼻咽喉科へ聴力健診。風邪で混んでいたので11:40まで待つ。ルベーグ積分を読み終えてしまったが、内容として読み終えただけで関数などの証明には至っていないのでまだまだ読めそう。内容としては中心極限定理や大数の法則についてを数学的に積分論の言葉を使って書き表す、というもの。一点気になったのは作者は大数の法則について「経験的な法則というだけでなく<しっかりと数学的な証明を持った考え方~」という話をしていたが、どちらかというと経験の方が大事なのではないかと思った。
また食と文化の本についてアジア編とインド編が読了し、アジアは米と魚、インドは(麦と米と)豆とミルク、遊牧文化圏以西は麦とミルク、みたいなまとめまで読んだ。納得できる。
12:30に中華弁当。中身はごはん、味玉、メンチカツ、じゃがいもとえびのあんかけ炒めみたいなもの。最後の料理は食べたことがある気がするが名前は思い出せない。炒土豆絲?
19:00までジム
ルワンダ銀行総裁日記を読了。改めてこれを読んでからルワンダ内戦について確認すると、服部も当時の政権側なのでその色眼鏡が入っているが、RPF側が勝利したので残念な結果だったのかもしれない。特に服部は当時の政権で仲のいい人たちがたくさんいただろうからやはりそれには心を痛めていたのかなという感じ。一方で調べてみるとRPF側が開戦した(ハビャリマナが殺された事件の犯人)というのも正しくはなさそう。
実際その後の難民の挙動はどうだっただろうというのは気になる。
15:00 うんこ
いろいろと見解が違うんだよなー。なんか長くなってしまった。すまん
回数を増やすと当たる確率が上がるのではなく、結果が安定する(分散が小さくなる)んだけど、まあいったんそれは置いとこう
まず、「確率を価値判断に用いる」ではなく「確率をもとに戦略的に結果を狙いに行く」判断をすることを確率に基づいた判断と表現してる。
「確率はかなり低いからいいや」という判断のことではなく、「期待値が○で分散が○なのでだいたい○から○ぐらいの結果が見込めるからやろう」という判断のこと
子供の命というものを考えるとき、確率に身を任せるのであれば可能な限り戦略的に結果を狙いに行くべきと思っている。
そうでなければ近くにいて目を離さないようにするか、可能な限り不幸の確率を下げる運用を考えるべき。(突然走り出す子にはハーネスつけるとかね)
で、n=1は結果がコントロールできず、安定しない。本当のギャンブルになる。
nが大きくなれば中心極限定理により標準偏差がルートn分の1になり、結果が安定してコントロール可能になる
99%成功する試行は100回やれるならトータルで勝てるけど、一回だけやったら外れを引くかもしれない。一回でも外れたら死ぬとしたら99%という確率に身を任せることは適切だろうか?っていう話
保育園の散歩中に車が突っ込んでくるようなのは極小確率と思って無視してるから確率に基づく価値判断はしてるけど、風呂の事故とか子供を一人にして襲われるとかはいい加減な確率に基づいて判断すべきでない(確率に身を任せるべきでない)と思う
純粋に統計的な話をするなら、正規分布p(x) ~ N(μ, σ)に従うサンプルxをx≧αみたいな条件で切断したものは正規分布には従わないわな。
中心極限定理は根本的には確率的に振る舞う量を沢山和を取ると高次モーメントの効果が消えて正規分布に近づくという話なので、1サンプルである個体について何か言うものではないと思う。
知能とか学校とか社会階層みたいな話では、適当な条件で切断して集めてきた小集団に対してはその集団特有の基準で評価がなされるので、その評価の下ではその集団の分布は正規分布になるというのはあるだろうと思う。
東大入試問題をFラン大受験生に解かせたらほぼ全員0点だろうけど、東大生に解かせたらおおよそ正規分布になるだろう。それは条件付き集団に対して結果が正規分布になるように基準自体が設計されているからだ。
その場合「サンプル」とはテストの各問題のことであって、総合得点は当然各問題の得点の和なので、各問題の正当率が適度に確率的に揺らいでいれば和は正規分布に従う可能性が高い。
遺伝のことは分からんけど、正規分布のところは中心極限定理の話してるんだから、元の分布が正規分布って言ってるんじゃなくてサンプル抽出後の分布が正規分布してるって話じゃないの?
もうなんか間違ったことしか書いてなくて増田が何でこんなもの書こうと思ったのかちょっと意味が分からないんだけど
一応気になったところだけ訂正・説明を入れておく。(ほぼ全文にわたっているが…)
途中で「なんでこんな中間テストの採点みたいなことやってんの…」みたいな気分になったけど
万が一これを読んで本気にしている人がいるといけないので義務感で最後まで書きました。
あまりの衝撃に最初からテンション高いですけどね。もう疲れたからこのまま上げます。
なんなんやいったい...
遺伝病の断種は、遺伝病の根絶について特に有効ではないと考えられています。まず、潜性遺伝病の場合はどうでしょうか。これは、両方の染色体に、多くは遺伝子機能欠失型の遺伝子変異があると起こります。親は、片方しか持っていなければ健康なのですね。すると、両方の遺伝子変異を持つ遺伝病患者を断種させたところで、片方だけを持つ親が世の中にたくさんいるわけです。どれくらいの数いるか?実はね・・・地球上の全人類で、これを持ってない人はいないと考えられています。今、個人の全ゲノム塩基配列決定とか普通にできてますからね。観察的にそうです。さてそれでも、両方の遺伝子欠失を持つ遺伝病の人を断種させれば、徐々に遺伝病は減っていくでしょうか?実はね・・・そうならないと考えられます。ハーディ・ワインベルクの法則って言うんですけどね。
まず、
「ハーディ・ワインベルクの法則って言うんですけどね。」じゃねーよ。
選択があるのに対立遺伝子(A、a)や表現型(AA、Aa、aaの組み合わせ)の頻度が変化しなければハーディ・ワインベルクの法則じゃないだろ。
潜性のホモ接合aa(つまり発病してる人)を継続的に人口から取り除いていけば人口中の対立遺伝子Aに対する対立遺伝子aの頻度は低くなるにきまってるだろ。
対立遺伝子aの頻度が低くなるんだからAA、Aaの組み合わせに対するaaの組み合わせの頻度(発病する人の割合)は低くなっていくにきまってる。
つまり両方の遺伝子欠失を持つ遺伝病の人を断種させれば、徐々に遺伝病は減っていくんだよ。ハーディとワインベルクによれば。
学部レベル以下の知識がないぞ自称ゲノム科学者。というか論理的な思考が出来てないだろう。どうやって大学はいったんだ?
頑張れ。もっと頑張れ。
さてそれでは、顕性遺伝病の場合はどうでしょうか。これは、染色体の片方にでも遺伝子変異があれば発症するもので、つまり、遺伝病を発症している人を断種させれば理論的に根絶できます、が、実はね・・・ヒトゲノムには突然変異が起こるのです。もちろんこれが進化の原動力なわけですが、これにより、顕性遺伝病も発生します。つまり、両親が健康で、遺伝子変異を片方持つわけではない場合でも、子に突然変異が発生して顕性遺伝病は起きるのです。デノボ突然変異って言います。
「実はね・・・」じゃねーよ。今どき突然変異が起こることを知らねー人間が存在するのか? 進次郎か。プラスチックの原料か。
そもそも突然変異の発生率がとても低くて、ひとつの遺伝子につき平均で一世代で一万分の一から百万分の一(*1)。しかもアミノ酸のコドンには冗長性があるからベースペアが一ヶ所変異してもアミノ酸は変わらないことの方が多いし、アミノ酸がひとつ変っても即タンパク質の働きに影響が出るわけではないから機能不全が新たに発生する率は実際にはひとつふたつ低いオーダー(十万分の一から一億分の一)。
だから新しい変異による発病はほぼ無視できるんだけど、実際の変異率がいくつにしろ発生率より速いレートで変異を取り除いていけば全人口中の有病者の割合が下がっていくのは当たり前のことだし、変異を取り除かない場合の有病者割合の増加率は継続して取り除いた場合に比べれば絶対に高くなる。当たり前の話だ。
そもそも(十万分の一から一億分の一の確率で)「子に突然変異が発生して顕性遺伝病は起きる」ことと「顕性遺伝疾患を持つ親の子供は100% 50%-100%の確率で(素で間違えた。恥ずかしい)おなじ遺伝性疾患を持つ」ことは別の話だ。子に突然変異が発生して顕性遺伝病が起きたら当然「その子が」生殖することを許さず新たな有病者の発生とそれによる社会の負担の増加を防止しようというのが優生思想だし、それは可能なんだよ。
優生学は「特定の個人が病気を持つかどうか」の話じゃあない。優生学は集団遺伝学の話(集団中の有病者の割合・それがどう変化するか)なんだよ。この違いが分かってない生科学者なんて存在するのか?
有効だよ。上に書いた通り。「抑制」は「根絶」じゃないしそもそも根絶は目指してないから。
問題は「個人に遺伝病が起こるか起こらないか」じゃないんだよ。問題は「全人口の中の有病者の割合をどう抑えるか」だよ。
さて、ここまで読んでくれば読者は気づいたでしょうが、運動能力、見た目の美醜、学歴、といったものは、これは単一遺伝子型ではありません。もし、学歴を問わない父親と、東大卒の母親から生まれた子の1/2が東大卒になると言うなら、これは単一遺伝子型の顕性遺伝と言うことになりますが、そんなわけはありません、経験的に。誰も行かないこともあるし、佐藤ママみたいに4人全部行くこともあるでしょう。単一遺伝子型なら、こういうばらつきは起きません。ばらつきが起きるが、一定の遺伝性はあるように見える形質、これは多遺伝子型です。
ちょっと待て。
「単一遺伝子型なら、こういうばらつきは起きません。」じゃねーよ。
たとえ「東大卒業する」が顕性単一遺伝子だとしても子供がその顕性遺伝子をもつかどうかは確率の問題で、必ず「生まれた子の1/2が東大卒になる」わけじゃねーだろ。ひとりひとりの子供が「東大卒業する顕性単一遺伝子」を持つ確率が1/2なら「子供4人中誰も東大卒業しない」も「4人全員が東大卒業する」も6.25%の確率で(ばらつきが)起こるだろ。
性染色体はひとつの遺伝子じゃないけどXとYはクロスオーバーしないから単体として遺伝するだろ? 男が生まれる確率(子供がYを持つ確率)は常に1/2だな? それでも全ての家庭で常に「生まれた子の1/2は男」になるか?経験的に。誰も男じゃないこともあるし、佐藤ママ(誰やそれ)みたいに4人全部男のこともあるでしょう? 遺伝というのは確率だから顕性だろうと単一だろうとばらつきは起こるんだよ。
この多遺伝子型の形質には、単一ではないとするならどれくらいの数の遺伝的変異が関与するでしょうか。これはここ10年くらいで確定してきた最新のところではあるのですが、どうも最低数千あるようです。それぞれの形質に、それぞれ数千です。こんなにたくさん因子があるとどうなるかというと、中心極限定理により正規分布します。多遺伝子型の形質は、正規分布するのです。すると何が起こるでしょう?
平均への回帰です。
「平均への回帰です。」じゃねーよ(笑)溜めをつくって関係ねーことを言うな。渾身のボケか。(ちょっとウケた)
無数の試行の平均が母集団の平均値に回帰するのは母集団が(またはサンプルが)「正規分布だから」じゃねーよ。大きい値も小さい値もランダムに抽出するからだよ。
親と子の身長に相関があり、長身の親(正規分布の一方の端)だけ取り出したら(つまりランダムではない。これが優生理論)、その子供の平均身長は「長身の親の平均値」に近づくにきまってるだろ。「長身も低身長も含めた母集団の平均値」に回帰するわけがない。
おまえ本当に大丈夫か? なんかわざと間違ったこと言おうとしてる? ツッコミ待ちか?(たぶんそうなんだろうなぁ...)
いみじくも優生学の創始者ゴールトンが明らかにしたのが、親の身長とその子の身長を比較すると、極端に身長の高い親の子は、どちらかというと平均側、普通っぽい身長の方にシフトする、と言う現象です。それで回帰というわけですね。平均に戻る、ってことです。
ゴルトンの観察が平均に回帰した(ように見えた)のは実験の条件が一定じゃなくて子供のサイズが親のサイズよりも環境から受ける影響の方が大きかった(つまり親のサイズという変数に対して無作為抽出になっていた)からだろ。だいたいゴルトン自身が気付いて生物学的根拠のない統計上のアーチファクトだって言ったものを掘り出して差し上げるな。晒し上げか。
どういうことでしょうか。メジャーリーグMVPの大谷翔平の子は、みんなメジャーリーグとかよりもずっと普通っぽい才能になるだろう、ってことです。ええ、皆さん、知ってますよね。長嶋茂雄の子もそうだった。野村克也の子もそうだった。あれが理論通りなんです。教育環境がいいから、それでも普通よりはいい方に行くわけですけど、親と同じような超絶スーパーエリートにはならなくて、それは統計学的に予想通りでして、確率統計の基礎の基礎、正規分布の性質により説明できます。大体さ、大谷翔平の親はどうなのよ。メジャーリーガーだったわけじゃないわけですね。
大谷翔平、長嶋茂雄、野村克也が周りより一歩も二歩も抜きんでてたのは遺伝形質(身体的特性)に加えて本人が努力したからに決まってんだろ。努力の結果が遺伝するわけがない。遺伝疾患や体格と一緒にするな。わざとか。どっかの詭弁のテンプレートにこういう例があるのか。
まあ、それでも、意味があるじゃないかっていうかもですね。平均への回帰って言っても極端だったのが極端でなくなる、ってわけで、身長が高い親の子の平均値は、身長が低い親の子の平均値よりは高いです。平均だけの話で、大幅にオーバーラップしますが。それでも平均を徐々に上げていけばいいじゃないかと。
だから初めから優生学の対象は特定の個人の能力(大谷翔平の子供は野球が上手いかどうか)じゃなくて集団全体の性質だって言ってるだろう。もともと「全体の平均を上げること」「全体の中で望ましい(くない)ものの割合を増やす(減らす)こと」が目的だ。「背が高いことが社会にとって良いことだ」となったら(どういう理由でそうなるのか知らんが。軍事強化?)長身の者に優先的に生殖の機会を与えて国民の平均身長を大きくするのが優生学の目的と手法だろう。むしろそれ以外になんだと思ってるんだ?
いずれにしろ「身長が高い親の子の身長も身長が低い親の子の身長も平均に回帰する」というのは単純に間違い。もしそうなら長身の者だけに生殖させても平均値が高くなるわけがないし(どういう理屈で「平均への回帰」と「平均を徐々に上げていく」が両立できるんだよ?)長身のものが優先的に子供を残せば集団の平均身長が高くなるのはすでに事実としてわかってる。(*2)
ところが、多遺伝子型には数千もの遺伝的変異が関係するというのはどういうことかというと、単一遺伝子型のように、どれか一つの遺伝的変異はどれか一つの遺伝病に対応する・・・ということになりません。重複しちゃうんです。ある遺伝的変異は、ある形質にも、別の形質にも、関係する。多面的関連と言います。例えば身長を高くする遺伝的変異は、同時にがんになりやすくする多面的関連を持つことが多いことがわかっています。するとどうなるか。身長を高くするように、集団の結婚相手を操作していくと、がんが多くなって寿命が短くなるでしょう。では学歴はどうか?学歴を高くする遺伝的変異は・・うつ病になりやすくすることがわかっています。
ここの部分は必ずしもすべて間違っているとは言えないが、身長の高さとガンの発生にについてはそれぞれが関連する遺伝子座の間に統計的な相関が見つかったというだけで身長を高くする遺伝子がガンの原因になるというわけではないし、長身の集団が低身長の集団に比べ短命であるという証拠もどこにもない。後者(学歴)に至っては関連が指摘されているのは「うつ病」と「低学歴」だし(*3)、それが共通の遺伝子の多面作用によるものだという考えは否定されている(*4)のである。
ていうか今気付いたけどこいつ遺伝的変異ってずーっと 「mutation(突然変異)」の意味で使ってない? 遺伝的変異は variation だから「数千もの遺伝的変異」とか「どれか一つの遺伝的変異」とかないんだけど...
これ、マジでまちがい探しかなんかか? なんで書いてあることがことごとく間違ってるんだ? 罠?
どうでしょうか。基本的に優生学というのは、国家の文脈で語られます。学歴の高い国民をより多数生み出し、国家の生産性を上げたい、というわけです。しかしどうでしょうか。うつ病が増えると、生産性はどうでしょうか。私はうつ病の人は生産性が悪いと言いたいわけではありません。しかし、優生学論者のロジックは成立しますか?(明示的に成立するとは言えないのではないですか?)と言いたいのです。
多遺伝子型の遺伝構造はまだわかっていないことも多く、「優生学的操作」をしてどうなるかすらわかっていないんですよ。形質に遺伝的因子があるなら、優生学的操作をすれば人類は必ず優秀になる・・・というのが元増田の議論の開始点だと思いますが、そこ、すでに間違ってるんです。
だからなんで話を「まだわかっていないこと」だけに限定するんだよ。じゃあわかってることには優生学的手法を使ってもいいのかよ。国や医療システムにかかる負担を軽減するために「遺伝病患者は子供つくっちゃいけません」っていいのか? 問題はそこじゃないんだよ。
優生思想がダメなのは「科学的に間違ってるから」でも「有効じゃないから」でもないんだよ。優生論の生物学遺伝学的手法が有効なのは動植物の繁殖で既に実証されてるから。元増田が優生学とは何かをそもそも理解していないのは確かだが、おまえの言ってることもほぼすべて間違ってる。
結論としてすでに社会的に受け入れられてない優生思想を否定したいんだったら、ウソを書いてまで「科学的」根拠をでっちあげる必要がないだろう。
なにが目的だ?
まさかゲノム科学者(自称)がこれらの間違いを本当に信じているはずがあるまい。
特にうつの「高学歴」と「低学歴」入れ替えてるところなんてワザとじゃなきゃどうやって間違えるんだよ...
*1 https://www.sciencedirect.com/topics/biochemistry-genetics-and-molecular-biology/mutation-rate
*2 https://www.science.org/content/article/did-natural-selection-make-dutch-tallest-people-planet
まあ、なんちゅうか、トラバも盛大に伸びているので、私の書くここまで、元増田は辿り着かないかもしれませんが・・・
私はゲノム科学者ですが、元増田の持つ疑問は、別に自然なものだと思うんですよね。というより、ゲノム配列決定が非常に身近になっている昨今、ちゃんと向き合っていかなければならない疑問だと思っています。私は私の持つ知識の範囲で、疑問にお答えしたいと思います。倫理は専門外なので扱いません。タブーとか扱いません。裏の意図を読もうとしているブコメが多数ありましたが、理系なのでよくわかりません。
まず、元増田の挙げているような、運動能力、将棋の能力、見た目の美醜とか、学歴、といったヒト個人ごとに異なる特徴を「形質」と言います。形質を遺伝学の観点から見ると大きく分けて二つあり、単一遺伝子型(メンデル型)と多遺伝子型(多因子型)です。
おそらく優生学にせよ遺伝にせよ、専門外の人が通常頭に思い浮かべるのは単一遺伝子型です。この場合、メンデルの法則により顕性(優性)または潜性(劣性)のモードで、親から子に形質が伝達されます。単一遺伝子型の形質として最も簡単に思い浮かべられるのは遺伝病です。あと、お酒飲める飲めないもギリギリそうです(これは本当は少数遺伝子+多遺伝子型だけど)。あと、耳垢が乾いてるか湿ってるかとか。親指が90度以上後ろに曲がるかとか。
そして、この遺伝病に対して優生学政策を行ったのがナチスドイツというわけです。遺伝病の人を断種させようとしたんですな。流石に元増田はそんなことが良いと思っているわけではないと思いますが。
遺伝病の断種は、遺伝病の根絶について特に有効ではないと考えられています。まず、潜性遺伝病の場合はどうでしょうか。これは、両方の染色体に、多くは遺伝子機能欠失型の遺伝子変異があると起こります。親は、片方しか持っていなければ健康なのですね。すると、両方の遺伝子変異を持つ遺伝病患者を断種させたところで、片方だけを持つ親が世の中にたくさんいるわけです。どれくらいの数いるか?実はね・・・地球上の全人類で、これを持ってない人はいないと考えられています。今、個人の全ゲノム塩基配列決定とか普通にできてますからね。観察的にそうです。さてそれでも、両方の遺伝子欠失を持つ遺伝病の人を断種させれば、徐々に遺伝病は減っていくでしょうか?実はね・・・そうならないと考えられます。ハーディ・ワインベルクの法則って言うんですけどね。
さてそれでは、顕性遺伝病の場合はどうでしょうか。これは、染色体の片方にでも遺伝子変異があれば発症するもので、つまり、遺伝病を発症している人を断種させれば理論的に根絶できます、が、実はね・・・ヒトゲノムには突然変異が起こるのです。もちろんこれが進化の原動力なわけですが、これにより、顕性遺伝病も発生します。つまり、両親が健康で、遺伝子変異を片方持つわけではない場合でも、子に突然変異が発生して顕性遺伝病は起きるのです。デノボ突然変異って言います。
ただしね・・・現在では、人工授精の際、受精卵の染色体やゲノム配列を調べて、遺伝病になるゲノムを持つ受精卵を選択しない、という医療、これって、実現化してるんですよ。ダウン症はすでに一般化してますが、単一遺伝子疾患もできます。この、遺伝病の子になるなら産まない選択・・・これは優生学的判断ではないのか?これってめっちゃ難しく、元増田を多くの人が簡単に批判しているほど単純な問題ではないと思います。私は、個人の選択は優生学とは言わず、個人の自由であるとは思うものの。倫理の専門家ではないので理論武装がしっかりしているか、自信はありません。受精の時点で人権が生じるという考えからすれば、これは殺人であり、虐殺です。ただ一つ言えるのは、ナチスドイツの断種法と異なり、この受精卵選択は、科学的に有効な医療であると言うことです。
さて、ここまで読んでくれば読者は気づいたでしょうが、運動能力、見た目の美醜、学歴、といったものは、これは単一遺伝子型ではありません。もし、学歴を問わない父親と、東大卒の母親から生まれた子の1/2が東大卒になると言うなら、これは単一遺伝子型の顕性遺伝と言うことになりますが、そんなわけはありません、経験的に。誰も行かないこともあるし、佐藤ママみたいに4人全部行くこともあるでしょう。単一遺伝子型なら、こういうばらつきは起きません。ばらつきが起きるが、一定の遺伝性はあるように見える形質、これは多遺伝子型です。
単一遺伝子型は、確かに、遺伝情報を調べると病気になるかどうかかなり高い確率がわかって、この事実だけを見ると、遺伝子決定論を信じたくなります。ところがですね、幸いなことに、遺伝病ってとっても稀なんです。世の中のほとんどの病気は多遺伝子型です。あなたのコレステロール値すら予測が難しい。多遺伝子型は、遺伝的変異が多数関わるだけでなく、環境によって大きく変化するんです。学歴も、運動能力も・・・そして見た目もです。
この多遺伝子型の形質には、単一ではないとするならどれくらいの数の遺伝的変異が関与するでしょうか。これはここ10年くらいで確定してきた最新のところではあるのですが、どうも最低数千あるようです。それぞれの形質に、それぞれ数千です。こんなにたくさん因子があるとどうなるかというと、中心極限定理により正規分布します。多遺伝子型の形質は、正規分布するのです。すると何が起こるでしょう?
平均への回帰です。
いみじくも優生学の創始者ゴールトンが明らかにしたのが、親の身長とその子の身長を比較すると、極端に身長の高い親の子は、どちらかというと平均側、普通っぽい身長の方にシフトする、と言う現象です。それで回帰というわけですね。平均に戻る、ってことです。どういうことでしょうか。メジャーリーグMVPの大谷翔平の子は、みんなメジャーリーグとかよりもずっと普通っぽい才能になるだろう、ってことです。ええ、皆さん、知ってますよね。長嶋茂雄の子もそうだった。野村克也の子もそうだった。あれが理論通りなんです。教育環境がいいから、それでも普通よりはいい方に行くわけですけど、親と同じような超絶スーパーエリートにはならなくて、それは統計学的に予想通りでして、確率統計の基礎の基礎、正規分布の性質により説明できます。大体さ、大谷翔平の親はどうなのよ。メジャーリーガーだったわけじゃないわけですね。
まあ、それでも、意味があるじゃないかっていうかもですね。平均への回帰って言っても極端だったのが極端でなくなる、ってわけで、身長が高い親の子の平均値は、身長が低い親の子の平均値よりは高いです。平均だけの話で、大幅にオーバーラップしますが。それでも平均を徐々に上げていけばいいじゃないかと。ところが、多遺伝子型には数千もの遺伝的変異が関係するというのはどういうことかというと、単一遺伝子型のように、どれか一つの遺伝的変異はどれか一つの遺伝病に対応する・・・ということになりません。重複しちゃうんです。ある遺伝的変異は、ある形質にも、別の形質にも、関係する。多面的関連と言います。例えば身長を高くする遺伝的変異は、同時にがんになりやすくする多面的関連を持つことが多いことがわかっています。するとどうなるか。身長を高くするように、集団の結婚相手を操作していくと、がんが多くなって寿命が短くなるでしょう。では学歴はどうか?学歴を高くする遺伝的変異は・・うつ病になりやすくすることがわかっています。どうでしょうか。基本的に優生学というのは、国家の文脈で語られます。学歴の高い国民をより多数生み出し、国家の生産性を上げたい、というわけです。しかしどうでしょうか。うつ病が増えると、生産性はどうでしょうか。私はうつ病の人は生産性が悪いと言いたいわけではありません。しかし、優生学論者のロジックは成立しますか?(明示的に成立するとは言えないのではないですか?)と言いたいのです。
多遺伝子型の遺伝構造はまだわかっていないことも多く、「優生学的操作」をしてどうなるかすらわかっていないんですよ。形質に遺伝的因子があるなら、優生学的操作をすれば人類は必ず優秀になる・・・というのが元増田の議論の開始点だと思いますが、そこ、すでに間違ってるんです。
「結果がガウス分布になるように調整」というのは本質的にできないよ。その意味は「データからガウス分布をフィッティングした」という意味でしかない。例えば範囲付きで直線状になる分布関数が得られてしまった場合や一様分布になってしまった場合を考えてみればよい(一様分布と言うとBox-Muller変換を思い浮かべてしまうかもしれないけど、あれはサンプリングの話なので)。
モーメントというのは、確率分布関数があったらそのz変換のようなものとしてモーメント母関数というものを定義することができて、モーメント母関数のn回微分をn次のモーメントと言ってx^nの期待値に一致することから来ている。だから平均を1次モーメント、分散を2次モーメントと言う。
あとべき分布とコーシー分布は別物だよ。べき分布はp(x) ~ x^{-a}となるような分布のことで、他のレスにも書いたけどx>>1でのp(x)の挙動がそれに従うという意味で言うことが多い。コーシー分布もそうだけど1次や2次のモーメントが発散するような分布に従う変数については中心極限定理が成立しないんだけど、それでも一般化中心極限定理というのが成立する場合があってそのような変数の和は安定分布という分布に従うことがある。安定分布の裾はべき分布になってる。
ホリゾンタルレッグプレス 140-120-100 kgで15回ずつ2セット
消費: 616 kcal
体脂肪率: 25.0 %
標準誤差についてちょうど学んだので簡単にまとめる。
中心極限定理は「平均μ、標準偏差σを持つ母集団(分布の形状は問わない)からサンプルサイズnの標本を抽出することを繰り返す場合、抽出した値から計算した平均値は、nが大きいほど平均μ、標準偏差σ/√nの正規分布に従って分布する」というもの。ここで登場した標準偏差σ/√nが標準誤差。
サイコロについて考える。1から6までの値が一様に出るため、平均μは3.5, 標準偏差σは√(35/12)≒1.708。サイコロの出目の母集団から無作為にn個取り出して、平均を求める試行を考える。標準誤差はσ/√nで求まる。
例えばサイコロ3回平均の出目は、信頼区間を95%取ってμ±(σ/√n)×2=3.5±1.97に入ると推測されます。じゃあ実際に振ってみましょう。ここにサイコロはなかったのでパソコンを使います。[3, 2, 1]と出ました。平均は2。信頼区間の範囲内に入ってますね。
10回だと信頼区間は3.5 ± 1.08。ちょっと範囲が狭くなりました。サイコロを10回振ってみると、[6 1 1 6 1 6 3 6 2 2]で平均は3.40。範囲内です。100回だと信頼区間は3.5 ± 0.34。だいぶ小さくなりましたが、100回振ってみると平均は3.74、範囲内に入りました。
で、これを逆向きに使うと今度は「標本の平均値と標準偏差」から「母集団の平均値」の信頼区間が計算できて...って話をしようと思ったけどで話が長くなったので終わりにします。
中心極限定理やF分布についてふわっと学ぶ度、こういうものを本当に理解するためには大学数学の知識が必要なんだろうなと漠然と感じていた。
研究室はそういうところを専門とはしておらず、ただあくまでツールとして、回帰分析回したり分散分析するくらいでよかった。
就職先は金融ではあるけれどクオンツやアクチュアリー職ではないから、たぶんそういうものの出番はない。
バカな僕は数理統計を学ばずにいて統計を用いた研究やるなんて、ちゃんちゃらおかしいと思っていたし、
就職先でもそういうことを学んでいれば周りよりも一歩二歩先を行けると信じていた。
しかし、マセマをやっても定評のある教科書を終えても、なんだか自分が思ったほどできるようにはなっていないことに気づいた。
やってることと言えば、学ぶ前も後も全く同じように回帰を回し、p値を眺めてあーだこーだ言ってるだけだった。
p値ハックの記事やベイズの有用性を目にするたびに自責の念にかられてつらくなる。
もしかしたら自分がやったことは無駄だったのかもしれないと思うようになる。
就活を終え、今一度参考書に取り組んでも、抜け落ちているところがいくつもあったことに絶望してノートもすべて捨ててしまった。
そもそも検定というのは、
「A(とB)は性質Xを満たすかもしれない」
という仮定があったとき、
「もし「A(とB)は性質Xを満たす」としたら、A(とB)の統計量Fは分布Dに従うはず。
それでは実際にそうなるか、見てみよう」
というテストを行うこと。
(どれだけ頑張っても「本当にAは性質Xを満たすのか?」が100%確実になることはないことに注意。)
カイ二乗分布というのは上の説明のうち「D」にあたるところによく用いられる、特別な分布。
どんな分布でも数集めた平均が正規分布に従う(中心極限定理)ように、
そりゃおめーの訊き方が悪かっただけじゃねーの?