はてなキーワード: 統計処理とは
今日この記事 http://bzfd.it/2jkl8zc がホッテントリに入っていたが、正直言って早野龍五氏の科学者としての良心を疑わざるを得ない内容であった。
ところがブコメを見ると一部を除いて賞賛で溢れかえっている。未だに日本の科学リテラシーが低いことを痛感した。
ということで、彼の主張の何が科学的方法論としておかしいのか、挙げてみたい。
この文章は、あくまでも彼の主張の問題をつくだけのものである。福島が安全かどうかというのは全く別の問題であり、ここではそれに関する議論は一切しない。
これでも噛みつかれそうなので一応書いておくが、別に私自身は特に何かを避けているとかはない。単に面倒だからだ。
例えばSTAP細胞のときに、たとえSTAPが存在したとしてもゲルの切り貼りなどをした小保方氏はguiltyであるという主張は広く受け入れられたが、全く同じことである。
たとえ福島が安全であっても(その可能性はSTAP細胞が実在するよりは遥かにもっともらしいとは思うが)、早野氏の科学的姿勢は適切ではない。
(福島とSTAPを比べるなんて失礼極まりない!放射能乙!と思われた人は論理的思考法が向いていないと思うのでブラウザバックを推奨する)
簡潔に書くと
これはブコメでも幾つか指摘が見られた。Srと言うのは極めて厄介な核種で、崩壊時にβ線しか出さない。
β線はγ線と異なり荷電粒子線であるので、物質中では前方散乱により極めて速くエネルギーを失い、かんたんに遮蔽されてしまう。
外部被曝という点ではこれはよい性質であり、我々はSrの影響を気にする必要はない。
しかしながら内部被曝ではこれは極めて厄介である。基本的にはCsとことなり、正確に体内のSrの量を見積もることはできない。
さらに厄介なことに、Srはアルカリ土類元素であり、Csとことなり生体での半減期が極めて長いことが知られている。
また、体内での蓄積部位も異なるので、影響も異なるはずである。今までの疫学調査でもSrは直接測定できていないわけで、Csほど信用に足る基準値は設けられない。
したがって、特に過去の摂取について、WBCは内部被曝とは一切の関係がない。あたかもWBCが銀の弾丸であるかのように書くのは重大な欺瞞である。
食品に対しても同様で、Srの蓄積は注意深く扱う必要がある。全量検査では図ることができないからだ。
Srはあまり飛散せず、炉中に多く残っていると言われていることから、汚染水はどうなっているかも不明である。
一応心配になった方のために厚労省の資料 http://bit.ly/2iZ4M2u を挙げておくが、殆どの資料では検出限界を下回っているようなので、サンプルでの安全性という点では問題ない。
しかし、保証されているのはそのレベルであって、全量検査は銀の弾丸ではないということに留意されたい。
(別にサンプルしか見てないからダメだと言っているわけではないよ)
こういうソースがあって、このうちこれ由来の放射線は全量検査でき、ここであるモデルを仮定するとそれ以外の放射線についてもこの程度見積もれる、というのが正しい科学である。
WBC!全量検査!安全!というのではなんの説明にもなっていない。
もちろん現地でそういう説明をしているのかもしれないが、すくなくともこのインターネット記事を見るだけでは非科学的な説明しか見当たらない。
そもそも、科学は白黒つける方法論ではない。統計学に従って、確率xx%以上でyyである、ということをいう手法である。
なぜならば、ものを測って何かを予言する際には、次の3つの誤差が必ず発生しうるであるからである。すなわち、「理論誤差」「系統誤差」「統計誤差」。
高校や中学で習う科学では、理論誤差はないものとして扱うが、測定時の機械による系統誤差および個人誤差は必ず生じる。
確率事象を測定することはあまりないから統計誤差には馴染みがないかもしれないが、生物の授業などで習ったのではないか。
また、現実のサイエンスの世界では理論誤差は極めて重要である。上のように限られた情報(例えばCsの量)から何か(例えばSrの量)を推定する場合、必ずモデルが入り、それに伴う誤差が生じるからだ。
科学の世界でも最も統計に対して厳しいのは、早野氏の分野である素粒子・原子核の分野である。
例えばCERNで見つかったHiggs粒子は5σ(99.9999426697%)以上の確率で存在すると確かめられてはじめて発見と相成った。
しかし、彼がいまだかつて福島の問題で統計を議論したことがあるだろうか?
「xx人を検査しyyであったのでモデルzzを仮定すれば福島事故のせいでww病にかかる人は10万人中aa±bb人である」というのが正しい科学的な言い方である。
もしaaが十分少なければ、「1 / bb = nだから、nσすなわちcc.cc%の確率で10万人いても誰もww病にかからない」ということができる。
ではなぜこれをしないのか?
私は全く専門外なので知らないが、おそらく疫学調査などではサンプルが少なすぎる、あるいは理論誤差が大きすぎるため、このような統計処理がうまくできないのではないだろうか。
また、「3σすなわち99.7%で安全です!」と言われても多くの人はむしろ恐怖を覚えるだろう。誰も1000人のうちの3人にはなりたくない。
(本当は3σで安全だからといって3人必ず病気になるわけではない。ただ科学的には「わからない」というだけである。誤解なきよう)
最後の点に関しては100%早野氏に原因があるわけではなく、日本人のリテラシーの低さも問題ではあるが。
しかしだからといってこれは全く言い訳にならない。仮にも原子核物理学者を名乗っているならば、物理学者としての作法を通すべきである。
科学というのはこのように、いわば「歯切れの悪い」ものである。だからこそ、「水素が溶けた水はアンチエイジング!」みたいに歯切れのいいニセ科学が跳梁跋扈するのだ。
科学者はニセ科学に対抗するためにはきちんと科学の流儀を通さなければならない。「わかりやすい」白か黒かの主張は、むしろニセ科学に歩み寄るものではないか。
早野氏を賞賛するコメントでよく見受けられるのは、彼はアウトリーチを通して市民に安心を与えているから素晴らしいのだ、という主張である。
上の記事を読んでも伝わるが、早野氏自身も、市民を安心させるという点は意識していると思われる。
しかしながら、科学者の役割はあくまでも観測対象を客観的に見つめ、客観的な結論を出すことである。その結論を見て本人がどう行動する、あるいは行動すべきかというのは、本人、あるいは政治家が決めるべきことではないか。
もちろん市民に安心を与えようというのが偽善だとかいうつもりはない。しかし、あまりに対象に近づきすぎてしまえば、科学としての客観性が失われてしまう。
上で述べたように、あくまでも科学的にわかるのは、「cc.cc%以上の確率で安全」ということだけである。そのことと「絶対安全」の間には、大きな溝がある。
政治家が情けなさすぎるのか早野氏が科学者としての役割を逸脱しているのか、あるいはその両方なのかはわからないが、いずれにせよ「100%安全」というのは、科学者の言葉ではない。
これが行き過ぎれば、100%STAP細胞があると信じて実験事実を捻じ曲げた、小保方晴子が再び生まれることだってありえないとはいえない。
何度も言うように、私は福島が安全かどうかについては何も言うつもりはないし、この文章は何も言っていない。
ただ言っているのは、早野氏の言動には科学者として疑問を持つものが多いということである。
なお、もしかしたら「東大の物理の偉い先生が言ってるんだから正しいんだよ!」と思う人もいるかもしれない。
補足までに書いておくが、物理の研究者で福島に言及している人のうち、早野氏のように「絶対安全」を繰り返す人と、ここで述べたようなきちんとした科学的手続きを取っている人はだいたい半分ずつくらいである。
自分は不器用なせいかグラフの手書きが致命的に遅かったので、2年前期の実験で危機感を感じた自分は2年の夏休み中にpythonを覚え、今まで苦労していたグラフのプロットなどをパソコン上で全部自動化しようと考えた。日本語の情報が少ないため(あっても多少古かったりすることが多かった)、情報をかき集めるのに相当苦労したが、夏休みが終わるころにはjupyter notebook(名前通りノートブックのような実行環境でセルごとにコードを実行するという形をとっている)上で統計処理をしたりそのデータを基にグラフをプロットするのはある程度できるようになっていた。
早速2年後期の実験でpythonを試してみたが、その威力は凄まじく、今まで時間のかかっていた作業が劇的に効率化した。pythonのモジュールであるpandas,numpyを使えばデータ列を文字式のように扱えるので(例えば実験データをdataとして、そのデータをすべてcos関数に代入したかったらnumpy.cos(data)と書けばよい、Excelと似たようなものだがこちらは変数として扱っているので使いまわしが容易である)、Excelでちまちま関数をセルに入力して列全体に引き伸ばすという操作もしなくていい。グラフもコマンドで出力するので当然だが今まで苦労していた手書きのプロット作業はなくなった。GUIありきのExcelと違ってコードひとつでグラフの罫線の調整などもかなり簡単にできる。高級言語だけあってコードは組みやすく、実験中に即興でプログラムを組むことも割りとできる。しかもコードさえ組んでしまえばあとは実行するだけで計算、グラフの描画を一気にやってくれるので、実験結果の確認が極めて素早く行えるようになった。しかもjupyter notebookはmarkdown形式の文章を埋め込めてメモ書きも残せるし、mathjaxに対応しているのでlatex形式の数式も途中に挟むことが出来る。最高の環境だと思った。しかし良いことばかりではなかった。
パソコンで全部やろうとする自分を見た一部のTAはなぜか自分にグラフを手書きにしろと要求してきた。自分は反論した。「グラフならパソコンですでに出力できているのになぜわざわざ手書きにする必要があるのか?」これに対するTAの答えはだいたい「平等性を保つため」、「他のみんなは手書きでやっている」、「理解を深めるため」、「他学科は手書き必須だから」というような感じである。自分にとっては、これらすべてが理解できなかった。そもそも手書きにすることによって実験に対する理解がどう深まるというのか?自分はむしろ手書きを徹底的に排除することによって、煩雑な作業をする時間を考える時間に充てた。そのおかげで実験に対する理解は以前と比べ物にならないくらいに深まった。手書きじゃなければ理解が深まらない理由はない。そもそもパソコンのほうが厳密にコードを組まなければならない分だけ理解力を要求されるはずである。「理解を深めるため」といっている本人だって結局その言葉の意味もわからず言っているにすぎない。
「平等性」に関しては全く別のTAから複数回言われた。「パソコンを使って効率化しようとするのはずるい」と言いたいのか、このTAは?pythonだって1ヶ月間死に物狂いで情報をかき集めて覚えたのに、それのどこがずるいというのだろう。平等性を掲げて効率化を否定し、全員に同じ作業を強要させ、「成績」をちらつかせて脅すのはずるくないのか?みんな一緒に抑圧されましょうということか?これを言われたときに感じた何とも言えない吐き気のようなものは今でもうっすらとだが覚えている。正直なところ、プログラミングが出来るというだけでむしろ褒められると思ったのだ。パソコンが使いこなせるほうが印象はいいに決まってると思っていたのも、結局は自分の勘違いだった。
pythonを使い始めてからの2年後期、3年前期を通して4,5回ぐらいTA(全員別の人)に「手書きにしろ」と言われたが、言われるたびに反論するのもいい加減に疲れてきた。なぜ手書きにする必要があるのか、自分は聞かれるたびにこう聞き返した。まともな答えを返したTAは一人もいなかった。大学の先生が担当する実験でPCは駄目なんて言われたことは一度もなかったし、どうもTAが勝手に「手書きにしろ」と言っているだけらしい。「他学科がパソコン禁止だから」とかいう非論理的なルールを鵜呑みにしてそれを適用しようとする姿勢にも無性に腹が立った。
TAがいうには手書きはコピペ防止の意味もあるらしい。本当に手書きにしたらコピペが減るのか?パソコンにしたらコピペが増えるというが、それは果たして本当に「増えた」のだろうか?確かにコピペするのは手書きと違って簡単だが、コピペするやつは手書きだろうがパソコンだろうがコピペする。そもそも自分の頭で文章を書く能力がないからコピペするのであって、パソコンを制限したからコピペがなくなるという理屈はおかしい。そんなにコピペが嫌だったらむしろ最初からコピペをチェックしやすい電子データに限ってしまえばいいと思う。パソコン有りにしてコピペが増えたというのは、手書きレポートでは見逃していた分のコピペがばれて、それで数が増えたように見えたという可能性もある。むしろパソコンだからこそコピペを見破れるのではないだろうか?
自分は、手書きは不正の温床ぐらいに思っている。手書きの場合見かけ上はコピペしたことがばれにくいし、グラフもそれっぽく適当に書いても適当にプロットしたことはほぼばれないし、そもそもアナログデータは機械の検閲にかけにくいためどの程度コピペなのかを判定する労力だって膨大過ぎる(別のTAに話を聞いたところ、採点する側から言わせるとコピペしたこと自体は結構分かるものらしい)。手書きを強制するということは、すなわち不正をごまかす余地を与えているに過ぎない。本気でコピペをなくそうとするならば、いっそのことすべて電子化してしまったほうがよいとすら思う。
pythonを使い始めてから1年経ち、「手書きにしてください」と言われるたびに反論していったが、元々自己主張の弱い引っ込み思案なタイプのために、自己主張してちゃんと言い返すというのは精神的な負担が大きかった。「パソコンではなぜ駄目なのか」を強く主張するたび、ものすごく疲れがたまってしまい、実験がない日でも「なぜこんな当たり前のことをわざわざ言わなければならないんだろう」と思い返してしまうせいでどんどんやる気を無くしていった。
なぜ大学の一部にはパソコンを使わせたがらない空気があるのだろう。この人たちは、手書きが苦手な自分にとっての最後の砦すら壊すつもりなのだろうか。なぜ手書きにこだわるのだろうか。