2019-01-21

A.I.ブームその後

AIブームその後

さて、いよいよ新年である。ただでさえ新年というものは未来展望的気分が高まる時期なのであるが、それに加えて「平成最後の」という扇情的枕詞が付くのだからなおさらである。という訳で、俺様も自分の所属する業界ーAI業界ーについての予言をやらかしてみることにする。題して「AIブームその後」。このお題通り、AIブームはもう終わる。以下は、「終わり」と「その後」についての妄想的予言である。

今世間で大流行りのAI、いつから始まったのかは諸説あろうが、今「ブーム」の真っ只中であることは間違いない。そしてもちろんブームはいつか終わる。だから「今のAIブームは終わる」という予言は、「大地震はいつか来る」レベルの実のない予言でしかない。地震予知同様、肝心なのは「いつ終わるのか?」である。ズバリ、それは「今年のどこか」であると予言する。もちろん、この予言の成否は「終わり」をどう定義するかにかかっている訳だが、それはブームのピークであるとしておく。そして、いつがピークだったのかは、下降トレンドに入って相当経った後からでしか分からないものである。だから、予言の当たり外れが判明するのはずっと後になるかもしれないが、今のAIブームのピークは今年(の後半)のどこかであり、その後ブーム比較的急速に衰退するであろうと予言する。それではなぜAIブームが終わるかというと、それはブームに終了を強いる出来事が発生するからである。それは世界的リセッションである。戦後の世界的リセッションは8〜10年周期で生じているが、今年は前回の2008年のリーマンショックから11年目である。さらに、昨年末から世界中で株価の変調が見られている上に、米国の長短金利差逆転などの様々な有名な指標も軒並み危険信号を発している。(今回は、日本近隣の地政学的リスクの恐怖も大きいことも見逃せない。)ブームにとどめを刺すのは不況の到来である。

では、なぜ不況が来ればAI業界は衰退するのか。AI業界の現場にいるものなら誰でも知っていることだが、今のAIブームを支えている一大勢力は、「ヨソもやってるからウチも」という特オチ恐怖に取り憑かれた奴らか「俺の手柄にするんでアイデア挙げろ!」という出世欲に駆り立てられた連中である。(俺はこういう需要を「虚需」と呼んでいる。)こういう状況でもし不況の嵐が吹き荒れたらどうなるか。「ヨソ」は一斉に止めるし、不況期にAIなどで手柄が上げられるはずもない。大体不況下では、AIどころかIT系全般の出費が広範囲にカットの対象となるのが普通である。「やらなくてもすむ」はもちろん、「やったほうがよい」までカットされることになる。そんな中、効果の不透明なAIなぞ構われるわけがない。一大勢力は潮が引くように退場する。需要が一斉に収縮した後にブームが維持されるはずがない。ブームの息はこれで止められる。これこそAIブームの終焉である。

ブーム終焉後の業界の状況は一言、「惨状」となるはずである。現在雨後の筍のように湧いて出てきている従業員数名〜2、30名程度の弱小自称AIベンチャーは、元栓の閉鎖によって軒並み一掃されるだろう。(ちなみに俺は、今のブームの走りのビッグデータブームが盛り上がり、世間が機械学習って一体何なんだと騒然となった時、既に10年の機械学習の「実務経験」を持っていた。このチャンスに広く活躍の場を期待したとしても、それは不自然ではないと同意してもらえるだろう。だが、実務経験が長いということは、それだけ年齢を重ねているということでもある。そういう訳で、経験者であったにも関わらず90社以上から書類審査のみで不採用とされている。来るべきブーム後の厳冬期に、もし自分を不採用とした会社が倒産したら、転職用に作った応募企業一覧のその会社の名前の上に髑髏マークをつけてやろうと計画している。)だが、今のAI業界に、不況から生じる惨状への恐怖感を予感し、震えるものは驚くほど少ない。なぜなら、今のAI業界に属するほとんどの会社は、2011年ころのビッグデータブーム以降、雨後の筍のように生えて出た会社がほとんどだからである。不況による惨状はリーマンショックの時にも生じているが、その時の惨状を知っているのは、そのころ既にデータ解析で飯を食っていた会社、例えば「インサイダー」社や「DCCCC」社などごくわずかである。何のことはない、ほとんどの会社は単に無知だから恐れていないというだけである。

それでも「いや、もうこれからの社会はAIなしでやって行けない。不況の影響はあろうが、業界がしぼんでしまうなどあるはずがない。それどころか、不況だからこそAIでの効率化が必要となるだろう。お前は馬鹿か?」と言う人もいるだろう。確かにこれについては、人によってはさらなる説明が必要かもしれない。そういう人向けに日本のAI業界の特徴を解説しておくことにしよう。今のAI業界の大半は、いわゆるベンチャーの体裁を取っている。世間一般では、ベンチャーと言えば、「これ」と頼むトンがった自社プロダクトで世間に勝負をかけ、その質とシェアを上げるために社員は脇目も振らずそれだけに掛かりきりで、社長は青い顔で金策に走り回って投資家との神経戦で消耗し、それでも社長以下社員全員が夢を信じて失意と高揚の間を激しく振幅する、というステレオタイプが広まっているだろう。ところが、事情を知らない人は全く理解できないであろうが、今の虫のように湧いて出ている自称「AIベンチャー」のほとんどは、驚くことにこれらの特徴を全く持っていないのである。全く、である。そういう会社は、なによりも第一に世間に問うべき自社プロダクトを持っていない。(中には「自称自社プロダクト」を持っている会社もあるにはあるが、それは普通のサービスに「AI風味」のふりかけを掛けただけのものだったり、それならまだしも、フリーソフトに皮を被せただけの代物を恥知らずにも「我が社のプロダクト」と言い張っている呆れるしかない会社もかなり多い。)さらに社長は金策に走り回るというわけでもなく、そもそも投資家との接触すらない社長様も多い。このように書けば、自社プロダクトがない(あるいはタダで拾って来たものをケースにいれただけのものしかない)上に投資家とのパイプもないベンチャーって何なんだ?それじゃあ会社はどうやって維持されるのか?社長、社員は何をやっているのか?と疑問を持つ人が出るのは当然だろう。

ここに日本のAI業界の特殊性がある。それは、日本ではAI業界がIT業界の一部をなしていることと、日本のIT業界の特殊性の2点からなる。後者についてさらに言えば、日本のIT業界の特殊な商習慣、「多重下請け」と「人売り人買い」がその二本柱である。日本の下流IT業界のほとんどは、自分では自主的、実質的な仕事をせず、上流の丸投げを右から左に仕事を流すか、最下流で(プライドは一流だが)下流にふさわしいレベルの下層プログラマをブラックな環境で労働させ、中間搾取を貪るのを「商売」としている。あるいは「とにかく人手が欲しい」という現場に人夫(ほぼ完全に素人という場合すらある)を送り込み、その上前で暮らしている。そのようなIT業界の一部として発生した日本のAI業界も、その悪弊を完全に引き継いでいる。大半の自称AIベンチャーも、自分では自主的、実質的な仕事をせず、上流の丸投げを右から左に仕事を流すか、最下流で(プライドは一流だが)それにふさわしいレベルの「大学で統計学の単位を取りました」レベルの「自称データサイエンチスト」や行き場を失った理系の成れの果てにそれらしいプログラムを組み立てさせる、あるいは「とにかくAIやれる人手が欲しい」という現場に自称や成れの果てを送り込み、上前で暮らしているのである。結局、収益構造的にはよくあるニッポンのIT企業そのものでしかなく、最も大切な技術力は極めて貧弱なのである。この状況は、日本におけるAI業界の悲劇性そのものである。確かにAI業界はIT業界との相性が良いのは確かではあるが、だからと言ってAI業界がIT業界の一部である必然性はない。また日本のIT業界の非人間的労働環境もIT業界にとって必然でないのも当然である。であるのに、日本ではAI業界がIT業界の一部として発展し、そのIT業界は技術水準も低く、労働環境的にも非人間的でブラックな環境なのである。その結果、AI業界も低技術悪労働環境となってしまっている。本来技術で勝負するべき日本のAI業界は、そもそもとても技術力では勝負できない見せかけだけの自称AI屋の集団でしかない。もちろんすべてがそうであるとまで主張するつもりはない。ほんのわずか(多分、多めに見て日本全国で十社ちょっと位だろうか)ではあるが、理論、実用面共に本格的にAI屋を名乗る資格がある会社が存在するのは事実である。だが大半の残りは自称AIベンチャーのただのIT派遣業に過ぎない。開発技術力もない企業がAIの看板を挙げて一体どうやって生き残れるのか。その方法があるなら是非教えて欲しいくらいである。

この状況を認識するなら、ブームが去った後の日本のAI業界の将来を予想することができる。簡単に言うと、それは二極化である。世間一般で妄想される「何か分からないが魔法のようにすごいことができるAI」を追求する(そして本当に実現できる)極少数の企業と、ルーチンワークで済む仕事を大量こなすこれまた少数の企業のどちらかに分類されることになるだろう。前者は既に述べた通りだが、後者については説明が必要だろう。まず、ルーチンワーク的AI業務の需要は、不況下であっても確かに必ず存在する。商売としてAIを応用するのなら、過不足なしの最適なレベルでの適用が当然であるが、世間には単純な技術の単純な応用で十分に効果が上がる企業も数多くあるからだ。こういう企業に対しては、いわゆるビジネスデータ解析と呼ばれる単純な技術(今はこれも立派なAI扱いであるが、そもそもこれがAIと呼ばれること自体どうかしているとしか思えない)のルーチン的な適用(に加えてコンサルティング業務、実はこちらの方がずっと大切で、金になる部分)で必要かつ十分である。そして、そういう仕事なら、わざわざ弱小ベンチャーに依頼するよりも現在既に実績を積み上げている「インサイダー」社とか「頭が悪い」社とか「蜂の巣」社とかの大手ビジネス解析屋に丸投げするのが確実である。さらに、そうなるとこんどは少数の大手がダンピング競争で仕事を取りに来るだろうから、スケールの小さな自称ベンチャー達の出る幕はますます無くなる。ということで、日本のAI業界は、高水準な少数の企業と、広く薄くビジネスアナリシスを引き受けるこれまた少数の大手の二極へと分裂してゆくだろう。そうなると、現在ルーチンワークやせいぜい中間レベル程度の仕事内容でどうにかやっているボリュームゾーンに属する弱小企業がどうなるかは明らかだろう。まずこの手の企業が本当の意味でのAIに対応できるレベルでないことは既に述べた通りだ。だからそういう内容で生き残ることはできない。それではルーチンワークの方はどうかというと、大手に対抗するのも難しい。結果は言うまでもない。

AIビジネスの未来に関して、もう一つ指摘しておきたいことがある。それは、前に挙げた「虚儒」に対する「実需」と呼ぶべき一群の需要は、不況下でも無くならないということである。一番大きいのは画像解析関連分野であろう。これは、今まるでAIと同義語のように使われている深層学習が、素晴らしいフリーソフトのおかげでどんな素人でも簡単に扱えるようになったせいである。(俺は、2012年の深層学習ブレークの5、6年前に自作の3層ニューラルネットで高次元の医療画像の解析の仕事をしたことがあるが、収束に至らずひどく苦労をしたという経験がある。それだけに、優秀なソフトとGPGPUのおかげで、たとえ大規模データであってもあまりにも簡単に収束するのを目の当たりにしたときには呆然としたものである。)このように画像認識についてもコモディティ化が起きていることから、簡単に深層学習が適用できそうな「実需」は、不況下でも、一渡り需給が一巡するまで無くなりはしないだろう。俺様アーキテクチャーを注入して黒魔術化することも容易で、そういう意味でも長らく使われることが予想される。ただし、コモディティ化のおかげで優位性を維持することもまた難しくなるだろう。(ちなみに、ブーム後に今回のブームの功罪を評価することがあるなら、深層学習のコモディティ化は間違いなくその「功」の筆頭に挙げられるだろうと考えている。このような技術が一気に誰でも使えるようになったのは、自分の長年にわたる趣味、そして仕事としてのAI人生においても最大の驚きであり、これを超える驚きはもうないだろうと思う。)一方、自然言語解析応用分野も「実需」としての潜在的需要は大きいが、この分野では画像解析のようなコモディティ化はまだ起きていない。従って、今の所画像解析と比べて参入が難しい。だが(他の予言と違ってあまり自信はないが)こちらの「実需」も密かに続くと踏んでいる。さらに音や感性などの特定分野に特化した「実需」もあるだろうが、このような「狭いが深い」ニーズに対してはそれ専門に特化したごく少数の会社が対応することになるだろう。こういう需要も確かに続くと思われる。

業界の未来の予言はこれでくらいにして、それでは不足が叫ばれている人材の採用、育成はどうであろうか。猫も杓子も「これからはAIだ」「グローバルな競争に遅れるな」と騒いでいるのに、これを担う人材をどうすれば確保し、育てられるのか。これを考える前に、まず世間はもとより、業界関係者の多くも、AI人材について全く理解していないということを強調したい。世間ではいわゆるデータサイエンチストとは「何やら難しい数学を使っている頭の良い理系の人」というイメージがほとんであろう。ブームが盛り上がった初期の業界は特にそうだった。だがこのステレオタイプこそ、AI人材に対する世間の誤解の源泉なのだと俺は考えている。例えば、ブームが炎上し始めた頃、理系の難しそうなことやっている人じゃないとダメなんじゃないか、という誤解が広まり(今ですらそう信じている人も大勢いる)、そのイメージにぴったりな理論物理を専攻していた人が引っ張りだこになったことがある。だが彼らがやっていることはデータサイエンスとは根本的に異なる。引っ張ってきて机に座らせればたちまち超一流のデータサイエンチストとして活躍する、というのではない。(門外漢にはわからないだろうが、意外に理学と工学の違いというのも大きい。様々な点で「必要なセンス」が非常に大きく異なるのである。これは自分も理学出身だから分かる。)自分の知り合いでアメリカの大学院で素粒子の質量がどうだ(何のことだか自分にはよくわからない)とかやっていた物凄い数理センスのある頭の良い人がいたが、彼も最初にデータサイエンスに向き合った時は何が何だか分からなかったと正直に言っていた。もちろんこういう人は地ができているのでキャッチアップは早いが、率直に言ってデータサイエンチストとしては数理的にはオーバースペックである。

AIブームその後2

その一方で、このステレオタイプには正しい面もある。それは、AI(とか機械学習とか勝手気ままに呼ばれるもの)は、あくまで数学的理論の基礎の上に乗っている、という点である。その数学を知らないものがAI(とか機械学習とか勝手気まま以下略)が理解できるはずがない。自分にとって非常に不思議なのは、ものすごく大量の「普通の」プログラマが「俺はもう一人前のプログラマなのだから、ちょっとがんばればデータサイエンチストになれる」と信じていることである。プログラマに必要な知識、適性がどのようなものかは、プログラマの出身を見ればわかる。理系、文系以前に、そもそも大卒であることも必須条件ではないことは業界人なら誰でも知っている。学歴はプログラマなるための必要条件でも十分条件でもないし、学歴の高低とプログラマとしての優劣の相関も高くない。だがデータサイエンスについては全く異なる。データサイエンチストになるためには、理系大学出身であることは必須条件である。(ただし文系であっても、心理学の一部や社会学の一部の出身者にはこの条件を満たすものがいる。)なぜなら、今AI(とか機械学習以下略)呼ばれている一群の理論に必須な数学的知識は、ちょうどそのまま「理系」の共通知識としての数学に一致しているからである。具体的に言えば、それは解析学、線型代数学、統計学、しかも高度な内容ではなく、まさに理系必須科目として出版されている教科書に書かれている程度のものに過ぎないのである。それは、理学部数学科出身者だけが持っている特別な知識などではなく、理系ならごく当たり前に知っているべきものでしかない。はっきり言って難しいものでは全くない。しかし、理系として大学に進まない(ほとんどの)ものはそれさえ持っていないのである。そのそう難しくない数学さえ身につけていないものが、データサイエンスなんか分かるわけがない。だから理系出身者でない普通のプログラマが「俺だって」と思うのが不思議でならないのである。そういう訳で、自分は、データサイエンチスト志望者のうち、理系大学卒業者を「有資格者」そうでないものを「無資格者」と呼んでいる。(「無資格とは言い過ぎじゃないか?」と聞かれることがあるが、「じゃああんた無資格者に線形代数ゼロから教えるつもりなのかい?」と聞き返すと大体納得してもらえる。)

さらに言うなら、有資格者は単純に「志望しても無茶ではない」という資格を有しているだけで、実際にデータサイエンチストになれるかどうかは全く別問題である。実際には、理系出身者であっても、きちんとその内容を理解せず単位だけ取ったもの多いだろうし、その後数学なんか全く縁なしに過ごしているほとんどの人は、学習した内容をほとんどすべて忘れている。これは、解析に比べると抽象度が高く、それだけ習得が難しく線形代数学で目立つ。例えば、線系写像のランクのような「それ知らないって何も知らないのと同じだよね」というべき初歩の初歩の初歩さえ忘れている人が非常に多い。さらに、統計学は線形代数学とはまた違った意味で難しい。その難しさは「分かったつもりになるのは簡単だが、ちゃんと理解するのは難しい」という難しさで、理解そのものが難しい線形代数学とは全く違う難しさである。例えば、自分がいつも冗談で言っていることに「日本で統計学の単位を取った人の半分は、確率変数に確率を代入する」というものがある。確率変数なんかそれこそ統計学の教科書の1ページ目に出てくる最も基礎的な概念なのだが、それさえ理解していないものは意外に多いということを言いたいのである。(確率変数を正確に理解するためには関数解析学の知識が必要となるが、ここでいうのはそういう技術上の難しさではなく、あくまで「統計学という考え方」を指していることに注意して欲しい。)統計学については一事が万事この有様で、自分も果たして隅々までちゃんと理解できているのか実は不安を抱えている。(「そんなのはお前が無能なだけだよ」という人は、文末に少しだけ質問を挙げておくので、自分で解答してみて欲しい。)そう、データサイエンチストになるためには、「それほど難しくない理系常識的数学を『ちゃんと』理解している」ことが必須なのである。だがこの表現の「それほど難しくない」と「ちゃんと」をちゃんと知ることは、それほど簡単ではない。だから採用において理論物理学専攻を求めたり、現役バリバリではあるが理系出身でないプログラマを採用してしまったりと、頓珍漢な振る舞いをしてしまうのである。

無理解による認知の歪みは他にもある。例えば、数学は使っている限り頭から抜けないが、一度抜けると戻すのは困難である、という点も認識されていない。自分の経験では、いくら理系出身であっても、大学卒業後社会で数学を使わずに過ごしてきて今30位の人間は、もう数学が頭から抜けてしまっており、その後での数学脳の復活は難しいと感じる。在学中にサボっていても、仕事で使うと「そういうことか」と後から理解できる機会も出てくるが、使わない人はそういう機会もないまま抜けてゆく一方になるからだ。その一方で、たとえ高齢でもきちんと使い続けてきた人はこれからも抜けない。ここら辺、若さによる適応力が重要な(普通の)プログラマとは採用基準が全く異なる。実際、プログラムの世界は変遷が早く、年齢が高いとこれに追従できない可能性が高い。だがデータサイエンスはプログラミンとは根底から違う。自分の身の回りを見渡して欲しいのだが、若いプログラマが年齢の上のプログラマの技術を「まだ✖️✖️なんか使ってるの?ダセエw」と嘲っているのをよく見るだろう。だが「まだ行列式なんか使ってるの?ダセエw」と言うならそいつの方が大馬鹿である。さらに、データサイエンスにもプログラミング同様新しい展開はあるが、この分野での「展開」はイコール「積み上げ」である。その点では若い=良いどころか、若い=未熟である。ここら辺を採用する側は全く理解していないと思う。既に述べたように、俺は「ビッグデータ」がブームになり、世間がデータサイエンスって何だと騒然とした時、既に10年の実務経験を持っていたが、その時点で既に年齢が高かったため、90社以上から書類だけで不採用とされている。これは、データサイエンチストをプログラマと同じ感覚で採用しようとするからであると考えている。(ちなみに俺は、年齢には全く関係なく、ただ何ができるかだけを見る会社に拾われて現在も現役である。自分の見るところ、こういう会社は東京には片手で数えられるほどしかない。)逆に30歳位の非数学脳のプログラマを「データサイエンチストとしてポテンシャル採用」した会社は、将来的不良債権を引いた可能性がかなり高いと思う。

最後に、AI人材の採用、育成の実践について触れよう。自分の経験では、データサイエンスを学ぶのには長い時間がかかる。己の無能を差し引いても、5年やそこらで「分かる」ようなものではないと感じる。特に、個々の手法を理解することはそう難しくないにしても、「横断的把握」(あるいは俯瞰的把握)は難しいと感じる。だが本当の「理解」、本当の「実力」はまさにここにあるのだ。一例を挙げてみよう。「超平面の分離による2値判別」を考えよう。データ空間を超平面でスパッと2つに分けて、どっちに属するかで判別するという手法だ。この方法の代表例として何が挙るだろうか?もちろん問いが曖昧なので正解があるわけではないが、少なくとも3つ、フィッシャーのLDA(以下LDA,。多変量解析では「判別分析」と呼ばれることが多い)、パーセプトロン、サポートベクターマシン(以下SVM)の3つが挙げられなくては失格であろう。(ちなみに、ロジスティック回帰で確率=定数以上以下で判別を行う際も、結局超平面による分離と同値になる。)これらについては、実装まで含めて理論的な詳細まで知らなければ最初から失格だ。これは当然だが、問題はそれらの俯瞰的理解があるかどうかという点である。原理的に見るなら、これらは「超平面による分離」という原理において「全く完全に同一」である。たとえ個々の手法を個別に理解していても、これを意識していないものは全くダメである。それではそれらの違いは何か?それは超平面の決定法にある。LDAは2データにそれぞれ等分散の正規分布を仮定する。そして、それらの等確率面こそ分離平面となる。徹頭徹尾統計的理論である。パーセプトロンは、判別における誤差関数の最適解を与える超平面こそ求める分離平面である。最後のSVMは、あくまでデータと超平面の距離だけを考える。徹頭徹尾幾何学的理論である。それ以外にどのような違いがあるか?LDAはデータに強い分布仮定を置く。だからそもそもこの仮定が成立しないならLDAは適用不能である。その一方で繰り返し計算が不要、一発計算で分離平面が決定できる。(規模が巨大だとそうも行かないが。ちなみにこの時一般逆行列を使うのは必須。理由は?)またAとBを分離するためには両者の分布を決定しなければならないが、その後AとCを分離するためにはCの分布だけを求めるだけで良い。これらはパーセプトロン、SVMにはない特徴である。一方オンライン的対応が必須ならパーセプトロンの繰り返し計算が適用しやすい。PA、CW、AROW、SCWなどすべてこの線である。一方LDAは毎回そっくり計算しなおしになる。SVMは誤分類に対する柔軟な対応が可能な点が特徴である。特に「柔軟度」(言い換えれば汎化能力)がパラメタによってコントロールできるのが素晴らしい。これは他の2つにない特徴である。(ただその分パラメタ最適化のコストは掛け算で増える。これにhard negative mining でもやろうものなら悲惨なことになる。)その他、大ノイズに対する頑健性を確保しやすいかそうでないか、等、適用対象に合わせて柔軟に手法を選択できてこそ本物のデータサイエンチストである。(ちなみに、もし身近に、何に対しても同じ手法を使おうとするデータサイエンチストがいたら、そいつは「それしか知らない」可能性が高い。)以上、例として超平面分離による2クラス識別問題を論じたが、このように横断的に現れる原理的手法はデータサイエンスのあちこちにある。最も重要なのは最適化と正則化。これらは、共通の原理を押さえることと、個別手法でそれらが用いられた時にどのように適用されているかを俯瞰で眺められるようになっていなければダメである。俺は、このような「横断的理解」「俯瞰的把握」こそデータサイエンチストの実力を測る最も大切な指標であると考える。採用側の立場で高度な人材が欲しいなら、相手にこのような知識を問えば良いし、学習者をより上のデータサイエンチストに育成したいなら、こういう視点で指導することが重要であると考える。(もちろん教える側、採用する側がこのレベルでなければ最初からアウトなのだが。)

最後は説教になってしまったが、以上が俺様の年頭予想である。俺はこの予想を元に、不況に対して頑健そうで、業界、手法的に特化し、将来性を見込めそうで、年齢に関係なくただ何ができるかだけを見る企業を探し、どうにかその一つに転職することができた。(もちろんそれで安心というわけでは全くないが。)諸君はどうだろうか?それでは諸君らの健闘を祈る。


おまけ

ある日一流のデータサイエンチストを自称するあなたの前に、あなたの名声を聞いたデータサイエンチスト志望の若者が現れて、統計学に関する以下の質問をしたとしよう。一流のデータサイエンチストなんだから、どれもスラスラと答えられるよね?それではどうぞ。

  1. 確率変数って、数学や物理で出てくる変数と、ぶっちゃけ何がどう違うんですか?結局ただの変数でしょ?違いをぶっちゃけ分かりやすく教えてください。だいたいそれに確率を代入しちゃいけないんですか?いけないならなぜか説明してください。
  2. 確率密度って、なんでこんなもの使うんですか?いや、確率が大切なのはもちろん分かりますよ。でもなんで密度なんですか?確率そのものを考えるだけじゃいけないんですか?
  3. 確率関数 Pについて、確率変数 X が 5 を取る時の値を P(X=5) とか書きますけど、ふつう sin(x=π) なんて書かずに sin(π) と書きますよね?なんで P(5) と書かないんですか?そう書いちゃいけないんですか?
  4. 確率変数が連続型の場合、その変数がバチッと一つの値を取る確率はゼロですよね。でも標本を取ればそれは必ずある具体的な値を持っているはずです。でも確率変数がその値を取る確率はゼロ。つまり確率がゼロなのに値が実現したということになりませんか?いや、a から a までの積分が 0 というのは数学的には分かるのですが、確率の意味からしてどうしても納得できません。説明してください。
  5. ある問題を解いて、その解答をある先生に見せたら、その証明は確率変数が連続の時しか有効ではないと言われました。なるほど、と思って離散変数の場合を付け加えてその先生に見せると、まだ不足だと言われました。まだ不足って一体何が足りないんですか?もうこれは言いがかりですよね?
  6. 頻度主義者は、ベイズ主義者と違ってパラメタは定数であって確率変数ではないという立場を堅持すると聞いています。このせいで信頼区間の解釈が難しくなるんですよね。でも点推定の説明を見ると、頻度主義者でも推定したパラメタの平均とか分散とかについて語っています。パラメタが定数なら平均も分散もないはずでしょ?だからこれってパラメタは定数で確率変数ではないという立場と矛盾してますよね?おかしくないんですか?
  7. あるとき、ある先生の前で「母集団が正規分布の場合、標本から分散を計算するとき、分母を標本数 n にするのは間違っていて、n-1 にするのが正しい」と言ったら、その先生から「初学者はそれでもいいだろうが、統計学をもっと分かった人はそうは言わない。」と言われました。教科書にも n-1 で割るのが正しいと書いてあるのに、何でそんなこと言われなきゃいけないんでしょうか?しかも「じゃあ n が正しくて n-1 は間違っているんですか?」と聞いたら、「どちらが正しいかと聞くこと自体が統計学をわかっていない証拠だ」と言われました。これってもう因縁つけられているのと同じですよね?あの先生頭おかしいですよね?
  8. あるパラメタ θ の推定量 θestim の不偏性の定義は E[θestim] = θtrue ですが、右辺が真値なのはおかしいじゃないですか?真値は神様しか知らない、人間は真値が分からない。だから推定するわけでしょ?分かるはずのないものが定義に入っているって、そんなのおかしいでしょ?第一わからない値を使って計算するなんて不可能ですよね。説明して下さい。

最後に、線形代数と統計学について、自分がいつも言っていることをぜひ付け加えさせて欲しい。それは、さまざまな手法を学ぶ際の俺様的教訓である。

  1. 同一目的に対する線形手法と非線形手法があったときは、まず線形理論から学習せよ。
  2. 同一目的に対する統計ベースの手法と非統計ベースの手法があったとき、まず統計ベースの手法から学習せよ。

1. は明らかであろう。線形理論と非線形理論があるなら、間違いなく線形理論のほうが基礎的であり、基礎から学ぶのは当然であるからである。これに対して、2. を主張する理由は異なる。統計学をベースにした理論の方がそうでない理論より基礎的であるなどとは言えない。ではなぜ 2. を主張するかと言うと、統計学は学ぶのが難しく、統計学ベースの理論(つまり統計学の応用)を通して統計学を学ぶのが結局一番早いからである。統計学ベースの理論から逃げていると、いつまで経っても統計学が分からないままになるよ、という(自分の体験に基づいた)戒めが 2. なのである。ところで、今は空前のニューラルネットワークブームであるが、このブームでニューラルネットワークからデータサイエンスの勉強を始めたものは、この 1.、2. のいずれにも反していることになる。このことはよく認識しておいた方が良いと思う。

2019/01/11 貧豚・記

  • Ok AI,要約して

    • ズバリ、それは「今年のどこか」であると予言する。 もちろんすべてがそうであるとまで主張するつもりはない。 その方法があるなら是非教えて欲しいくらいである。

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん