はてなキーワード: MCMCとは
あらかじめ日本語を理解してる人でないと理解できない日本語文法と、
理系に実感が湧くように言うと、
回帰関数を2次、3次、4次…と複雑化して《過学習=オーバーフィット》したのが前者で
※ あらかじめ理解してる日本語=標本データに n次関数をむりやり当てはめてる状態
※ n次関数は西洋で発達した文法解析のメタファーだと思って欲しい
階層ベイジアンモデルのパラメータを MCMC でシミレーションして推定したのが後者というか…
前者でも、正則化項つけてリッジ回帰的な方向に持ってくことは可能かもしれないけど…
最近の若者は物を知らない。
IT企業に就職したのに、IT用語の読み方を間違える恥ずかしいやつが多くて困る。
新入社員でもこれぐらいは抑えておいてほしい。
・良書らしい。
・筆者は日産自動車に勤務。
・紹介されている分析手法も「回帰分析までで十分」という筆者の経験に基づいて絞りこまれている。
・位置づけがよく分からんが易しい中に深い洞察があるとのこと。
・同上。続編がある。
・ちらっと見てみたが理屈がなくて「これはこうなる」ってポンポン進めていく印象。
・↓への橋渡しに。
・難しいという噂あり。続編がある。
・「続」は結構高度らしい。
・↑の「続」が無理そうならこれみたいな位置づけみたい。めちゃくちゃ分かりやすいとか。
・結局これと↓への橋渡しの本が問題ということ。
・どうもこれで理解するというよりかは到達点を知るために使うものらしい。
・どっかでやらんとあかんらしい。
評判よし。
手動かして学ぼうみたいな本らしい。
・宮川公男著「基本統計学」でベイズに関する記述(数ページ)を頭にいれてから本書を読むと良い。
・最低でも、大学の積分の知識が必要になり、ベータ分布、正規分布の積分表現や計算くらいは当たり前のようにできないと読むのが難しい
よさそう
つなぎに。
Stanまったく知らなくてもいけるらしい。
直感的理解を大切にしてるらしい。通称「緑本」。たけぇよ。行列・積分の知識が要るみたい。
http://aiweeklynews.com/archives/49678692.html
・Excelはがっつり使える
・Pythonのnumpyやpandasでデータの処理ができる
例えばですが、pythonを自分のパソコンに環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。
実際に見分け方がわからなくてこれに引っかかって採用してしまう場合もあるんだろうな、とも思う。
自分がこの手の人材(エンジニア)を採用する場合にどうやって質問をすれば見極められるのかエンジニアの採用にも関わっている身としてを考えてみた。
AI人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。
まず採用を行う前に、AI人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。
など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力がオーバーラップしつつも異なっているため。
バックグラウンドを確認する。実務や研究の経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う
機械学習全般の基本的なところから確認していく。質問としてはこんな感じだと思う
・過学習ってなんでしょうか
イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識を確認する感じ。
画像や映像の認識などディープラーニング系の業務が多い想定の場合
から始まって
・どうやって訓練したのですか?
・どうしてそのような構成にしたのですか?
と突っ込んでいく。
確認したいことはディープラーニング「しか」できない人かではないかという点。
ある程度統計やベイズ法周りの知識が無いと詰むため。逆にディープラーニングが不要な業務ならこっち一本でも可。
・勾配降下法について説明してください
・畳み込みニューラルネットワークについて仕組みを説明してください
盲目的にライブラリを使ってるだけでないかという点を確認したい。
SVMを入力に適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データの特性をきちんと考えて使っているかを見たい。
・kaggleのコンペに参加したことはあるか
・メダルの取得状況
kaggleに参加した経験があればnoteからその人の手付きを直接評価できるし、メダルという他メンバからも客観的に評価できる定量指標もある。
学習意欲とか普段の姿勢を確認したい。もしかするとここが一番重要かも。
・普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください)
・今興味のあること
俺があげたサイトの「次元の呪い」のセクションには「計算はとっても時間がかかってしまいます。」とあるんだがな。関数値を計算するのは簡単、というのは不正確な言い方で、真の関数値を計算するのが困難だからこそ、簡単に計算可能な関数で代用して、近似的に真の関数値を計算するための仕組みがMCMCだろう。そりゃ、代用で使う関数の値を計算するのは簡単だよ、そのために導入したんだから。
まぁ、計算量の話はどうでもいい。他に知ってる「次元の呪い」の普通の用法は、クラスタリングの際に、高次元空間だとほとんどのデータ点間の類似度が同じ値になってしまって、クラスタリングが失敗しやすくなるという話だな。この現象を「関数が望む性質を持たなくなる」と表現したのが伝わらなかったのかな。クラスタリングの際に使う類似度も関数の一種で、それが望む性質を持たなくなるのだから、間違ってないと思うのだけどな。
http://ibisforest.org/index.php?%E6%AC%A1%E5%85%83%E3%81%AE%E5%91%AA%E3%81%84
で、クラスリングでも計算量でもいいから、それが、遺伝的多様性が確保できない問題と何の関係があるんだ?教えろよ。
俺があげたサイトは「次元の呪い」と「遺伝的多様性」について何も述べていない。少なくとも、「次元の呪い」が、分野によって遺伝的多様性とは関係ない文脈で使われる言葉であることは確かなわけだ。
そこ、ちゃんと説明してもらわないと、「遺伝的多様性が確保できる」ことと「次元の呪い」がどう関係しているかはわからないし、何の反証にもなってないぞ。