「mcmc」を含む日記 RSS

はてなキーワード: mcmcとは

2021-05-30

どちらが本質的かといえば…

あらかじめ日本語理解してる人でないと理解できない日本語文法と、

日本語勉強している外国人に使われている日本語文法なら、

後者の方が本質的構造を捉えてるんだと思う。


理系に実感が湧くように言うと、

回帰母集団分布推定するときに、

回帰関数を2次、3次、4次…と複雑化して《過学習オーバーフィット》したのが前者で


※ あらかじめ理解してる日本語=標本データに n次関数をむりやり当てはめてる状態

※ n次関数西洋で発達した文法解析のメタファーだと思って欲しい


階層ベイジアンモデルパラメータMCMC でシミレーションして推定したのが後者というか…


前者でも、正則化項つけてリッジ回帰的な方向に持ってくことは可能かもしれないけど…


あっ、「あらかじめ日本語理解してる人でないと理解できない日本語文法」っていうのは

日本語義務教育で習う文法のことです。

2020-04-01

正しいIT用語の読み方

最近の若者は物を知らない。

IT企業就職したのに、IT用語の読み方を間違える恥ずかしいやつが多くて困る。

新入社員でもこれぐらいは抑えておいてほしい。

2018-08-25

統計学の本

永野裕之『ふたたびの微分積分

高校レベル

小島寛之ゼロから学ぶ微分積分

ラング『解析入門』

高校レベル+α

マンガでわかる統計学

『推計学のすすめ―決定と計画科学 (ブルーバックス)』

・良書らしい。

◎『完全独習統計学入門』

『それ根拠あるの?と言わせないデータ統計分析ができる本』

・筆者は日産自動車に勤務。

・紹介されている分析手法も「回帰分析までで十分」という筆者の経験に基づいて絞りこまれている。

明日からかえるシンプル統計学 身近な事例でするする身につく最低限の知識とコツ』

位置けがよく分からんが易しい中に深い洞察があるとのこと。

統計学がわかる』

・同上。続編がある。

・ちらっと見てみたが理屈がなくて「これはこうなる」ってポンポン進めていく印象。

『はじめての統計学

◎『よくわかる心理統計

・↓への橋渡しに。

◎『心理統計学の基礎―統合理解のために』

・難しいという噂あり。続編がある。

・「続」は結構高度らしい。

『多変量データ解析法―心理教育社会系のための入門』

・↑の「続」が無理そうならこれみたいな位置づけみたい。めちゃくちゃ分かりやすいとか。

◎『基本統計学

・結局これと↓への橋渡しの本が問題ということ。

統計学入門』

通称赤本」。3部作らしい。

・どうもこれで理解するというよりかは到達点を知るために使うものらしい。

◎『Rによるやさしい統計学

・どっかでやらんとあかんらしい。

データ解析のための統計モデリング入門――一般線形モデル階層ベイズモデルMCMC

・「緑本」。結局ふつう統計学もここに行きつくのか。

現代数理統計学の基礎』

位置けがよく分からん。これ完璧にすると統計検定1級レベルに行くんだとか。

2018-07-19

涌井貞美『図解・ベイズ統計「超」入門 (サイエンス・アイ新書)』

 評判よし。

一石賢『まずはこの一冊から 意味がわかるベイズ統計学』

涌井良幸『道具としてのベイズ統計学』

 手動かして学ぼうみたいな本らしい。

松原望『入門ベイズ統計意思決定理論と発展』

宮川公男著「基本統計学」でベイズに関する記述(数ページ)を頭にいれてから本書を読むと良い。

・最低でも、大学積分知識必要になり、ベータ分布正規分布積分表現計算くらいは当たり前のようにできないと読むのが難しい

ttps://www.udemy.com/pythonstan/

 よさそう

奥村晴彦『Rで楽しむベイズ統計入門』

 つなぎに。

豊田秀樹『基礎からベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門』

 StanとRが何となく分かってる必要があるらしい。

松浦健太郎StanとRでベイズ統計モデリング

 Stanまったく知らなくてもいけるらしい。

久保拓弥『データ解析のための統計モデリング入門――一般線形モデル階層ベイズモデルMCMC

 直感理解を大切にしてるらしい。通称緑本」。たけぇよ。行列積分知識が要るみたい。

C.M. ビショップ『入門ベイズ統計意思決定理論と発展』

 これがひとつのゴールみたいね

2017-11-06

ではどうやって"AI人材"を選考すればよいのか

AI人材採用局所的に話題になっている。

http://aiweeklynews.com/archives/49678692.html

Excelはがっつり使える

Pythonのnumpyやpandasでデータの処理ができる

SVMや重回帰分析普通に使える(数式も少しは分かる)

Chainerを触っている (pipでインストールのみでもOK

これくらいできると、AI人材の平均レベル(と相手に思って貰える)なので採用見込みはかなりあると思います

例えばですが、python自分パソコン環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。

実際に見分け方がわからなくてこれに引っかかって採用してしま場合もあるんだろうな、とも思う。

自分がこの手の人材エンジニア)を採用する場合にどうやって質問をすれば見極められるのかエンジニア採用にも関わっている身としてを考えてみた。

AI人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。

取りたいロールをはっきり認識/確認する

まず採用を行う前に、AI人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。

エンジニア系のAI仕事と大雑把に言っても

1.画像/映像認識技術活用したい

2.大量のデータ対象として分析予測を行いたい

3.上記大量のデータを貯めたり一括処理したりするための基盤システムを作りたい

など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力オーバーラップしつつも異なっているため。

(以下、今回の目的が1や2だったと仮定する。)

バックグラウンド確認

あなた機械学習の関わりを教えてください

機械学習経験のある分野 / 得意な分野 / やってきたことを教えてください(実務でなくてもok

バックグラウンド確認する。実務や研究経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う

全般知識確認

機械学習全般基本的なところから確認していく。質問としてはこんな感じだと思う

教師あり学習教師なし学習の違いを説明してください

・分類問題回帰問題の違いについて説明してください

過学習ってなんでしょうか

イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識確認する感じ。

ディープラーニングについて

画像映像認識などディープラーニング系の業務が多い想定の場合

普段使うディープラーニングライブラリは何ですか

から始まって

あなたの組んだモデルについて教えてください

・どうやって訓練したのですか?

・どうしてそのような構成にしたのですか?

と突っ込んでいく。

きちんと自分で考えて組めているか確認するのがメイン。

ディープラーニング以外の機械学習について

・フィッシャー情報量から何が分かるか

・共役事前分布についてどのように用いるもの

MCMC法で事後確率の近似を取る時に気をつけることを教えてください

確認したいことはディープラーニングしか」できない人かではないかという点。

ある程度統計ベイズ法周りの知識が無いと詰むため。逆にディープラーニング不要業務ならこっち一本でも可。

手法の詳細・原理説明

・この問題最尤推定をしてみてください(簡単文章題

・勾配降下法について説明してください

・畳み込みニューラルネットワークについて仕組みを説明してください

盲目的にライブラリを使ってるだけでないかという点を確認したい。

SVM入力適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データ特性をきちんと考えて使っているかを見たい。

・kaggleのコンペに参加したことはあるか

・あればその時の課題手法をできるだけ詳しく

メダルの取得状況

kaggleに参加した経験があればnoteからその人の手付きを直接評価できるし、メダルという他メンバから客観的評価できる定量指標もある。

その他

学習意欲とか普段姿勢確認したい。もしかするとここが一番重要かも。

・分からない項目をはっきり分からないと言えるか

普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください)

・今興味のあること

こういう観点必要、とか○○なんてもう古いよ、みたいなツッコミどころ満載だと思うのでコメント/トラバで突っ込んで欲しい

2015-07-05

http://anond.hatelabo.jp/20150705102837

俺があげたサイトの「次元呪い」のセクションには「計算はとっても時間がかかってしまます。」とあるんだがな。関数値を計算するのは簡単、というのは不正確な言い方で、真の関数値を計算するのが困難だからこそ、簡単に計算可能な関数代用して、近似的に真の関数値を計算するための仕組みがMCMCだろう。そりゃ、代用で使う関数の値を計算するのは簡単だよ、そのために導入したんだから

まぁ、計算量の話はどうでもいい。他に知ってる「次元呪い」の普通用法は、クラスタリングの際に、高次元空間だとほとんどのデータ点間の類似度が同じ値になってしまって、クラスタリングが失敗しやすくなるという話だな。この現象を「関数が望む性質を持たなくなる」と表現したのが伝わらなかったのかな。クラスタリングの際に使う類似度も関数の一種で、それが望む性質を持たなくなるのだから、間違ってないと思うのだけどな。

http://ibisforest.org/index.php?%E6%AC%A1%E5%85%83%E3%81%AE%E5%91%AA%E3%81%84

で、クラスリングでも計算量でもいいから、それが、遺伝多様性が確保できない問題と何の関係があるんだ?教えろよ。

俺があげたサイトは「次元呪い」と「遺伝多様性」について何も述べていない。少なくとも、「次元呪い」が、分野によって遺伝多様性とは関係ない文脈で使われる言葉であることは確かなわけだ。

そこ、ちゃんと説明してもらわないと、「遺伝多様性が確保できる」ことと「次元呪い」がどう関係しているかはわからないし、何の反証にもなってないぞ。

http://anond.hatelabo.jp/20150705094950

普通は、次元呪いは、何か計算したい関数があるとき入力が高次元空間だと関数値が計算困難にになったり、関数目的性質を持たなくなる事を表す。

全然違うぞ。別に関数値を計算すんのは簡単だろ。

じゃなかったらMCMCなんてできねーよ。

 
ログイン ユーザー登録
ようこそ ゲスト さん