・Excelはがっつり使える
・Pythonのnumpyやpandasでデータの処理ができる
・SVMや重回帰分析は普通に使える（数式も少しは分かる）
・Chainerを触っている（pipでインストールのみでもOK）
これくらいできると、AI 人材の平均レベル(と相手に思って貰える)なので採用見込みはかなりあると思います。

例えばですが、pythonを自分のパソコンに環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。

実際に見分け方がわからなくてこれに引っかかって採用してしまう場合もあるんだろうな、とも思う。

自分がこの手の人材（エンジニア）を採用する場合にどうやって質問をすれば見極められるのかエンジニアの採用にも関わっている身としてを考えてみた。

AI 人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。

取りたいロールをはっきり認識/確認する

まず採用を行う前に、AI 人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。

エンジニア系のAIの仕事と大雑把に言っても

1.画像/映像認識系技術を活用したい
2.大量のデータを対象として分析や予測を行いたい
3.上記大量のデータを貯めたり一括処理したりするための基盤システムを作りたい

など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力がオーバーラップしつつも異なっているため。

（以下、今回の目的が1や2だったと仮定する。）

バックグラウンドの確認

・あなたと機械学習の関わりを教えてください
・機械学習で経験のある分野 / 得意な分野 / やってきたことを教えてください（実務でなくてもok）

バックグラウンドを確認する。実務や研究の経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う

全般 知識の確認

機械学習全般の基本的なところから確認していく。質問としてはこんな感じだと思う

・教師あり学習と教師なし学習の違いを説明してください
・分類問題と回帰問題の違いについて説明してください
・過学習ってなんでしょうか

イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識を確認する感じ。

ディープラーニングについて

画像や映像の認識などディープラーニング系の業務が多い想定の場合

・普段使うディープラーニングのライブラリは何ですか

から始まって

・あなたの組んだモデルについて教えてください
・どうやって訓練したのですか？
・どうしてそのような構成にしたのですか？

と突っ込んでいく。

きちんと自分で考えて組めているかを確認するのがメイン。

ディープラーニング以外の機械学習について

・フィッシャー情報量から何が分かるか
・共役事前分布についてどのように用いるものか
・MCMC法で事後確率の近似を取る時に気をつけることを教えてください

確認したいことはディープラーニング「しか」できない人かではないかという点。

ある程度統計やベイズ法周りの知識が無いと詰むため。逆にディープラーニングが不要な業務ならこっち一本でも可。

手法の詳細・原理の説明

・この問題で最尤推定をしてみてください（簡単な文章題）
・勾配降下法について説明してください
・畳み込みニューラルネットワークについて仕組みを説明してください

盲目的にライブラリを使ってるだけでないかという点を確認したい。

SVMを入力に適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データの特性をきちんと考えて使っているかを見たい。

・kaggleのコンペに参加したことはあるか
・あればその時の課題と手法をできるだけ詳しく
・メダルの取得状況

kaggleに参加した経験があればnote からその人の手付きを直接評価できるし、メダルという他メンバからも客観的に評価できる定量指標もある。

その他

学習意欲とか普段の姿勢を確認したい。もしかするとここが一番重要かも。

・分からない項目をはっきり分からないと言えるか
・普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください）
・今興味のあること

こういう観点も必要、とか○○なんてもう古いよ、みたいなツッコミどころ満載だと思うのでコメント/トラバで突っ込んで欲しい

Permalink | 記事への反応(1) | 20:50

2014-11-08

■http://anond.hatelabo.jp/20141108191023

君がわかっていないのは統計データではなくて数理統計学の方。

分布がガウス分布から離れているときは平均とか分散とかの統計量は大して意味がない。

さっきの「確率が低い」という話は明らかにガウス分布に当てはめて最尤推定した場合の話をしているから、平均という統計量で分布の性質を語ろうとしたことに対応する。

Permalink | 記事への反応(1) | 19:17

2012-11-14

■今日行って来た面接の愚痴を書いてみます

面接会場にて、時折「自分の会社ってすごいんだぞ」って雰囲気をちらつかせる面接官と面接をした。自分も自分に酔ってる部分はあるものの、相手がそれ以上なのでカチンと来た。以下、面接でムカついた部分について書こうと思う。まずは志望動機を聞かれた時より、

面接官:弊社のどのような部分に興味があったのですか？(志望動機)

自分:OA 機器の中古販売に興味があって応募しました。(これだけ)

自分:xxのメーカーの椅子なんかはが良い値段ですよね。

面接官:xx？安いよ。こっちの椅子なんか15万だぞ。

おいおい。こんな所で自分の会社の椅子自慢をしなくても。随分偉そうな奴だ。椅子って10'000円以内の物を使ってるオフィスがあると思うので、こんな根拠の無い自慢をする以前に市場調査(縦軸にオフィス数、横軸に値段をプロットしたヒストグラムを作成)するべきだろう。次に腹が立ったのは、その場での対応力が問われる設問が出された時。制限時間は10分で、問題は以下。

1.日本国内1年間で消費されるトイレットペーパーの長さ(m)を求めよ。

2.日本国内で働いている美容師、理容師の人数(人)を求めよ。

恐らくこの設問。googleなどで良くやる「バスの中にゴルフボールは何個入りますか？」と言うような設問に当たる。その場で理屈を組み立てられるかを聞く問題だ。時間は10分。「数値なんて知るか！」と思ったので、数値の求め方を聞いてる問題と判断。そこで、求め方を簡単に書く事にし、以下に再現を書こうと思う。

1年間で1人あたりが消費するトイレットペーパーの長さ(の平均値)をa(m)、日本の人口の(推計)をb(人)とすると、(求めるトイレットペーパーの長さの推計値)=abで求まる。aに関してはn人(0＜=n＜=a)から標本調査を行い、その(標本)平均μ、(標本)分散Sを求め、(それらを検定して)正しいと検定された値を採用する。bに関しては最尤推定量b'で代用する。代用したa,bの値から推計値を求め、それを求める長さとする。

文字が多くて申し訳無い。流石にもうちょい分かり易く説明するべきだが、10分でこれをやろうとするときつい。説明するとn人の1年間あたりの使用量a_1,a_2,a_3......,a_nを調査し、その平均E[a_n] = 1/n Σ(1＜=k＜=n) a_k = (n人の使用量の合計)/(人数)を使って使用量を求めると言うもの。n人の平均値を求める理由としては、1人だけでは誤差やばらつきが生じるので正確な値は推定しにくいからである。nは統計で言う標本数であり、統計的な計算によりnを決定する必要もある。又nが大きければ大きい程、調査にかかるコストも増える点も考慮しないと。この手法、統計的に見て誤差の少ない推計の仕方なのかは分からない。但しbの値が大きくなればなるほど、誤差が大きくなるのは確かだ。ここでb'=1.0*10^9(1億)の場合と、b'=1.1*10^9(1.1億)の場合を考えるとかなり数値がずれるので想像するだけで怖い。

さて「この方法のメリット、デメリットは？」などと話が進んでいくのかな？と思ったのだが、それは違ったようだ。ただその後の面接官の反応で、流石に腹が立ってしまった。

面接官:この問題は、数字で出して欲しかったんだよ。(トイレットペーパーの量から商品開発するための)会議でその場で答えられるかを聞いていて、abと答えるのかい？

自分:(だったら問題に条件をきちんと書けよ)

自分:すみません。やり方を変えます。資料から(上記aの)推計を出します。

面接官:資料が無い場合で、その場で思い浮かんだ値で答えを出すんだよ。日本の人口は？...

自分も融通が効かないが、流石に誤差が幾ら出るか分からない方法は取りたくないものだ。最低限資料を集め、そこから推計を計算したい所だ。そもそもあらかじめ計算しておくべきものなので、会議の為の設問としては不適切だ。さらに「頭で答えを出せ」などと言ってる時点で、データーの取り方次第で結果が変わると言う事を認識していない面接官のように見受けられる。敢えて言おう。データーを舐めるなと。

そもそも面接の進め方に問題があると感じるのは自分だけか？このような設問を面接で行う場合、面接官は2人以上居る事が望ましい。例えばAさんは人文系、Bさんは理数系と言うようにそれぞれ違った属性の人間を面接官に採用する事が必須条件だ。1対1で面接すると、どうしても質問が偏ってしまう。そのため1対複数の面接を行い、多角的に受験者の特性を読む事が必要だと思うからだ。