「機械学習」を含む日記 RSS

はてなキーワード: 機械学習とは

2017-11-18

SideeXでマッチングアプリTinderの右スワイプ自動化

みなさんTinder知ってますか?

かなり流行してるマッチングアプリ無料で利用できます

元々tinderiPhoneとかandroidアプリデスクトップ版が最近リリースされました

tinderをやっているとプロフィール確認せずにとにかく右スワイプしたいって人は多いと思いますので今日はこれを自動化してみようと思います

とは言ってもプログラミング不要なことはプログラミングせずに済ませたい

なので今回はSelenium IDEの後継SideeXを使います

sideexはchromefirefoxエクステンション(アドオン)なんですが、chrome版は今回きちんと動かなかったのでfirefoxアドオンで行います

要するにめっちゃ簡単だし誰でもできるということです!

映像が重くてqiita上では再生できないみたいなのでtwitterに飛んで再生を推奨

https://twitter.com/supertinder/status/931858473922396160?ref_src=twsrc%5Etfw&ref_url=https%3A%2F%2Fqiita.com%2FHackleberry%2Fitems%2F9e6fca8466e9533997cf

わざわざ文章説明ダルいのでquicktime playerの画面収録を利用しました

qiitaの人たちも記事をわざわざ文章なんてダルいフォーマット使わずにどんどん映像キャプチャしてアップロードしてほしい。ちなみにquicktime playerだと拡張子が.qtからffmpegmp4に変換が必要

あとはtinder画像キャプチャして機械学習に利用したりしたら色々面白そう

年齢と住んでいる場所で絞れるから画像から年齢を判定したり住んでいる地域を判定したりできる。かもしれない。とは言っても画像サンプル数が足りなさそうではあるし、facebookクロールしたほうがうまくいくかもしれない

参考にした記事

https://qiita.com/gluelan2013/items/c21b1a186bc5e56523ee

https://qiita.com/mriho/items/a16b3c618c378efeb58f

https://qiita.com/akameco/items/6ff78b0918e96f871f57

2017-11-13

HPを作れるようになった。次は

まともな職歴がないけど、就職したい!

あわよくばいっぱいお金がほしい!

ということで、取り敢えずHTML5CSS3jQueryWordPressフォトショイラレ勉強した。

そこそこ見栄えのする(と思う)サイトをいくつか作ったり、自作サイトに合わせたWordPressテンプレートを一から作ってみたりした。

 

……が、次に何をすればいいのかわからない。

Web制作は思ったより楽しいけど、最初から作りたいものとかはないし、また新しいサイトを作るのとかはだるい

Rubyでもやればいいのかね?

機械学習かに興味わかないかPython勉強するつもりないんだけど。

 

というか、Webデザイナーって平均年収低いんだね。後から知ったよ……。

2017-11-08

anond:20171108134113

まあでもSE,PGなんかは「手に職」の範疇として考えられていたと思う

機械学習みたいなことまでやらされるとはなー

anond:20171107110105

> ここ5,6年の悩みで最近はっきりわかってきたんだけど、俺いつのころからかどうやって勉強していいのかわからなくなった。

> 一番大きいのは結婚して子供できて自由時間が減ったことなんだろうけど、でもそれ以前から勉強ぜんぜんできなくなったの。

お前は俺かってくらいまったく同じ状況。なので最近ずっと「俺ってもっと優秀な人間じゃなかったか」って思って自己分析してるんだけど、ここ数年で一気にスキルセットが変わったのが大きな原因かなと思ってる。デザインパターンアスペクト指向UMLプロジェクト管理手法、積み上げてきたものはたくさんあるけど、今はまったく使えない。若者より知識ものすごくあるけど、意味がなくなった知識ばかりなので実質的比較をするとほぼ対等。アジャイルクラウド機械学習・・・新しく出てきて若い世代が中心的に学んできた技術存在を考えると、おっさんたちはむしろ若者よりマイナスになってしまったわけ。知識の量は若者より多いのに関わらず。

なので、勉強をするときも「若者よりスタート地点がだいぶ低い」という観点勉強しないとダメだと言う結論に至った。その方法とは、簡単コンテンツを、大量の時間をかけて大量に吸収する、ということ。

後、子供はもう致命的な。特に休日今までは合計で16時間くらいは勉強に使えていたのが0時間になる。一ヶ月だと64時間くらい消えてるのね。勉強できないってより勉強してない。となると、前述の「大量の時間をかけて」が無理ゲーなので、すでに詰んではいる。

> もう俺は嫁さんと一緒にあと20年近くかけて子供2人育てなあかんからITが好きか嫌いか仕事選べる立場じゃねーーーの!

「すでに詰んではいる」と書いたとおりなのだが、これもまったくの真実。「技術ができない人」が「大金を得なければならない」。しかもそれは自分のためではなく、家族という他人のため。その行為は悪ではなく、善。

驚くべきことに結婚して子供ができると「能力の低下」と「収入の増加」を同時に満足させなければならない。そのためにできた制度が、おそらく年功序列であり、管理職なのであろう。そして今はその制度が壊滅しつつある。それでもこの矛盾と戦わなければならないので、結局は能力がなくても若者からお金を奪っていく方法を考えて、どんな手段を使ってもそれを実践していかなければ家族(言い換えると次の世代)を守れない、ということになるだろう。

管理職になる他にも、自分の持ってるレガシー技術を後輩に強制して、自分レガシー知識有効となる土俵議論を持っていくという手もある。いずれにしてもろくでもない。

2017-11-06

ではどうやって"AI人材"を選考すればよいのか

AI人材採用局所的に話題になっている。

http://aiweeklynews.com/archives/49678692.html

Excelはがっつり使える

Pythonのnumpyやpandasでデータの処理ができる

SVMや重回帰分析普通に使える(数式も少しは分かる)

Chainerを触っている (pipでインストールのみでもOK

これくらいできると、AI人材の平均レベル(と相手に思って貰える)なので採用見込みはかなりあると思います

例えばですが、python自分パソコン環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。

実際に見分け方がわからなくてこれに引っかかって採用してしま場合もあるんだろうな、とも思う。

自分がこの手の人材エンジニア)を採用する場合にどうやって質問をすれば見極められるのかエンジニア採用にも関わっている身としてを考えてみた。

AI人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。

取りたいロールをはっきり認識/確認する

まず採用を行う前に、AI人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。

エンジニア系のAI仕事と大雑把に言っても

1.画像/映像認識技術活用したい

2.大量のデータ対象として分析予測を行いたい

3.上記大量のデータを貯めたり一括処理したりするための基盤システムを作りたい

など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力オーバーラップしつつも異なっているため。

(以下、今回の目的が1や2だったと仮定する。)

バックグラウンド確認

あなた機械学習の関わりを教えてください

機械学習経験のある分野 / 得意な分野 / やってきたことを教えてください(実務でなくてもok

バックグラウンド確認する。実務や研究経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う

全般知識確認

機械学習全般基本的なところから確認していく。質問としてはこんな感じだと思う

教師あり学習教師なし学習の違いを説明してください

・分類問題回帰問題の違いについて説明してください

過学習ってなんでしょうか

イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識確認する感じ。

ディープラーニングについて

画像映像認識などディープラーニング系の業務が多い想定の場合

普段使うディープラーニングライブラリは何ですか

から始まって

あなたの組んだモデルについて教えてください

・どうやって訓練したのですか?

・どうしてそのような構成にしたのですか?

と突っ込んでいく。

きちんと自分で考えて組めているか確認するのがメイン。

ディープラーニング以外の機械学習について

・フィッシャー情報量から何が分かるか

・共役事前分布についてどのように用いるもの

MCMC法で事後確率の近似を取る時に気をつけることを教えてください

確認したいことはディープラーニングしか」できない人かではないかという点。

ある程度統計ベイズ法周りの知識が無いと詰むため。逆にディープラーニング不要業務ならこっち一本でも可。

手法の詳細・原理説明

・この問題最尤推定をしてみてください(簡単文章題

・勾配降下法について説明してください

・畳み込みニューラルネットワークについて仕組みを説明してください

盲目的にライブラリを使ってるだけでないかという点を確認したい。

SVM入力適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データ特性をきちんと考えて使っているかを見たい。

・kaggleのコンペに参加したことはあるか

・あればその時の課題手法をできるだけ詳しく

メダルの取得状況

kaggleに参加した経験があればnoteからその人の手付きを直接評価できるし、メダルという他メンバから客観的評価できる定量指標もある。

その他

学習意欲とか普段姿勢確認したい。もしかするとここが一番重要かも。

・分からない項目をはっきり分からないと言えるか

普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください)

・今興味のあること

こういう観点必要、とか○○なんてもう古いよ、みたいなツッコミどころ満載だと思うのでコメント/トラバで突っ込んで欲しい

2017-10-31

クラウドのGPU

用途にもよるけど、単に計算リソースとしてGPUを用意したい場合最近クラウドGPUを使うケースが増えているのでは?

GPUの購入

オンプレミス必要ならGPUボードを購入してもOK。(車の自動運転とか持ち運べるGPU必要場合

GPUスパコンを作るなら、エラッタのあるGPUを選別しては除外しないといけない。(スクリーニング済の高価な製品を買う、自前でスクリーニングするとか面倒?)

 

TPU

GoogleのTPUのほうがGPUよりも高効率。(コスパで比べたらGPUを選ぶ理由がない?)

 

コスパ比較、持ち運びが必要か?=必要十分条件検討した上で、買うかレンタルかが決まるかな?

2017-10-30

なぜ日本GPUと聞くと耳を塞ぐのか

CPU機械学習とか内蔵グラフィックスでVRとかベクトルコンピュータ撤退再参入とか、逐次実行によって実現するという方法ならいくらでもカネを出すのに並列化は蛇蝎の如くなのはなんなの?

2017-10-29

やべえ

1年前の自分日記を読んで、

Pythonによる機械学習入門』を買ってから1年以上放置していることに気付いた。

Amazonで品切れだったから、わざわざ別のネットショップで買ったのに。

せっかく手に入れて、最初の1~2章だけ読んで放置してた。

2017-10-28

家でも仕事したい

プログラマ仕事を始めて半年になるが、開発業務が楽しすぎてやばい

元々コード書くのは好きで、ただ作るきっかけとか作りたいものものがないという状態だったんで、

目的が与えられた今は、さてどうやって実装してやろうかとそのことばかり考えている。幸せ

本当は家でも時間のあるときプロダクトのコードいじったりライブラリを調べたりしたいのだけど、

お金を貰って働いている以上、会社で勤務時間中にやるべきことを無給でやってしまってはいけないと思い、我慢している。

残業すればいいじゃんという声が聞こえてきそうだが、それはそれでちょっと違う。

一日に集中して働ける時間は限られているし、あまり遅くまで残ることもできない。

急に発生する作業欲みたいなものをどうにも処理できないというのがもどかしいのだ)

となるとやるべきは「プロダクトに関係ありそうでないようなこと」になるが、これもどうもむず痒い。

流行りの機械学習だとかを学んでみてもいいのかもしれないが、今の自分の関心からはやっぱり外れている。

家で作業した分が勤務時間として認められたら一番いいんだけどな。

世の中の人はこういう切り分けをどうやってしているんだろうか?そもそも分けないんだろうか。

2017-10-21

アニメシャングリ・ラ」(2009)

パンツが見えない糞アニメ 

 

 

2009年(原作小説2004年)に描かれたこアニメで出てくるAIがちょうど今のAIに近い気がした

いわゆる「AI目標だけを与えて最善手を求めさせる」という手法

 

作品内では炭素指数を下げる手法として「海面水位を下げる」という目標だけをAIに与えて最適解を求めさせている

当時は機械学習一般的だったので「二酸化炭素排出データを与えて、最適値を求めさせるのがいいんじゃねーの?」という感想を持ったが

今やAlphaGoZeroのように「人間が変に初期値を与えるのはむしろ害」という扱いになっているのは時代の変遷を感じさせる

 

SFSFした「人格のあるAI」などではなく、現実的AIが描かれていたのはなかなかに珍しいアニメだった

インターネット流通しているAV機械学習にかけたら何ができるかねぇ?

顔や体型から喘ぎ声判定

2017-10-16

チューリングテストではカバーしきれない知能

チューリングは人を騙せる機械を知能と呼ぼうと定義したけれど、私はその考え方に疑問がある。

なぜならば”騙すのか騙せられないのか”という小さな区切りけが人間の力の及ぶ範囲ではないからだ。

音楽や絵、または文学芸能お笑いというように知能とは直接関係ないものこそが人間らしさを発揮しているように見えるからだ。

もちろん上記のような芸術機械が作るまたは模倣することは不可能ではないと思う。それは私が機械学習を専門とする学生から不可能と言いたくないことも関係している。

機械が作った芸術かそれとも人間が作った芸術なのかという2択の問題レベルを落とすとチューリングの問に定式化することはできる。

からといってその2択に問を定式化して大事な何か(言葉では定義できないファジィなそれ)を削ぎ落とすことによって知能を定義することはできないと思う。

それには答えは無いかもしれないが、愛というのも重要な要素である。例えば人間愛する人を騙したり、愛する人に騙されることがある。

では騙すことが知能と言い切ってしまうと、人間人間に対して騙されたり騙されなかったりしたときに、「あなたが私を騙せなかったのであなたには知能がない」というようなおかしなことになってしまう。

それは私が騙すという要素に愛を追加したからだが、愛を持った行いに知能がどうとか知能がないとかそういうのは別の次元の話である

このように2択の質問では愛という要素を追加しただけでチューリングの問は崩壊してしまうのだ。

そこで新たな定義必要になる。愛がある嘘か愛がない嘘なのか、愛がある真実なのか愛がない真実なのか、その4択の問をするというのはどうだろうか。

チューリングの部屋のような名前をつけて。でも、これでも疑問が残る。愛があるから知能とかそういうふうに定義してもまた別の要素を追加したくなるかもしれない。

知能を定義しようというのは生物進化を考えていない。生物進化すると知能も当然進化する。チューリングの部屋は無限時間進化考慮していない。どこまでいけば知能なのか結局は定義できないのではないだろうか...

anond:20171016132619

なにを持って「Web系」とするかで違うと思うんだけど、例えば今なら機械学習ができるプログラマには流出阻止も加味されてすごく高値な印象。スマホゲームリッチ化していて、3Dの取り扱いが得意なプログラマとか需要あるんじゃないか技術コモディティ化するから昔ながらの技術しか持ってない奴はどんどん値下がりするし、モダンで難しいけど需要のある技術持ってる奴は今でも高値で働けてる印象。要は学習能力と立ち回りでは。

2017-10-12

どうして、営業スポーツができる人とか、滅茶苦茶な提案する人は、「すごいね」と言われるのに、

実際にアプリつくれたり機械学習できる人は、「そんなの当たり前」とか、要件から逸脱した不平不満を言われるのでしょうか。

私のいた会社だけのことでしょうけど。たぶん。

隣の芝生が青いだけでしょうけど、おそらく。

きっと私のせいなのでしょう、きっと。

2017-10-11

お金で面倒くさいことを解決したいがモノもサービスも見つからない

世の中にはモノもサービスも沢山ありそうなのだが、探し方が悪いのか、なかなか見つからない。

みんなどのように探しているのだろうか。

iPhone10万出してもライフスタイル変えるようなものでもないし、スマフォアプリを探してもいまいち欲しいと思えるものがない。

Amazonプライムセールで欲しいと思えるものを探していたのだが、結局見つけられなかった。

カメラの腕を上げたいな―と思っても、高い機材買っても腕は上がらない。100万以上出してもアシスト機能が充実しているわけでもない。

カメラ講習も初心者向けのは沢山あるのだが、印刷して額に入れるような写真が撮れるような講習はなかったりする。

撮って撮って撮りまくれとカメラクラスタからは言われるのだろうが、腕を段階的に上げるための課題すらないのである

ノブロ使ったライティングも面倒くさいからなのか講習もほとんどなかったりする。

知識をつけたいと本を買い漁るのだが、読むのが面倒くさい。そして本の内容も正しいのか判別するのにネットで調べ反論があるかどうか確認するのが面倒くさい。時間と労力がかかるわりに、本を読んでいる人にしか通用しない、もしくは長い前置きが必要となる。

お金解決してくれないものだろうか。

スマホゲーのようにお金解決出来る課題提供されるものコミットしなければ、お金では面倒くさいことは解決してくれないのだろうか。

機械学習で楽ができるようになるのかと思って手を出したが、面倒くさいことが増えただけだった。

論文を漁り、書籍を漁り、他の人のコードを追いかけてって、どこがA.I.仕事を奪うというのか。

2017-10-06

SE辞めたい

別によくある長時間労働とかデスマとか偽装請負とかが嫌で辞めたいわけじゃない。

しろ幸いなことにその3つには縁のない生活を送っている。

やることやってりゃ定時に帰っても有給使っても何も言われないし、上司は有能すぎるくらい有能だし、業界平均から見てかなり恵まれてる方だと思う。

でも仕事がつまらない。

毎日毎日エクセルにらめっこ。たまにパワポ。極たまにワード

ここ最近で一番役に立った言語javaでもpythonでもなくエクセルVBA

それでも1、2年目のうちは仕事の進め方とか、周囲から学ぶことも多くて嫌でも成長する機会はあった。

でも3年目にもなるとそういう「自動的な」成長は終わって、勉強会出たり趣味で何かやったりしないと何も身に付かない。

でも絶望的に興味がない、

機械学習にもディープラーニングにもIoTにも興味ない。ていうかそもそもITに興味がない。

仕事から必要に迫られた時にググったり研修受けたりはしてるけど積極的に関わりたくない。

AIブロックチェーン

それが今の案件に何の役に立つの?って思ってしまう。

このままだと、業務知識()やマネジメント力()で勝負するとか言っちゃう似非SEか、

企画職とは名ばかりの管理部門で燻ってる有象無象に加わるしかない。

それは嫌だ。

そういう人達特別スキルを持たないまま歳だけとって、若者ポジション取られて居場所を失っていくのを何人も見てきた。

客観的に見て、

現状に不満があるくせに、勉強するのも嫌だ、

なりたくないものはいっぱい言えるのに、

なりたいもの特にない、

って、めちゃくちゃわがままだと思う。

ももSE稼業で「こうなりたい」っていうのが見えないんだ。目標もないか努力もできない。

辞めるしかないよなあ。

とある専門家向けの機械学習講演会にて

最後に会場との質疑応答があったんだけど、

質問です。資料に書いてあるNLPって何ですか?」

Natural Language Processingです」

ありがとうございました」


答える方もアレだけど、この質問者さん、自分が知りたいことをちゃんと理解出てるのかなと思った。

2017-10-05

anond:20171005093829

手垢が付きすぎて黒光りしてる言い回しだけど英語なんて所詮道具。

習得プロセスなど全く問題でなくて、とにかく使えればいい。

学習コストが著しく軽減、もしくは掛からなくなるなんてこんな喜ばしい事ない。

自動翻訳が普及すれば、英語が話せるというだけでありがたがられてきたバカどもが消え、

本物の教養を持ち合わせている奴(無論、語学教養の一部ではあるが優先順位は高くない)や、

辣腕で仕事のできる奴しか生き残れなくなり、真の意味でのグローバル社会になる。

ディスられてる精度も日夜蓄積されるビッグデータ機械学習で徐々に改善されてくだろう。

語学自体学問として、また好事家・富裕層嗜好品として生き残る。

2017-09-30

C言語最初に学ぶべきではないが最初に学ぶことのメリット

私は今とある大学の4年生です.

本格的にプログラミングを始めとしてコンピュータ科学を学び始めたのは大学入学してからです.

今では幸運なことにインターン都内ベンチャー企業golangpython, scalaを用いた大規模なシステム構築に携わっています.

給料日本大学生にしては破格といえるのではないでしょうか. それも大学で真面目に勉強したお陰であると胸を張って言えます.

大学の方の卒業研究では組み込み系のセキュリティに関して研究しています. 正直テーマ選びに失敗したなと思っているので大学院にいったらシステムプログラミング系の方にシフトしようと思っています.

無駄話が過ぎました. 表題に関して話しましょう.

私が大学の授業で初めて習ったプログラミング言語C言語でした. 理由教授に聞くと, 並行して座学で教えるコンピュータ科学系の専門授業全般と結びつけやすいからだそうです.

最近TwitterQiita, StackOverflowなどでは「初学者最初に学ぶべきプログラミング言語はなに?」という質問に対して, JavaScriptPythonから入るのがベストだと言う人を沢山見かけます.

私自身こういった意見には賛成です.

JavaScriptブラウザというものが有る限り20年は消えなさそうですし, Python機械学習を始め, Webシステムでも使え, 非常にクレバー言語です.

javaオススメだと思います. 30億?ものデバイスで動く言語ですしドキュメント豊富です. 色々な分野にも応用が効くでしょう.

さて, そんな中でC言語という悪い評判しか聞かない, でもやたら色々なところで使われているらしい言語最初に学ぶメリットとは一体なんなのでしょう.

一つ, 私が思いついたのはコンピュータと仲良くなれる.

というのもC言語アセンブリ機械語に比べれば, 人間にわかやすく, かつコンピュータ側にも近いという顔をもちます.

真面目にプログラミングしようとするとどうしてもそのコンピュータの仕組み(主にメモリ) について学ぶ必要が出てきます. これらの知識現代の開発に置いて役立つ分野比較的限られると思います.

しかし, それらは思わぬバグ特定意図していない動作改善に役立つことがあるかもしれません(実際に私もいくつか出会いました)

二つ目は他の言語を学ぶ時のハードルが非常に低くなる. これはどの言語を学んでも同じだとは思います.

そして, 他の言語の高級な機能に思わず涙ぐみながら感謝すること間違いなしでしょう(javaのsplitとか他の言語にもあるHashとか)

ただ, 私はC言語構造体やポインタのお陰でオブジェクト指向プログラム言語を低レイヤ実装的な面と概念的な面ですんなりと理解することができました.

そしてよく挫折ポイントとなるポインタ(ダジャレじゃないですよ?). これもメモリの住所だと考えればそれほど難しくはないのです.

メモリ管理を適切に設計した時あなたプログラムボルト並みに早く走ってくれるかもしれません.

他の言語では味わえないやりがいがあるのもこの言語の魅力でしょう.

書いているとこれぐらいしか思いつきませんでした.

それでもコンソールに初めて Hello World! が出力された時の感動はやはり忘れられません.

昨今, 高機能言語が沢山ありますが, あなたプログラミング生活ささやかアクセントとしてC言語を学び直してみてはいかがでしょうか?

きっと今使っている言語普段言わない感謝言葉を述べること間違いなしです.

それではこんな駄文に付き合っていただきありがとうございました.

一刻も早く世界からC言語が消えることを祈っています.

2017-09-29

TechCrunch JPタイトルから hiwa 氏の翻訳か否かを深層学習推定する

追記 (9月30日 22:00)

最近タイトルを読むだけで hiwa 氏が翻訳したものかどうかがわかるようになってきた。

例えば、「死んだはずのBlackBerryがソフトウェア企業として蘇生、業績も株価も好調」というタイトルは「死んだはずの」という挑発的な言葉遣いは hiwa 氏だろう(そしてそのような文句は元記事にはないだろう)と推測したり(確認してみると元記事タイトルは "BlackBerry, yes BlackBerry, is making a comeback as a software company" であり、「死んだはずの」や「業績も株価好調」といった文言は含まれていない)、「GoogleがAmazonのEcho ShowからYouTubeを突然取り去る、サービス規約への違反だそうだ」というタイトルでは「〜〜〜、〜〜〜」という独特な文の接続や、文末の「だそうだ」という物言いから氏であろうと推測している。

私が推測できるのだからアルゴリズムでも可能ではないだろうか? そう考え、機械学習の中でも特に深層学習を用いて推定可能である検証した。

タスク

タイトル文字列(本文情報は用いない)からその記事翻訳者が hiwa 氏であるか ( = 1) そうでないか ( = 0) を学習予測する二値分類問題

学習データ

TechCrunch Japan記事データ 11,993 件。うち 3,781 件が hiwa 氏が翻訳したものである

手法

入力文は vanillaMeCab [1] を用いて分かち書きを行い、それぞれの単語は「日本語 Wikipedia エンティティベクトル」[2] を用いて 200 次元に埋め込んだ。語彙数は 17,272 だった。

予測モデルは 32 次元の LSTM [3]。dropout 率は 0.5。文の最大長は 120 単語zero-padding を行い、バッチサイズ 32 の Adam [4] で最適化した。

LSTM の実装には keras 公式に用意されたもの [5] を参考にした。

結果

精度 0.85, 再現率 0.80, f値 0.82 とまずまずの精度で予測可能であることがわかった。

ちなみに、 CNN による推定では 精度 0.84, 再現率 0.80, f値 0.82 という同等の結果を得た。

結論

機械学習を用いることで、記事を開く前に hiwa 氏が翻訳したものであるか否かがまずまずの精度で分類できることがわかった。深層学習はすごい。

参考文献

[1] MeCab: Yet Another Part-of-Speech and Morphological Analyzer

[2] Long Short-Term Memory

[3] 日本語 Wikipedia エンティティベクトル

[4] [1412.6980] Adam: A Method for Stochastic Optimization

[5] keras/imdb_lstm.py at master · fchollet/keras · GitHub

anond:20170928171709

自然言語解析と機械学習の分野で、いくつかの本人の文章学習してから執筆者不明文章が本人かどうかを判断させる手法があった気がするけど、誰かやってみないか

2017-09-27

プログラミングパラダイム流行とか分散アーキテクチャとかは普通についていけてたが

機械学習とくると学者とかそういうヤツがやることだろって感じしかしない

俺の中では「プログラマ」に対する要求を超えている

ちょっと鬱っぽくなってんのはこれもある

アーカイブ ヘルプ
ログイン ユーザー登録
ようこそ ゲスト さん