はてなキーワード: ニューラルネットとは
1950年代に考案された最初のAIであるニューラルネットワークは、1990年代には実用化した。
2000年代に多層ニューラルネットの欠点を補完する深層学習が誕生すると、
やがて民生用の量子コンピュータが普及し始めると、AI の量子演算化研究は当時のホットトピックとなった。
だが、高度に複雑化した量子化AI理論を理解できる学者は世界に数人しかおらず、論文の査読に8年もかかったという。
その実用化にはさらに多くの年月を費やしたが、身の回りのあらゆる電子機器に搭載されるようになった。
量子化AI の導き出す結論は常に最善・最適なもので、人々は機器に言われるままに行動するようになった。
その方がいつも快適だし、無駄な思考コストも要らないので当然のことである。
電子機器の指示に従って暮らす人にとって、 AI は神であり、その言葉はご神託となった。
その昔、SF作家のアーサー・C・クラークは、
と言ったが、
という世界が具現化したのだった。
考えてもみてほしい。
ものごころつく前から、機器の指示に従うことが善とされ、それに逆らった人間には事故や病気という罰が与えられる。
祖父母も両親も私もそうやって暮らしてきたし、将来産まれてくる子や孫もそうするだろう。
今、私に与えられている指示は「ロウドウ」だ。
畑を耕し、野菜を育てる。
私の担当はトマトで、午前の担当区画では種まき、午後は別の区画で収穫をする。
水まきは週に1回なので今日は無い。
住人全員が食べる分のトマトを運ぶのはかなりの 運動 になる。
牧畜担当に憧れが無いわけでもないが、友人曰くミルクの運搬がかなりキツいらしい。
夕方には、その日食べられる食材を持ち寄って集計し、グループ単位で調理して食べる。
食事は1日2回。朝はパンとミルクだけの軽食なので、夕食が一番楽しい時間になる。
友人ともいっぱいおしゃべりできる貴重な時間。
食後の片づけを終えたら、睡眠室に戻り、私は「メイソウ」をする。
正直に言うと、この2時間に具体的に何をすればいいのかよく分からない。
お母さんは、何でもいいから自分一人で考えることが大事というし、
お父さんは、妄想でもしとけばいいという。
昔の人の暮らしを想像するのだと言って、なぜか神話を語ってくれた。
人々は神様のことが良く理解できず、勝手に悪い神様を創り出してしまったこと。
それを見かねた良い神様が「フネ」という新しい世界を創造したこと。
その「フネ」はいくつもあって、この「フネ」に宿る神様の名前は…
なんだっけ。一度はちゃんと聞いたんだけど、今はもう思い出せない。
ピピピピッ。
腕にはめられたリングが光り、「メイソウ 〇」の緑の文字が浮かび上がった。
すぐに「スイミン」の指示を示す青い文字へと変わった。
どうやら、今日の「メイソウ」も無事終えられたようだ。
昼間、体をたっぷり動かしたせいで、今夜もぐっすり眠れるだろう。
私は、どうしても思い出せない神の名を妄想しつつ、静かに眠りについた..。
.
全ての勉強をニューラルネットに絡めてやった人、って感じのする意見なんだよな。最近の若い人はそういう人すごく多いけど。
アテンションがどうとか言ってるけど、そもそもモデルのパラメータを画像座標と図形形状の直積に取れば位置の情報は当然入る。単にそれだけの話なのに、わざわざ「アテンション」とか言ってしまうところが、ニューラルネット、もっと言えば並進対称性をあからさまに入れた畳み込み演算が暗黙の前提になりすぎているといえる。
GANがどうと言ってる人も同一人物だろうなと思うけど、そもそも単なる教師あり学習とhuman in the loopのアクティブラーニングは全然話が違うだろう。
音声全く詳しくないけど、これは間違いなくあるね。音声に限った話じゃない。
GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。
2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。
はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AIの記事を見た人も中にはいるだろう。
人の歌声と区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。
人間のボーカルを録音してピッチ修正をしている人だと、Melodyneでピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、
歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。
実際にソフト開発側もわかっていて、マニュアルで修正する手段を用意しているので、それに引きずられてしまうのだが、
声は複数の周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。
実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。
また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。
機械音声の場合、ゆらぎがなく、〇〇周波数がピタッと出ており±15Hz揺らぐといったことがない。
ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。
見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、
これについて言及した文献を探せていない。
さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。
「あ~」のように伸ばした音の場合、ピッチ調整で波打つようなのを手書きしたことがあるDAW経験者はいるだろうが、
人の声を調べると倍音の数が徐々に変わっていたりする。
現行のソフトでピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、
この辺りが機械学習で解決しているかというと、あまりなっていないように感じている。
思っていたよりクオリティが低いのだ。
なぜか。
一つの仮説だが、RNNやTransformerといった、ニューラルネットの構成ばかりに気にしていて、
何かしらかの演算で前処理を行ってからニューラルネットに入力するわけだが、
前処理段階で捉えられていない特徴量があるのではないだろうか。
また統計処理を行う際に、計算精度によって丸め込まれてしまっているのではないだろうか。
プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフトは自動化が出来ない。
何年経ったとしても、良くならないのだ。
この辺り、修正前と修正後のデータがあるのだから、学習していってより便利になればいいのだが、そうはならない。
スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。
ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。
日をまたぐと体調も変わってくる。
同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。
自分で合成音声をやってみるとわかるが、学習に計算リソースがかなりかかる。
https://ai-scholar.tech/deep-learning/matrixflow-191/
この人は文系でも使えるAI製品を売り出してデータサイエンティストを全部失業させたいとか言ってる。
で1年くらい昔の話で申し訳ないんだけど、この人こんなことも言ってる
https://twitter.com/tdualdir/status/964134918266605568
この人の言ってる「DNNが任意の関数を表現できる」ってのはディープニューラルネットワークの層を深くすればするほど複雑な表現に対応できて任意の関数に近づけるってことだよね。
関数をテイラー展開して項を増やせば元の関数に近づくみたいな話。万能近似定理とか普遍性定理とかいう名前のやつ。たしかに昔から言われてる。
でもどれくらい深くすればうまく近づけられるかってことは何も言ってなくて、既存の手法よりもうまく行く理由もわかってない。
無限に深いDNNならどんな関数も表現できる、なんて言っても実際にできなかったら使えないじゃん。
だからこそ研究者が現在進行形でいろんなニューラルネットワークを試してうまく行く条件を探してるわけ。
https://www.slideshare.net/masaakiimaizumi1/ss-87972719
は目的の関数が一定の条件下ならDNNが他のどの手法(最小二乗法とか)よりも一番うまく近づけられることを証明したって言ってる。
つまりこれまで分かってなかったことを部分的に解明している。全然違う話。
書いてある数式が難しくて理解できなくても日本語のとこだけ読むだけでも全然違う話をしてることがわかると思うんだけど。文系ならともかく理系ならわかるでしょ。
数学ができるかよりも機械学習で何ができるのか理解してそれを活用できることが重要ってインタビューの中で言ってるけど、本人が理解してないじゃん。
何ていうかさ、知ったかぶってAIに強いですよってアピールしたかったのかなって感じ。最近AIブームで目立ってるAI人材ってみんなこんな感じ。
数学に強い理系って経歴をこういうハッタリにしか利用できないのは悲しいよね。
AI理解の解像度がこの程度の人間がソフト作ってAIを全くわからない人間に「はいあなたみたいな文系でもAI使えますよ!」って売りつける構図なんだけど、
作る側も使う側も何も分かってなかったら成果出るわけないしすぐ飽きられそうなんだけど。
それともまだグーグルのAutoMLでも実現してない全自動で最適なニューラルネットを学習してくれるAIプラットフォームを自分でゼロから作る予定なのかな?
無限に複雑なDNNなら任意の関数を表現できるって話とどういう条件でDNNが他の方法よりうまく行くって話の違いが分かってない状態じゃ厳しそうだけど。
これもゴールドラッシュのときにツルハシを売る奴が一番儲けるってやつなのかな。
でもよく考えたらこの手のソフトって昔からあるよね。結局使いこなせずに「コンサルタント」とか雇って月単価いくら万円で常駐させてしまうのはいいほうで、たいてい飽きられる。
手を変え品を買え同じことの繰り返しってことか。なんだ。
まあデータサイエンティスト全部失業させたいってのは同意。こういうハッタリが増えればすぐAI幻滅期が来てブーム終わるし。
機械翻訳は困難とされてきましたが、昨今話題のDeep learningで状況は一変してます。
Google翻訳もニューラルネット使って大幅に精度が向上してますし。
Googleが開発したPixel BudsやGoogleレンズは端末性能の制約上まともなニューラルネットワークを駆動できずに精度はイマイチでしたが、新型iPhoneやNVIDIA RTX2080のようにニューラルネットに特化したチップを搭載する機器が登場し始めており、かつ5Gのようにリアルタイムで大量データを送受信可能な通信規格が普及すれば携帯端末で大規模なニューラルネットを活用可能な未来は数年の内に来ます。
特に難しいとされてきた意訳についても、Deep learningによって実現可能性が見えてます。
キャプションから写真、写真からキャプションを生成するようなニューラルネットが既に実用化されていますが、「英語キャプション⇒写真⇒日本語キャプション」というように生成すると、写真を説明する英語の文章から日本語文章を生成でき、かつ単語単位で変換しただけでは得られない同一概念を表す英語と日本語の文章が得られます。これは意訳とほぼ同義の結果が得られており、さらに一歩推し進めて「英語⇒抽象概念、抽象概念⇒英語、日本⇒抽象概念、抽象概念⇒日本語」と学習すると、写真を介さなくても直訳ではない翻訳文章を得る事ができるようになります。
また「日本語⇒英語」「英語⇒中国語」というふうに学習させたモデルを使うと「日本語⇒中国語」についての翻訳も(学習していないのに)できてしまうという研究結果もあります。
突然かつ急激な産業革命的パラダイムシフト、翻訳屋のロゼッタが機械翻訳の飛躍的な向上に白旗宣言
http://kabumatome.doorblog.jp/archives/65903378.html
本当かどうかは知らないけど、正直さもありなんというのが元業界の人の感想。
翻訳の環境は「人の翻訳→翻訳プラットフォーム(翻訳作業用のソフトウェア)→機械翻訳のサポート→機械翻訳の後編集(ポストエディット)→ニューラルネット翻訳」という風に進歩してて、どんどんの人の手がかからなくなっている。
それを発注側も受注側もわかってて、どんどん納期と価格が下落しているのがここ数年の話。
在籍していた会社はまだマシというレベルの単価で、他社の話だとこれもう専業でやっていけねえよなというレベルの単価だった。
つまり「安く、早く、大量に処理する」がトレンドであり、翻訳者からすると翻訳会社やソフトウェア会社の都合で単価や作業環境を年々いじくられ振り回させるのが常態化していてうんざりしている人も多い。
ちなみにほとんどの翻訳会社は登録しているフリーランスの翻訳者に発注しているので、立場の弱い個人の翻訳者は翻訳会社の都合に合わせるか、条件のいいところを探すしかない。
発注企業、翻訳会社、ソフトウェア開発会社、それぞれがそれぞれの思惑で動いてきた結果、商売として成り立たなくなっているのが現状。
海外はというと、世界中にブランチ持ってる大手企業がせめぎあってて日本の翻訳会社なんて下請けのひとつでしかない。
日本は数多いローカライズ先のひとつという感じで、そんなに重要視されてない。
あとそもそもの話、翻訳という仕事は翻訳元になる文書(説明書とか契約書とか、仕事に関するすべてのドキュメント)がないと成り立たないので、日本企業が海外進出しないと仕事が増えない。
オリンピック需要が!なんて話もあったけど目立った案件はなかったように思う。
ただ翻訳において絶対に最後に必要になるのは「誤訳と判断できる背景と文脈がわかる人のチェック」なので、どんなに精度があがってもプロの翻訳チェッカーという仕事はなくならないと思う。
しかしそうなると外注するより社内で機械翻訳した後にチェックできる社員がいればよく、むしろそっちの方が安心感があるので市場はさらに縮小するというのが個人的な見立て。
みんながキーボード打てるようになって、タイピストの仕事がなくなっていくのに近い感じかな。
業界の傾向だと思うんだけど、語学が好きな人が多いせいか勉強好きな真面目で感じがいい人も多いので、そういう人たちがしんどい思いしないようにとは願ってる。
追記:
http://www.nikkei.com/article/DGXMZO98496540W6A310C1000000/
一つは、AIが明らかに誤りと思える判断を出力した場合にも、その原因の解析が極めて困難であることだ。イ・セドル氏が勝利した第四局では、AlphaGoは明らかな悪手を繰り返した後に敗北したが、その原因は当のDeepMindのメンバーにも分からなかった。通常のプログラムであればコードを追跡してデバッグできるが、ディープラーニングには人間が読める論理コードはなく、あるのは各ニューラルネットの接続の強さを表すパラメーターだけ。アルゴリズムは人間にとってブラックボックスになっている。
もう一つは、高度に訓練されたAIは、例え結果的に正しい判断であっても、人間にはまったく理解できない行動を取る場合があることだ。特にAlphaGoが勝利した第二局では、プロ棋士の解説者は「なぜAlphaGoの奇妙な打ち手が勝利につながったのか、理解できない」といった言葉を繰り返した。
ああ、やっぱり俺の思っていた通りの未来になりそうだな。
人間:弱いAIの現時点でも知能指数が開いてAIの出す答えが人間には解析不能になってる。
色んなライブラリが出てるから、Deep Learningを使うこと自体は全然難しくない。
おかげで暇人がDeep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。
ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止。ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。
あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデルは簡単に過学習を起こすから、素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データが必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化のパラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。
なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか?あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。
Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説が簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界。
というわけで、お前らがぽっと出のアイディアでDeep Learning使ったところでゴミみたいなアプリが出来るだけだからやめとけ。
物事を習得するときに脳をどう使うべきかが分かっているとかなり改善される。
(天才クラスは生まれつきニューラルネットの構造が違うので張り合っても無駄)
別に運動じゃなくても勉強でも何でもいいので、学習して習得したというときにどう行動したかをよく考えてみるとよい。
現在の間違った状態を修正するには、ポジティブなフィードバックが必要。正しい出力(運動の結果)が必要だ。
正しい出力は当然最初はできないから、探索的に達成する必要がある。
つまり運動に関わる色々なパラメータ(体の各パーツの動かし方、角度や速度、その他)を効率的に変えながら実験をして良さそうな方向に探索していくのだ。
一旦正解らしきものに辿り着いたら、それを繰り返し行う必要がある。Hebb則によれば繰り返し使われたニューロンはその分強化されるからだ。
音ゲーしてる時に身体のリズムを取ることに意識しすぎるとうまくいかないことが多々ある。
音をちゃんと聴かずに身体のリズムだけを基準にするとズレてくるのは当たり前なんだけどね。
この意識の仕方は大袈裟に言えば周りをちゃんと見て行動する意識の形成に役立つから初等教育に取り入れるべき。
という話を音楽の先生にしたら音楽教育に音ゲーを取り入れるという発想自体が全く無かったと驚いていた。
.
エロに関しても全く同じことが言える。某イオンド大学という凄い大学の某アダム徳永という人物はニコ生デビューしたはいいが
卑猥な発言をしすぎたために数ヶ月で撤退を余儀なくされた黒歴史を持つが、彼のセックス観は常に俯瞰的な視野を持つというものだった。
よくムードを大切になどと言われるが、ムードに飲まれてはミイラ取りがミイラになるので、ムードを俯瞰することが大切だ、
という発想がカウンセリング理論における脱中心化の発想に相似している。児童教育においても見守る大切さが言われるが、
見守ることは決して放置やネグレクトではなくむしろ対極にある、愛そのものとも言える行為なのである。
.
ここ10年、いやここ5年に人工知能ができることは随分と増えた。電王戦で厳選されたプロ棋士達に勝ち越したのは記憶に新しいが、
少し昔ならありえないと思われていた相貌認識も人のそれを超える性能を身につけるに至った。さすがのミンスキー博士もこれにはびっくりである。
それくらいIT技術の進歩にも匹敵するくらい昨今の人工知能技術は日進月歩の感がある。ともすると笑いのタネであったニューラルネットなども随分現実的な話になってきた。
これで人間の感性までを扱えるようになる準備が整ったといっても過言ではない。電王戦で今回も出る予定のやねさんもボカロや作曲に携わるとかなんとかかんとか。ニャンともピンとも。
.
そうなってくると当然のことながらエロだって計算できる。やっとタイトル回収。当然コンピュータが描いたエロ絵で当然のようにカく時代だって当然目の前に当然迫ってきている。
いまエロ情報の評価にはDMMやAmazonやpixivの星の数のような人間のレビュー頼りにしすぎている所があるじゃーん?しかも個別な作品ごとに評価しないといけない。
「この商品も見ています/買っています」だけは優秀だけどねそれ以外はてんで駄目。これからはそういうのも人工知能で予測計算してプッシュ型のレコメンデーションが可能になるのだよ。
.
人間って比べると価値判断が歪むことが多いんだよね。一面しか見ずに比較したりするし、さらに言うならば比較できない部分も多々あるからね。
スペック上は優れているはずなのに糞なパソコンっていくらでもあるでしょう。電気店員は売りたいものを客に比較させて売る。
でも比べたい、比べて一番いいのを選びたいというのが人情。そこで人工知能が出てくるわけです。
.
で、最初の話に戻るけど漫才なんかにも話の間合いやテンポなどのリズムがあるでしょう?けど比較しようという心、
私どものほうではヨガの言葉を借用して分別心と言っておりますが、比較しようという心が前に出すぎるとうまくいかない。
こっちの言い方よりこっちの言い方のほうが笑いがとれるかなとか。笑わせようとすると笑われるの法則。
常日頃から選びに選んで引き出しに入れておいたネタがドン滑りにでもなってごらんなさい。三日三晩うなされて布団から出れません。
.
エロだって同じで選ぶんじゃない。すでにそれはもう選ばれている。流れというものが既に存在しているわけだからね。
それをまず感じ取る必要があってこれは大変なことなんだ。だからそれが出来る人は我が国の貴重なエロ人材とも言える絵師なわけ。
周囲の影響は当然あるでしょ。当たり前。
「理想の人生」としてパッケージ化されて入力されるものではなく、
外界とニューラルネットと不確実性の相互作用によって出来上がるものだ、ということ。
「育てる」ことにあまり興味がないのは確か。教えるのは割と得意だけど。
さっきのサイトにも書いてある通り、相互作用や不確実性のきっかけを与え、成長そのものは自己組織化に任せるべきだと思っている。
育成ゲームのような不確実性やループ・フィードバックの無いシステムには全くリアリティを感じない。
非線形を理解していれば、「育てたように育つ」または「育てたいように育てる方法が存在する」という発想には普通ならんと思う。
個人的な経験で言うと、スキルは仕事の外で身につけるものであって、仕事はそれを(直接的又は間接的に)裏づける実績を出すところ、という感じ。
投資銀行屋がM&Aのノウハウを身につけるとかだと仕事を通してしか学べないかもしれないが、そういう仕事に就いてる奴は大抵「誰でもできる仕事だから」と言う。
これはおそらくそういう意味(ノウハウであってスキルではない)だと思う。
例えば俺は仕事で線形代数とかバリバリ使うんだけど、これは教えろと言われてもとても難しい。
教科書に書いてあることは教えられるけど、使いこなすにはそれじゃ全然足りなくて、学生時代から数えて10年以上、様々な状況で実際に使ったり失敗したり、より抽象的な理論(関数解析とか量子力学とか群論とか)を何度も勉強して開眼したり、やっぱり勘違いだったことが分かったり、無数の経験を通じて脳内のニューラルネットが構築されていい感じに枝刈りされた状態が今なわけだ。
こういうものは恐らく「スキル」と言っていいんじゃないかと思う。
そして、仕事だけではこういうプロセスを経ることは基本的にできないと思う。
ニューラルネットというのは極めて複雑な構造物で、ループバックがあったりフリップフロップみたいな記憶構造があったりで、straightforwardなシーケンス処理としては絶対に記述できない。対して「ノウハウ」というのは、それがどんなに複雑であっても、本質的にシーケンスとして記述できる処理の集まりのことを言うのかもしれない。
そうそう、ジャンプのマンガの「トリコ」に出てきた話で「プロは考えない」というのがある。
これはほんとにそういうところがあって、要するにニューラルネットが十分にtrainされているから、論理的に考えなくてもニューロンに情報をぶっこめば適切な答えが得られるということ。
俺程度でも、数式が書いてあるのを見ると意味を考えなくても何となく間違ってるのが分かったりする。よく考えないと何で間違ってるのかは分からないんだけど、何となく違和感があって間違ってるっぽいなと分かる。