はてなキーワード: ニューラルネットとは
誤差以前にそもそも確率的に最適化してて巨大なノイズが乗るし、とにかくデータ積み上げて計算着回せばいいんだよ!!!って感じで些末なこと考えても仕方ない
ただ最近は(第3波の)ニューラルネットネイティブ世代が増えてきていて、なんかコマンド打てば動くんですみたいな解像度で色々やっててそれはそれで怖い笑
ロジックプロセス2nmを国産するということだが、数兆円市場を目指すとしているが、何を作るのかはまだ明かされてない。
といったのが乗っており、色んな物を作らないといけないのでハードル高そう。
今のインテルやAMDを超えるのを作れたとしても、競争は激しそうだ。
コンシューマ向けで日本人は期待する所だろうが、おそらくない。
NVIDIA1強になっているのはよくなさそうだが、DirectX対応でGPUメーカーが淘汰された状態が今なので、おそらくない。
ゲームの販売方法自体が、高性能なハードを赤字で売ってソフトで後で稼ぐモデルから変わってしまっているので、おそらくない。
TSMCでF-35のチップを作ってるというのは検索すりゃすぐに出てくる。
似たようなので兵器に使っているチップを国産したいっていう国のニーズはあるはずだ。
ただ数が出ない。
例えば、特殊な暗号チップを作り、国内の省庁間や、海外にある領事館との間で、重要な通信に使う、
というのは考えられる。
こちらも数は出ない。
何かしら作りたいのだろうが、こちらも数が出ないだろう。
通信はデータ量はドンドン増えていることと、安全保障の観点で透明性が求められるので、
多少高くても国産、というのは出てきそうだ。
AIも沢山あるが、例えば車向けとしても、車に載せるのではなく、社内のスパコン向けの方がいいのではないだろうか。
テスラが社内に使うスパコンを自分達でチップから起こした、みたいなものだ。
なんで社内向けが重要かは、車に載せると多少コストがかかっても解析されてしまう。
Google、Amazonなどが自社で作ったチップはクラウドで使うとしているのは、他社、他国にチップを解析されない、というメリットがある。
個人のパソコンに挿せるAIチップが載ったPCIカードが出てくれば、国民としても身近に感じられるだろうが、
どうなるかはわからん。
GPUでも性能足りてない。
クラウドでマイナンバーカードさえあれば、それなりに自由に使えるなら自分は使う。
書いている途中で力尽きたので、上記だけだった。
以下、コメント返し
ターゲットとするのは、もう半導体として機能向上を求めないところ(他の機械部分がボトルネックになるなど)だと思っている。
要はコストダウンのみで、チップが無いと困るが、もう新しく設計必要なく量産だけやってくれる方がいいってところの認識だ。
どちらかというと自動運転向けの画像処理か、車載にせず社内の画像学習向けの方が良いはず。
イメージセンサーに載るのは2nmは多分使わず、熊本28nmの方使うはず。
センサーの後ろにつける画像処理用のISPは2nm使うのはあると思う。
8K,16K 24fps以上狙うと使わないと処理追いつかないはず。
それはそう。予測とか生成をする分にはいいんだけど、モデルの解釈性は全くない。統計的学習理論なんかも滅茶苦茶大雑把にこういう感じのデータ(関数空間)はニューラルネットが有利とか言ってるだけだし、未来永劫何も分からんのじゃないかと思うわ。
まあ生成に関して言えば、ピカソやダリがどういうロジックでああいう絵を描いたのか説明できんのかって言われたところで、美術史家が半分妄想みたいな理論をこねくり回して後から理由らしきものを捻り出すのがせいぜいなのと同じだろうと思う。予測はもうちょっと何とかなって欲しいけどなあ。
そういう細かいところがどうなって上手く行ってるのかは多分今のところ誰も分かってない(今後も分からなさそうな気が俺はする)。追ってないので分からんけど、なんか論文はあるかもしれない。
まあ現状のモデルは内部にアテンションモジュールが入ってて近傍の整合性みたいなのを少しずつ適用していくような形にはなってるんだろうなと思うわ。その整合性の基準は学習に使った画像群ではあるだろう。でも別に学習に使った画像を丸ごと記憶しておくストレージみたいなもんは無いはずなので、一つまたは複数の画像から取ってきてるって言ってもそれはニューラルネットのパラメータとしてエンコードされた何かよく分からんものということになるはず。
一般化線形モデルは基本中の基本なので、「暗に仮定」も何も、知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど。
いや、だからy=aφ(x)+b型の回帰なんて一般化線形モデルに限らないのになんで「知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど」なの?
俺は一般化線形モデルを普通に勉強したことがあるし解釈できるが、俺のコメントはモデルが明示された後にそれを解釈できるかどうかを問うているのではなく「何も言及されていないのにφと書かれた関数だけをみて一般化線形モデルだと判断できないだろう」ということを言っている
なおあなたがそれしか知らないから「基本中の基本だしわかるだろ」って言ってるだけで基本中の基本でこの形の関数なんていくらでもあるからな
ガウス過程回帰かもしれないし、カーネル回帰かもしれないしスプライン回帰かもしれないし最近ならニューラルネットを使ってるかもしれない それこそどれも基本中の基本だ どれを想定しているかなんて神にしか分からんだろう
例えばX~Pって書かれたときに「Pは正規分布。これは基本中の基本なので、「暗に仮定」も何も、知ってて当然現れたらスッと解釈できて当然の内容だと思うんだけど。」とか言われたらあなた納得するの?
(書かれている文章のレベル感的に本当に納得しそうだから怖いんだよな・・・)
俺は一般化線形モデルの解説を求めているわけではなく断りなしに一般化線形モデルをいきなり持ち出してくるのがおかしいって言ってる。
上にも書いたけど、X~Pって書かれたときに何も言及なくPは正規分布を想定するって言われたらそりゃ文句を言うでしょ 候補は他にもいくらでもあるんだから
「相関を持ち出すなんて平均しか考慮していない!外れ値や分散を考慮していない!」とかご高説を垂れておきながらy=aφ(x)+bでは一般化線形モデル以外の候補は想定しなくてよい、みたいなこと言っちゃうのダブルスタンダードなんじゃないかぁ
一般化線形モデルの非線形部分は決定論的な項の話なので、加法的ガウスノイズを仮定しているならば非線形部分がどんな関数だろうと相関の強さは一意に定まる。
問題点がわかってないな・・・偉そうに上から目線でご高説を垂れてきた割にこのレベル感とか頼むよマジで
この人は専門ではないけど修論で一般化線形モデル周りだけ勉強して統計を使ってましたくらいのレベル感か?多分
リンク関数を一つ定めれば相関が定まるのはあなたがいうところの「当たり前」の話 その程度の話は問題にすらしていないことを文章から読み取れてほしい
読み取れてないならあなたの勉強不足だよもう 単語の使い方も雑だし
ただ一般化線形モデルでリンク関数にどれを使うかで相関が変わるの。線形相関を使う場合ならリンク関数はφ(x)=xで定まっていて特に議論なく終えることができるけど、非線形を許容し始めると「どのリンク関数を使うのか?」で相関が変わってしまうのにいったいどうやってリンク関数を定めて、そのうえで「相関が強い」ということを示すつもりなんだということを聞いている。リンク関数の選び方によっては同じデータでも非線形相関を0にもほぼ1にもできたりするんだけど。
夜遅くまで返信返してくれてありがたいことだけど返信されていない俺のコメントを再度貼っておこう
他の都合悪そうなコメントについても何一つ返信ないですよ? 頼むでホンマ
ごめんfeature learningのことです
正式な訳語を知らない ググってみたけど表現学習と訳すのが一般的なのかな
古のword2vecみたいなものなど一応あれも(議論はあるが)ニューラルネットを使っていることになっていて、入力に相当する部分をパラメータとみなして学習しているとも言える
が電卓の話とinconsistentなのでやはり変ではある 何がおかしいかと言われると個別の話では「そうみなせる」みたいなのはありそうだけど、やっぱり言葉の使い方が一般的ではないよね
「しかいない」ということは無いだろうが、今どき洗練された家系は知能も身長も高い遺伝子持ちだから高身長が多くなるのはあるだろう。低身長でも突然変異的に知能の高い個体が生まれることがあるのでそういうのが東大に集まるだろう。
端的に言うなら、身長は突然変異で高くはなりづらいが、知能は突然変異で高くなりやすいということかなあ(なりやすいと言ってもあくまで相対的にだけど)。知能の方は脳のニューラルネットの微妙な結合バランスとかで大きく揺らいだりするもんなのかもな。カオスの淵みたいな微妙な状態にあるから変動が大きいのではとか思わないでもない。身長はもっと原始的で単純ゆえにロバストな遺伝子型で決まってるのは想像に難くない。
まず、あまり現時点では使い道が少ないニューラルネットの回路が倍になっても、意味がない。
ProRes周りの回路が増えたとしても、誰がそんな何本も流すんだ?という感じになっている。
クラウドで大量に処理したい動画がある場合はいいだろうが・・・。
価格が安ければ、動かないダークシリコンがあったとしても納得するだろうが、価格が高いので納得感はない。
個人的には、GPUコアのみのダイを結合した方が使い勝手はいいように感じる。
(Appleですら先端プロセスの価格に苦労してそうなので、作れるかわからんが)
1つ目のダイはCPUのシングルコア性能アップとキャッシュアップ、GPUは最低限にする
という構成の方がいいのではないだろうか。
楽しいのは描画系とか、操作とか、シューティングだと色んな装備実装したりとか、そういうのは楽しい
敵の行動あたりから雲行きが怪しくなる
要はパックマンとかスーパーマリオの延長線がなんだかんだ多いのではないか
シューティングなんか、同じ動作パターンの繰り返しであり、それが幾重にも積み重なる、
例えば、同じ画面内に様々な敵が登場するが、それぞれの敵の行動パターンは非常に単純であるが、
それがミックスされたり、自機に向かってどんな感じで弾を撃つとか、自機と無関係にレーザーを放つとか、
結局は凝ったイライラ棒みたいなもんで、意外性がないというか面白くない
敵が、生きてるのではないか?と思うぐらいちゃんと考えてるように見せるというのは難しい
例えば監視の兵士がいるとして、兵士は巡回ルートを回りつつ、ときどき他の監視員とだべって、
しかし、プレイヤーが誰かに見つかると半数がプレイヤーの位置に急行する、
みたいなことをいちいち裏で計算してしまうと破綻してしまうし、
といっても、近接戦闘になって、目の前の敵が2Dシューティングのような動作をされても非常に機械的というか、
まあ、それでも初代doomみたいなのでも面白いっちゃあ面白いんだけど、
敵が単純動作するという前提があって、それで敵を利用したり、ロードランナーみたいなところがある
でも、今の時代にちょっとしたニューラルネットとか使わないとつまらん気もするんだよなぁ
その落とし所というか、どうやったら面白くなるのか、が未だに分からない
そう、ゲームみたいなものを作るのは誰でもできるんだけど、どうやったら面白くなるのか、を実現するのは非常に難しい
レトロゲーでも、最初考えたルールを実装したが面白くないのでルールを足した、
ルールを足したが矛盾が生じたので、最初のルールの一部を削った、みたいな試行錯誤が見えることがある
その結果としてできたゲームは面白い、ちゃんと新しいルールが成立している
特にレトロゲーは、ゲーム=新しいルールの発明、みたいなところがあった
最近はそういう感じではなく、FPSならFPSを突き詰めていく方向になっている気がする
面白ければなんでもいいということでもある
ゲームを作るのは楽しいが、完成させるまでは非常に苦痛だ、困難な茨の道だ
一方でプロゲーマーとかゲーム実況というのは、他人の作った手の上で踊るだけではあるが、
昨今の世の中は、そういういかに楽な立場でカネを得るかという方向に向かってるので、
何が言いたいのか分からなくなってきたが、
まあ、プログラムなんて書かない方がいいと思うんだよね
それよりもプロゲーマー教育とかYouTuber教育の方が、特にDQNヤンキー系の親の子供とかは喜ぶと思うし、
タイトルは釣りだが、統計学者たちが科学研究の「正しい」方法論について語りだしたら、即座に信用するのはやめたほうがいい。実際、論者によってその方法論がどうあるべきかについて差がある。統計学者は科学全般に物申すことが多いので、謙虚さのない統計学者はたちが悪い。(論者によって差があってどれが正しいか自明ではない場合があるのに、自分の信じる理論だけが唯一正しいと主張して、ツイッターという道具を用いて影響力を行使するのは相当の傲慢さを感じる)
類推的ではあるが、物理学の分野でも狭いコミュニティの中で集団思考に陥っている。隠れた変数理論というのがあるが、量子の動きを正確に予測するニューラルネットを学習するための実験&データ収集方法を確立すれば隠れた変数が存在していることを示せるかもしれない、ぐらいのことは確か言われているが ( https://arxiv.org/pdf/2010.01324.pdf )、どういうわけか量子スケールにおいて決定論は存在しないという見方が多数派として固定化されてしまっている。
言いたいことは、フォロワー数が多い自称サイエンティストみたいな連中のツイッター上のマウンティングに刺激されたからといって、なんでもかんでも盲信するのはやめたほうがよいという話。盲信する前に、複数の異なる見解を持つまともな専門家の論文を嫁。日本語の情報だけに頼るな (もし科学について何か言いたいなら)。
1950年代に考案された最初のAIであるニューラルネットワークは、1990年代には実用化した。
2000年代に多層ニューラルネットの欠点を補完する深層学習が誕生すると、
やがて民生用の量子コンピュータが普及し始めると、AI の量子演算化研究は当時のホットトピックとなった。
だが、高度に複雑化した量子化AI理論を理解できる学者は世界に数人しかおらず、論文の査読に8年もかかったという。
その実用化にはさらに多くの年月を費やしたが、身の回りのあらゆる電子機器に搭載されるようになった。
量子化AI の導き出す結論は常に最善・最適なもので、人々は機器に言われるままに行動するようになった。
その方がいつも快適だし、無駄な思考コストも要らないので当然のことである。
電子機器の指示に従って暮らす人にとって、 AI は神であり、その言葉はご神託となった。
その昔、SF作家のアーサー・C・クラークは、
と言ったが、
という世界が具現化したのだった。
考えてもみてほしい。
ものごころつく前から、機器の指示に従うことが善とされ、それに逆らった人間には事故や病気という罰が与えられる。
祖父母も両親も私もそうやって暮らしてきたし、将来産まれてくる子や孫もそうするだろう。
今、私に与えられている指示は「ロウドウ」だ。
畑を耕し、野菜を育てる。
私の担当はトマトで、午前の担当区画では種まき、午後は別の区画で収穫をする。
水まきは週に1回なので今日は無い。
住人全員が食べる分のトマトを運ぶのはかなりの 運動 になる。
牧畜担当に憧れが無いわけでもないが、友人曰くミルクの運搬がかなりキツいらしい。
夕方には、その日食べられる食材を持ち寄って集計し、グループ単位で調理して食べる。
食事は1日2回。朝はパンとミルクだけの軽食なので、夕食が一番楽しい時間になる。
友人ともいっぱいおしゃべりできる貴重な時間。
食後の片づけを終えたら、睡眠室に戻り、私は「メイソウ」をする。
正直に言うと、この2時間に具体的に何をすればいいのかよく分からない。
お母さんは、何でもいいから自分一人で考えることが大事というし、
お父さんは、妄想でもしとけばいいという。
昔の人の暮らしを想像するのだと言って、なぜか神話を語ってくれた。
人々は神様のことが良く理解できず、勝手に悪い神様を創り出してしまったこと。
それを見かねた良い神様が「フネ」という新しい世界を創造したこと。
その「フネ」はいくつもあって、この「フネ」に宿る神様の名前は…
なんだっけ。一度はちゃんと聞いたんだけど、今はもう思い出せない。
ピピピピッ。
腕にはめられたリングが光り、「メイソウ 〇」の緑の文字が浮かび上がった。
すぐに「スイミン」の指示を示す青い文字へと変わった。
どうやら、今日の「メイソウ」も無事終えられたようだ。
昼間、体をたっぷり動かしたせいで、今夜もぐっすり眠れるだろう。
私は、どうしても思い出せない神の名を妄想しつつ、静かに眠りについた..。
.
全ての勉強をニューラルネットに絡めてやった人、って感じのする意見なんだよな。最近の若い人はそういう人すごく多いけど。
アテンションがどうとか言ってるけど、そもそもモデルのパラメータを画像座標と図形形状の直積に取れば位置の情報は当然入る。単にそれだけの話なのに、わざわざ「アテンション」とか言ってしまうところが、ニューラルネット、もっと言えば並進対称性をあからさまに入れた畳み込み演算が暗黙の前提になりすぎているといえる。
GANがどうと言ってる人も同一人物だろうなと思うけど、そもそも単なる教師あり学習とhuman in the loopのアクティブラーニングは全然話が違うだろう。
音声全く詳しくないけど、これは間違いなくあるね。音声に限った話じゃない。
GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。
2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。
はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AIの記事を見た人も中にはいるだろう。
人の歌声と区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。
人間のボーカルを録音してピッチ修正をしている人だと、Melodyneでピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、
歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。
実際にソフト開発側もわかっていて、マニュアルで修正する手段を用意しているので、それに引きずられてしまうのだが、
声は複数の周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。
実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。
また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。
機械音声の場合、ゆらぎがなく、〇〇周波数がピタッと出ており±15Hz揺らぐといったことがない。
ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。
見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、
これについて言及した文献を探せていない。
さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。
「あ~」のように伸ばした音の場合、ピッチ調整で波打つようなのを手書きしたことがあるDAW経験者はいるだろうが、
人の声を調べると倍音の数が徐々に変わっていたりする。
現行のソフトでピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、
この辺りが機械学習で解決しているかというと、あまりなっていないように感じている。
思っていたよりクオリティが低いのだ。
なぜか。
一つの仮説だが、RNNやTransformerといった、ニューラルネットの構成ばかりに気にしていて、
何かしらかの演算で前処理を行ってからニューラルネットに入力するわけだが、
前処理段階で捉えられていない特徴量があるのではないだろうか。
また統計処理を行う際に、計算精度によって丸め込まれてしまっているのではないだろうか。
プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフトは自動化が出来ない。
何年経ったとしても、良くならないのだ。
この辺り、修正前と修正後のデータがあるのだから、学習していってより便利になればいいのだが、そうはならない。
スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。
ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。
日をまたぐと体調も変わってくる。
同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。
自分で合成音声をやってみるとわかるが、学習に計算リソースがかなりかかる。