はてなキーワード: ニューラルネットとは
人型ロボット開発が今、中国で凄い熱いんだけど、日本の企業とか凄い冷ややかだよね
どうせペッパー君になるんだろとか、所詮先行者だろとか思ってるんだろうけど、ドローンも3Dプリンタも日本企業は冷ややかだったよね
でも、それなりの市場を形成できてるし、ドローン、マルチコプターに関しては、戦争で実戦投入までされてる
DJIは実質的に国策企業でもあるだろうけど、なんだかんだ、日本の公的機関では中国製のドローンを使うなとか言われても使われてるよね、DJI製品
まあ、日本の企業は人型、二足歩行なんて何の役に立つの?という点で冷ややかなんだろうけど、
個人的には二足歩行人型ロボットのアクチュエータ、モーターとギアとかの機構と電子回路基板がセットになったようなモジュール、これが凄いと思うんだよね
中国でロボットのデモをやると、意外と垂直統合型の開発がなされていて、最終成果物であるロボットを山の頂点とすると、
そのロボットを構成するモジュールが山の裾野から一気に上にドワーッと駆け上がって組まれていくような、そんな印象があるんだよね
これは凄いことで、人型ロボットのために開発したアクチュエータを別の製品に転用したりとかもしてるんだよね
例えば、フィットネスの機械の機構をロボットのアクチュエータで実現する試みをしたりしている
これはもしかすると、天馬飛雄がいなくてもアトムが一家に一台購入できる社会が来るのではないか
人工知能もネットとかデータだけじゃなくて、家庭で子供として育てることで学習するようなことも可能になるのではないか
子供がいなくても、ロボットを育てて、そのロボットがいつか独り立ちして、別のロボットと結婚する
結婚して、遺伝子はなくとも、ニューラルネット同士をなんかよくわからんけど融合させて、新しい知能のロボットを生産する
果てしなく遠い宇宙の彼方まで、巨大な宇宙船の中には人は乗っておらず、ロボットのみが搭乗しており、
ロボットはロボットを修理し、再生産することで、場合によっては永遠に宇宙を旅することができるかもしれない
少なくとも、衛星軌道上に太陽光発電のユニットを浮かべて、地上にレーザー照射で電力を送る(ガンダムSEEDとかにもあるよね
あのユニットでの作業だって、人間がやったら大変だけど、大量のロボットがメンテナンス作業をすればいいし、
現代のAIはモデルって呼ばれてる奴は重みが調整された巨大なデータ構造です。
データ構造は多分ニューラルネット的なやつが一般的なのでは。知らんけど。あ、私素人ですので、あまり真面目に聞かないでください。
そんでこのモデルは入力に応じて出力が変わります。LLMなら猫っていれたら、猫について語りだして猫この特徴や可愛らしさや、猫にまつわる人間の感情についての文章が出力されるだろうし、画像生成なら猫の画像が出てきます。
モデルは多くの場合関数として振る舞うので、出力方向からこの出力結果を入力すると(お尻にバイブを刺すのと一緒です。)元の入力データが復元できます。猫にまつわる説明文を後ろから入力したら「猫」って言葉が出るし、猫の画像を後ろから入力したら「猫」って言葉が取り出せます。
画像認識AIがやっていたことが全く同じことで、画像認識AIと画像生成AIは裏表の関係になっています。
ところで人間の場合は多くの人が、猫を識別できるにも関わらず、猫の絵を描くことが出来ません。
人間の脳は、これらAIが獲得している何かの機能を削ぎ落としているようです。
なんかそのへんが一方向性ハッシュっぽさあるよなーって思った。この辺のアイディアを組み合わせたらなにか、劇的にAIの計算コストを下げれそうよね。
あとは発話とかの人類共通の計算をハードウェアにしてしまうとか、世界モデルのベースをハードウェアに落とし込むとか色々計算効率化はありそうな気がしている。
人力イラストは、目から入ってハッシュ化され脳に記録されたデータ、もしくは頑張ってハッシュを行わずに保存されてるデータからの手を使った画像復元処理って感じだろうか。
アニメとか漫画のイラストとか絵を見るとき脳の効率を使わずに気分良く見れるのは、脳内の削ぎ落とされたデータに近い形での表現だからだろうなって思いました。
こうなってくるとハッシュはいいすぎててたんに情報量を落としたデータだな。
そっすね
動作として"入ってるデータのみ"を使った出力ならば、盛り込んだデータ数に関わらず「引用部分が従である」が成立しないので引用が成り立たないという話。
「学習モデル」って書き方は混乱するか。ここでは生成過程に注目していたので「モデルデータ」とかにしたほうが分かりやすいか。後で書くけど「すり替えて」はおらず「学習する段階の話」ではない
AIは新たに自分の頭で考えた要素を付け足さず、モデルデータから選んで切り貼りする以上の動作を行っていないので「著作物を引用した新たな著作物」とは言えず「転載物の集合体」として扱える(と考える)。モデルデータの中身が全部無断で使われた著作物なら、モデルデータの中身が6組なら無断転載6件、100億組なら無断転載100億件ってこと
なんで引用かそうでないかを考えたのかは「引用が成立するなら権利侵害ではない」は無断転載か検証するにあたりだいたい確認するから
多分「学習と引用をすり替えてる」前提に立ってこれを書いてて、かつ「AIの学習は人間の学習と同じ」にこちらが乗っかったからめちゃくちゃ面倒くさいことになってると思うので、もう「AIの指す"学習"と人間のやる勉強とかの学習は全く別」って観点で話進めるね
「著作物だけでイラストの描き方を学んだ」場合というかだいたいがそうだと思うが、絵の描き方を勉強する過程でサルまねやトレースを行う行為自体は著作権法では制限してない。トレパクとか模写自作発言とか無断転載(+自作発言)くらいの事態が起きたら著作者の権利を侵害した行為として評価がくだる
"画風パクり"が著作権含めどの権利を侵害してるのか?みたいな話は生成AI以前もたまにやってたが、だいたい特定の絵についてトレースや模写をしてなくて"参考にした画風の持ち主の名を騙っていない"ならとくに問題なしという結論が出たはず
じゃあ「生成AIは画風パクりだからセーフやろ」という話が上がってくると思うが、これは先に上げた「転載物の集合体」であることを考えれば"画風パクり"とは全く違うものであるので、画風という観点で判断してはいけない
AIに便宜上"学習"(Training)って言葉を使っているのでややこしいのであって、いわゆる学習モデルも実態は「入力パラメータ用ファイル集」なので"学習の成果"とは意味合いが違う
かなり前の方の増田でやった「学習モデルの再頒布禁止」という話については「生成AIを動かすために学習モデルを作る」ことは権利侵害にあたらないが「無断転載素材入り学習モデルの頒布」はガッツリ権利侵害だぞって話(これに"学習"って言葉つけないといけないからややこしい)
ただ生成AIのシステムもコンピュータープログラムである以上「プログラム動作時のデータ処理の流れを追うログ出力コードを盛り込むことは不可能」なんてことはない
だからそんなことできないの
まさかそちらから具体的なアルゴリズムの名前を出してくるとは思わなかった
ニューラルネットワーク(以下NN)の内部動作は、人間が指示を出してNNから返された出力を見て「どんな考え方したらこんなアイデア出てくるんだよ思考回路マジわからん」というのがだいたいなので、これも便宜上「ブラックボックスだね~」と言っているにすぎない
NNがたとえば古代アステカ文明の遺跡から発掘された謎の箱をパソコンに繋いだらAIになったとかいう代物なら間違いなくブラックボックスと呼んで差支えない
だが実態は"アルゴリズム"なので、NNはなんでも作れる不思議な箱ではなく、入力層・多層の中間層・出力層を設けた計算手順にすぎない。NNの参考書読んで人力で計算しても(時間かかるし高難易度関数のオンパレードだが)再現可能ではある
参考にしているStableDiffusionも動作原理もアーキテクチャも明らかなので、人間に再現不可能なブラックボックスではない。プログラムを実装してるのがエリートのプログラマであるってだけの人間だし
エリートって正面突破で物事をやろうとするよな。自作ニューラルネットライブラリを作ったりとか、GPUを自作したりとか。
俺は以前「ソフトウェアとレバレッジ」という記事を書いて馬鹿にされた者だが、正面突破系の連中はマジでリスク概念を持っておいたほうが良いぞ。
アンチパターンと一見見えるかもしれないが、モバゲーやGREEが一斉を風靡した時代、投資コストが非常に低いのに莫大な利益をもたらすことが業界でわかっていたはずだ。
正面突破も確かに魅力はあるかもしれない。つまり技術優位性を確保できるということだ。そのような技術に投資する他国がいないので有利になる可能性があるということだ。
しかし、ソフトウェアというのは効率の産物だ。一度作ったらそれを様々なところへ配布できることに魅力がある。
システムを開発して、一回きりで終わりというのではレバレッジは効かない。特定の汎用システムを作り、世界中へ配布してこそレバレッジが効くのである。
しかも作ったソフトウェアは無制限にコピーできるので、物理製造よりも圧倒的にレバレッジが効く。
そもそも、金融においてレバレッジとは、他人から借りた資産と自分の資産の比率のことである。
ソフトウェアにおける一つのレバレッジの形態は、フリー・オープンソース・ソフトウェア(FOSS)ライブラリを使用することで、開発者は他人のコードを活用し、より少ないコードベースで提供される機能を倍増させることができる。
あるいはブログプラットフォームのレバレッジはわかりやすいかもしれない。コンテンツをユーザーに作らせ、そこに検索エンジンからのアクセスを獲得する。そしてプラットフォームシステムの提供者は、広告を載せることで利益を獲得する。
これは「コンテンツの作成をユーザーに肩代わりする」という形態のレバレッジである。一度プラットフォームが有名になり、誰もが使うようになれば、非常に低い労働コストで高い利益を獲得することができる。
なにより、広告産業のレバレッジは最も魅力的な形態だろう。インターネットを通じて広告の効果は極大化される。
手の込んだFF14のようなオンラインゲームというのはGREEなどと比較すると正面突破的であり、レバレッジの世界ではないかもしれない。
AIはこれまでもエキスパートシステム、ニューラルネット誕生、強化学習誕生と小さい盛り上がりを見せては結局役に立たないと冬の時代に突入してたんだよな
今回ばかりはしっかり役に立ってるので今までの盛り上がりとは一線を画してるけど
https://arxiv.org/pdf/2304.10466.pdf
試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。
本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。
強化学習ってよく知らない
我々は、状態ベースのDeepMind control suite(DMC)タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証TD誤差をヒルクライムできる。
誤差を減らすのがDeepLearningだけど、それが時間差なのか。
我々は、検証TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGymタスクにおいて効果的であることを示す。
1 はじめに
強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている(Andrychowicz et al、
2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブなオンラインデータ収集の単位ごとに費用が発生するため(例.
実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています(Janner et al、
2019; Chen et al., 2021; Hiraoka et al., 2021)。
原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。
これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強(Jannerら、2019)、アンサンブルの使用(Chenら、2021)、ネットワークの正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。
ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。
最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。
このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。
(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。
この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。
この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラーを使用した自動モデル選択(AVTD)と呼びます。
AVTD は、各エージェントが異なる正則化を適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。
この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。 重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。
要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。 これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。 多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。
AppleのM2のCPUチップの隣にAI向けアクセラレータを付けて、チップ-チップで接続、AIアクセラレータの周囲にVRAM配置
という構成がいいのだろうか?
ニューラルネットのデータの流れに沿ったハードが良いんだろうが、いまいちよく分からん。
Bは、まったくあてにしない。
そんな問題をとかせる。そういうのってなんだろ?適当なのナイか?ないのか?EFに角はやす問題。これはうまくいくかどうかわからない。自明ではない。いかなかったときのcontingencyまでかんがえてやらなきゃなんない
よくよく見たらそう(ルドベリ)ではなく、イージーだった。_| ̄|○。たしかあの曲線は数値計算でもとめるもの。いろいろな人がいろいろな方法でもとめている。どれか気に入ったやつ一つひっぱってくる。適当な関数もしくはNNで回帰できないのか。
いろいろなケースにたいしてゼロ極限でのエネルギーをもとめる (BSE)→数値計算→曲線をえがかせる
うえで描いたやつを適当な関数ないしニューラルネットであてはめ。おそらくビッグデータにする必要あるよな。○○構造の予測問題の文献にのっているデータ数をかぞえてみよう。
Bはあてにしないって書いた。しかしデータ生成はリスキーなので活用できる人材いたら活用したい。あの辺の帯にある物件を金出して入手できればいいんだけどなぁ。正攻法だと入手困難だから、ちょっとトリッキーな方法を考える必要。アソコに頼むと・・生成に失敗したときに責任問題が発生するからなぁ。うまくいかない可能性あるけどって但書してから頼めばOK?うぅんむずかしいところやな
最近コンピューターサイエンスがプログラマーに必要か否かみたいな話が上がっているが、そもそもコンピューターサイエンスって何だよ。どこまでの範囲をさしてんの?
ググって出てきた情報を整理しただけなので詳しい人、補足・訂正よろしく!
https://www.acm.org/binaries/content/assets/education/cs2013_web_final.pdf
CS2013はACM/IEEE-CSによるカリキュラム標準。
ACM(計算機協会)はコンピュータ分野全般の国際学会、IEEE-CSはIEEE(米国電気電子学会)の中にあるテクニカルソサエティ。
https://www.ipsj.or.jp/12kyoiku/J07/20090407/J07_Report-200902/4/J07-CS_report-20090120.pdf
J07-CSは一般社団法人情報処理学会がCC2001CSをベースにアレンジを加えたカリキュラム標準。今はCS2013を反映したJ17-CSがあるらしいけどその辺は良く分からん。
https://www.ipa.go.jp/files/000024060.pdf
J07ーCSから抜粋。CS2013と比較するとナレッジエリアがあったり無かったり。