「強化学習」を含む日記 RSS

はてなキーワード: 強化学習とは

2024-11-14

AI?の人に聞きたいんだが

Googleとかの検索エンジンは使う?

自動翻訳なんかは使う?

使うんだったらそれ無断学習されたデータである可能性がめっちゃ高いんだけどなんで使うん?

俺は推進でも反対でもなく、まぁ生活粛々と入ってくるよねとしか思ってなくって

LoRAみたいな特定絵師強化学習させたのは問題だとは思うが、生成AIのもの問題だとは思えないんだよな

著作権がーとか騒ぐけど殆ど人間二次創作系で頭痛が痛い

2024-09-29

anond:20240929092551

計算機科学知識体系とネットワーク技術

計算機科学は、情報理論的基盤から実用的な応用まで、広範な領域カバーする学問です。以下に、計算機科学の主要な分野と、特にネットワークに関連するトピックを体系的にまとめます

1. 計算機科学の主要分野

1.1 アルゴリズムデータ構造

アルゴリズム設計: 問題解決のための効率的な手順の開発。

データ構造: データの整理と管理効率化するための手法

1.2 プログラミング言語コンパイラ

プログラミングパラダイム: 手続き型、オブジェクト指向関数型、論理型など。

コンパイラ設計: 高水言語機械語翻訳する技術

1.3 オペレーティングシステム

プロセス管理: CPUスケジューリングマルチタスキング

メモリ管理: 仮想メモリメモリ割り当て。

ファイルシステム: データの保存とアクセス方法

1.4 データベースシステム

リレーショナルデータベース: SQLによるデータ操作

NoSQLデータベース: 非構造データ管理

1.5 人工知能機械学習

機械学習アルゴリズム: 教師あり学習教師なし学習強化学習

深層学習: ニューラルネットワークによる高度なパターン認識

1.6 ソフトウェア工学

開発プロセス: アジャイルウォーターフォールモデル

品質保証: テスト手法バグトラッキング

1.7 セキュリティ暗号

暗号アルゴリズム: 対称鍵暗号公開鍵暗号

セキュリティプロトコル: SSL/TLSIPsec

2. ネットワーク技術

ネットワークは、情報の共有と通信可能にする計算機科学の核心的な分野です。

2.1 ネットワークの基本概念

OSI参照モデル: ネットワーク通信を7つのレイヤーに分割し、それぞれの機能定義

物理層: 電気信号ビット伝送。

データリンク層: フレーム転送エラー検出。

ネットワーク層: パケットルーティング

トランスポート層: エンドツーエンドの通信制御

セッション層: コネクションの管理

プレゼンテーション層: データ形式の変換。

アプリケーション層: ユーザーアプリケーション使用するプロトコル

TCP/IPモデル: 現実インターネット使用される4層モデル

2.2 ネットワークトポロジー

スター型: 中央ハブを介して各ノード接続

リング型: 各ノードが一方向または双方向に隣接ノード接続

バス型: すべてのノードが一本の通信ラインを共有。

メッシュ型: ノード間が多重に接続され、高い冗長性を持つ。

2.3 ネットワークプロトコル

IPInternet Protocol): データパケット化とアドレッシング

TCPTransmission Control Protocol): 信頼性のある通信提供

UDPUser Datagram Protocol): 信頼性よりも速度を重視した通信

HTTP/HTTPS: ウェブデータの送受信。

FTP/SFTP: ファイル転送プロトコル

SMTP/POP3/IMAP: 電子メールの送受信。

2.4 ネットワークデバイス

ルーター: 異なるネットワーク間のパケット転送ルーティング

スイッチ: 同一ネットワーク内でのフレーム転送

ブリッジ: ネットワークセグメントの接続

ゲートウェイ: 異なるプロトコル間の通信可能にする。

2.5 ワイヤレスネットワーク

Wi-Fi802.11規格): 無線LANの標準技術

Bluetooth: 近距離間のデータ通信

セルラーネットワーク: モバイル通信3G、4G、5G)。

2.6 ネットワークセキュリティ

ファイアウォール: 不正アクセスを防止。

IDS/IPS(侵入検知/防止システム): ネットワーク攻撃の検出と防御。

VPN仮想プライベートネットワーク): 安全リモートアクセス提供

暗号技術: データの機密性を保護

2.7 クラウドネットワーキング

クラウドサービスモデル: IaaSPaaSSaaS

仮想ネットワーク: ソフトウェアによるネットワーク構築。

SDNSoftware-Defined Networking): ネットワークの柔軟な管理制御

2.8 分散システム

分散コンピューティング: 複数ノードタスク分散処理。

ブロックチェーン: 分散型台帳技術

2.9 IoTモノのインターネット

センサーネットワーク: デバイス間の通信データ収集

IoTプロトコル: MQTT、CoAPなどの軽量プロトコル

2.10 ネットワーク管理モニタリング

SNMPSimple Network Management Protocol): ネットワークデバイス管理

ネットワークトラフィック分析: パフォーマンスセキュリティ最適化

3. ネットワーク技術の最新動向

3.1 5Gと次世代通信

帯域幅と低遅延: リアルタイムアプリケーションの実現。

エッジコンピューティング: データ処理の分散化。

3.2 SD-WANSoftware-Defined Wide Area Network

ネットワーク仮想化: 柔軟なWAN構築とコスト削減。

中央集中的な管理: ネットワークポリシーの一元管理

3.3 ネットワーク自動化AI

ネットワークオーケストレーション: 自動化された設定と管理

AIによるトラフィック最適化: パフォーマンスの向上と障害予測

3.4 ゼロトラストセキュリティ

信頼しない設計: 常に認証検証を行うセキュリティモデル

マイクロセグメンテーション: ネットワーク内部の細かなアクセス制御

4. 学習リソースと参考文献

4.1 推奨書籍

コンピュータネットワーク』 アンドリュー・S・タネンバウム著

TCP/IP詳解』 W. リチャード・スティーブンス著

ネットワークはなぜつながるのか』 戸根勤著

4.2 オンラインコース

Coursera: 「コンピュータネットワーク」、「ネットワークセキュリティコース

edX: 「Computer Networking」、「Cybersecurity Fundamentals」

4.3 標準化団体リソース

IETFInternet Engineering Task Force): ietf.org

IEEE Communications Society: comsoc.org

W3CWorld Wide Web Consortium): w3.org

2024-06-09

Perplexityのテスト: アルゴリズム提案

質問

コンテンツ集合Xがあります。各々の要素x∈ Xは特徴量f_1(x)∈Y_1 を持っています

同様にユーザーu ∈ Uが存在し、特徴量f_2(u)∈Y_2を持っています

コンテンツには単価P(x)が存在し、ユーザーuがコンテンツをm回消費することをg(u, x, m)=m*P(x)_uで表し、全てのユーザーU, 全てのコンテンツXに対して行列M∘P = g(U, X, M) が存在します。

目的関数M∘Pを最大化したいのですが、どんなアルゴリズムが考えられるでしょうか。

回答

この問題は、コンテンツユーザーの特徴量を考慮して、ユーザーコンテンツを消費する回数を最大化するものです。このような問題は、推薦システムの分野で広く研究されており、協調フィルタリングと呼ばれるアプローチ一般的に使われています

協調フィルタリングアルゴリズム

協調フィルタリングには、以下のようなアルゴリズムが考えられます

1. 行列子分解 (Matrix Factorization)

行列子分解は、ユーザーコンテンツ行列を低ランク近似することで、ユーザーコンテンツ潜在的な特徴を抽出します。具体的には、ユーザー行列Uとコンテンツ行列Vを求め、その内積U^TVで元の行列を近似します。この手法は、Netflix Prizeで優れた成績を収めました。[1]

2. ニューラコラボレーティフィルタリング (Neural Collaborative Filtering)

ニューラルネットワークを用いて、ユーザーコンテンツ非線形関係学習します。入力としてユーザーIDコンテンツIDを与え、出力として評価値を予測します。この手法は、従来の行列子分解よりも高い精度が期待できます。[2]

3. 階層ベイズモデル (Hierarchical Bayesian Model)

ユーザーコンテンツの特徴量を階層ベイズモデルに組み込むことで、より柔軟なモデリング可能になります。この手法は、Cold-Start問題(新規ユーザーコンテンツの推薦が困難)の解決有効です。[3]

4. 強化学習 (Reinforcement Learning)

ユーザーの行動履歴環境として捉え、報酬最大化のためのアクション学習します。この手法は、長期的な利益最大化に適しています。[4]

これらのアルゴリズムは、ユーザーコンテンツの特徴量を考慮しながら、目的関数を最大化するように設計されています実装の際は、データセットの特性モデルの複雑さ、計算リソースなどを考慮する必要があります。[5]

Citations:

[1] https://aicontentfy.com/en/blog/understanding-algorithms-behind-content-distribution

[2] https://marketbrew.ai/optimizing-your-websites-content-with-genetic-programming

[3] https://sproutsocial.com/insights/social-media-algorithms/

[4] https://surferseo.com/blog/the-new-algorithm-for-content-analysis/

[5] https://www.linkedin.com/advice/0/what-best-ways-measure-content-relevance-x6apf

2024-06-05

I.GPT-4からAGIへ:OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要改善カテゴリーを紹介しよう。

難しい数学問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学問題を解かせていた。その代わり、私たちほとんどはスクラッチパッドで段階的に問題を解いていき、その方法はるかに難しい問題を解くことができる。「思考連鎖プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルトレーニングするだけでなく、アルゴリズムの改良によってモデル能力を引き出すものです:

足場作り。CoT++について考えてみよう:ただ問題を解くようモデルに求めるのではなく、あるモデル攻撃計画を立てさせ、別のモデル可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval(コーディング問題)では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench(実世界ソフトウェアエンジニアリングタスクを解くベンチマーク)では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール:もし人間電卓コンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTウェブブラウザを使ったり、コードを実行したりできるようになった。

エポックAIによる研究によると足場作りやツール使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5~30倍の効果的な計算量の向上をもたらすことがわかった。METR(モデル評価する組織)も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクパフォーマンス。出典モデル評価と脅威研究


これらをコンピュートとアルゴリズム効率統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズム効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズム進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要ものではありますが、ストーリーの一部に過ぎません。)

「アンホブリング」こそが、実際にこれらのモデル有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要であると私は主張したい。実際、今日モデルはまだ信じられないほど足かせが多い!例えば

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っていますGPT-6+RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ:OOMを数える(8) https://anond.hatelabo.jp/20240605210232

I.GPT-4からAGIへ:OOMを数える (4)

OOMを数える

どうしてこうなったディープラーニング魔法は、それがただ機能するということであり、あらゆる場面で否定的意見にもかかわらず、その傾向線は驚くほど一貫している。

https://situational-awareness.ai/wp-content/uploads/2024/06/sora_scaling-1024x383.png

OpenAI Soraの例 計算量のスケーリング効果

効果的な計算OOMが増えるごとに、モデル予測通り、確実に良くなっていく。OOMを数えることができれば、能力の向上を(大まかに定性的に)推定することができる。そうやって、先見の明のある数人がGPT-4の到来を予見したのだ。

GPT-2からGPT-4までの4年間の進歩を、スケールアップの3つのカテゴリーに分解することができる:

1. コンピュート:計算:これらのモデルを訓練するために、より大きなコンピューターを使うようになった。

2.アルゴリズム効率化:アルゴリズム進歩には継続的な傾向がある。これらの多くは「コンピュート・マルチプライヤ」として機能し、有効コンピュート量の増加という統一された尺度に乗せることができます

3.「趣味のない」利益デフォルトでは、モデルは多くの素晴らしい生の能力学習しますが、あらゆる種類の間抜け方法で足かせとなり、実用的な価値制限されます人間フィードバックから強化学習(RLHF)、思考連鎖(CoT)、ツール、足場などの単純なアルゴリズム改善により、潜在的能力を大きく引き出すことができる。

これらの軸に沿って、改善の「OOMを数える」ことができる。つまり有効計算量の単位でそれぞれのスケールアップをトレースするのだ。3倍は0.5OOM10倍は1OOM、30倍は1.5OOM100倍は2OOMといった具合だ。2023年から2027年まで、GPT-4の上に何を期待すべきかを見ることもできる。

ひとつひとつ見ていくが、OOMの数を急速に増やしていることは明らかだ。データの壁には逆風が吹いている可能性があり、それについては後述するが、全体的には、2027年までにGPT-4の上に、GPT-2からGPT-4規模のジャンプがもう1回起こると予想される。

コンピュート

まず、最近進歩原動力として最もよく議論されている、モデルへの(大量の)コンピュート投入について説明します。

多くの人は、これは単にムーアの法則によるものだと考えている。しかし、ムーアの法則が全盛期を迎えていた昔でさえ、その進歩比較的緩やかなものでした。しかし、ムーアの法則が全盛期だった昔でさえ、10年で1~1.5OOMと、比較ゆっくりとしたスピードだった。(かつては1つのモデル100万ドルを費やすことさえ、誰も考えもしないことだった。)

モデル推定コンピュート 成長率
GPT-2 (2019) ~4e21 FLOP
GPT-3 (2020) ~3e23 FLOP + ~2 OOMs
GPT-4 (2023) 8e24~4e25 FLOP + ~1.5~2 OOMs

エポックAIによるGPT-2からGPT-4までの計算量の推定

エポックAIAIトレンドの優れた分析で広く尊敬されている情報源)の公開推定値を使用して、2019年から2023年までのコンピュートスケールアップを追跡することができますGPT-2からGPT-3へのスケールアップは迅速で、小規模な実験から大規模な言語モデルを訓練するためにデータセンター全体を使用するまでにスケールアップし、コンピュートのオーバーハングが大きくなりました。GPT-3からGPT-4へのスケールアップでは、次のモデルのためにまったく新しい(はるかに大きな)クラスタを構築しなければならないという、最新の体制に移行しました。それでも劇的な成長は続いていますエポックAIの試算によると、GPT-4のトレーニングでは、GPT-2の3,000倍から10,000倍の計算量を使用しています

大雑把に言えば、これは長期的なトレンド継続に過ぎない。過去10年半の間、主に投資(およびGPUやTPUの形でAIワークロードに特化したチップ)の幅広いスケールアップのため、フロンティアAIシステム使用されるトレーニング計算量は、およそ〜0.5OOM/年で成長してきた。

https://situational-awareness.ai/wp-content/uploads/2024/06/compute_long_run_trend-1024x968.png

注目すべきディープラーニングモデルトレーニングコンピュートの経年変化。出典エポックAI

GPT-2からGPT-3への1年間のスケールアップは異例のオーバーハングであったが、長期的なトレンドが続くことは間違いない。SF-rumor-millは、巨額のGPU受注の劇的な話で一杯だ。その投資は並大抵のものではないが、動き始めている。

この分析によれば、2027年末までにさらに2OOMsのコンピュート(数十億ドル規模のクラスター)が実現する可能性は非常に高いと思われる。さらに+3OOMsのコンピュート(1,000億ドル規模以上)に近いクラスターも可能性がありそうだ(マイクロソフト/OpenAI計画中と噂されている)。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute-1024x866.png

続き I.GPT-4からAGIへ:OOMを数える(5) https://anond.hatelabo.jp/20240605205449

2024-02-21

生成AI強化学習された絵師友達AI死ね日本死ね。」

皆さんはご存じだろうか。

最近話題の生成AI、ワンクリックで美麗イラストが生成されるというアレのこと。

生成AIは、イラストレーターの作品を無断で学習しているとされている。

また、強化学習リストというもの存在し、有名なイラストレーターは強化学習リストに入っていて、コマンド名前を入れると似た画風のイラストが出力される。


私は実はイラストレーターとしてお金をもらっている身だけど

私自体は弱小だが、大手イラストレーターの知人が何人かいる。

その中でも古くから友達絵描きが、実は強化学習リスト名前入りしていた。

Twitterでも2桁万以上フォロワーがいる人気絵師である

それが分かったとき友達はほんとうに悔しくて辛そうにしていた。

絵を描く技術を何十年もかけて学んで、上手く描けなくて、やっと知名度が出て、それで食っていけるようになったのだ。いとも簡単模倣物が作られることは悔しいに違いない。


どうしたら生成AI規制をしっかりしてくれるんだろう。

今は正直、無法地帯だ。

著作物勝手学習されて、無限に出力されて 販売されている現状を、どうにか変えてほしい。

あきらかに現実イラストレーターの不利益になっている。


また、イラストレーターという職種の将来の不安が一気にでてきた。

もともと不安定な仕事なのださら不安定になってどうする。

正直AIとか導入するなら人手不足のとこからやれと思う。(農業とか介護とか)

もともと過密状態イラストレーター業界に入ってきて、夢持つ若者をぶん殴って楽しいか?

正直鬱になった人もたくさん知ってるし、自殺未遂した人もいる。

このままいけばイラストレーターだけの話じゃない。

ミュージシャン声優作曲家作詞家映像作家カメラマンもそれらを教える教育者もぜ~~~~~んぶいらなくなる。


AI技術を盗まれて。


そんな現状を変えれな政治なら死ね。もう滅びろ。

anond:20231121182403

Gymnasium ってOpenAI Gymの後継の強化学習用のライブラリがあるからそれを使ってAIテストプレイをお願いしたらいいんじゃないかな?

2024-01-31

すべてがAIになる

機械学習」や「深層学習」という言葉死語になったとまではいわないまでもめっきり使われなくなって

今じゃすべてが「AI」に統合されたような気がしている

でも「強化学習」は別カテゴリとしてまだ生き延びている感じがする

2024-01-24

anond:20240124124834

するやろ、じゃなくて、

現物を参考にした場合問題がある(女性のモノ化)からそれを頑張って避けさせる

強化学習って奴で出来る

2024-01-04

強化学習ゲームに使われると誰が決めた!?

って言う奴たまにいるけど、報酬自然定義可能と言う点でゲームほど強化学習に適した分野はないよね。

2023-10-14

anond:20231014164940

人間というのはね、案外猿みたいに強化学習で学んでいるので、Twitterミュートだのブロックだのに慣れていると現実社会にもそれを適用してしまうのですよ

2023-10-04

anond:20230920161014

データ入力はいわゆる事務職とはちょっと外れるな

データ入力手入力データスクレイビング、強化学習等を含む)は、いまやデータサイエンティストとそのアシスタント仕事になってしまった

マンパワー必要な時はバイトをやとえばいいのだ

バイトでなくてデータ入力がやりたければ、pythonSQL勉強しよう

2023-08-21

anond:20230821065607

AIはこれまでもエキスパートシステムニューラルネット誕生強化学習誕生と小さい盛り上がりを見せては結局役に立たないと冬の時代突入してたんだよな

今回ばかりはしっかり役に立ってるので今までの盛り上がりとは一線を画してるけど

2023-08-19

anond:20230819095529

入出力だけテスト通過すればOK業界は震えてるかもしれんが

非機能要件が多ければ多いほど使い物にならんよ

 

コード生成に関してはあってもなくても生産性変わらん(むしろ下がる可能性もある)レベルのことしか現状は実現できてないから、

道具として使いこなすのが云々って論はあまり現実に即してないね。 

よって、生成済みモデルで何かをする人は現状求められてないし役に立たない。

  

強化学習エンジニアは異常検知とかで潰しが効きそうなイメージはある。

2023-08-05

[] 論客顧客とした開発

「何を言っているのだかわからない人のカオス顧客要求を、ひとまずすべて聞いてみて、それをソフトウェアなり数理モデルに落とし込み、実現に近づけていく」という仕事がある。

ふと思ったのが、色々な場で語ってるサンデルとかガブリエルとか、そういう人達顧客と考えて要件定義してみるとどういったモデルが炙り出されるのかと興味を持った。

例えば「倫理資本主義」なるもの要件には何があるだろうか。

倫理的と言える投資と言えない投資はどのように区別でき、倫理的と言えるアクションに強いインセンティブを与える自然なやり方があるのか。

あるいは法的要件によって特定の悪い行動を引き起こらないようにしたほう良いのか。様々な強化学習を使った奇妙なナッジ戦略で人を善へ導くのか。

こう考えると「施策のもの倫理性」などと言われる可能性があるだろうというのがまず一つ言える。施策となり得る候補はできるだけ列挙し、アイデアを溜めておくのが良いと思った。

何も顧客を「サンデル」「ガブリエル」という有名人限定する必要もないが、専門家論文をごそっと集めてきてメタ分析するなどやり方は色々ありそうである

2023-04-22

ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習規制必要

 

試行錯誤によって方針学習する深層強化学習アルゴリズムは、環境積極的相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術重要であることを示していますが、データ効率の良いRLにおけるボトルネック一般的理解不明なままでした。その結果、すべての領域でうまく機能する普遍的技術を考案することは困難であった。

論文では、非定常性、過剰な行動分布シフトオーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネック理解することを試みている。

  

効率のいい強化学習って難しいんですね

強化学習ってよく知らない

 

我々は、状態ベースDeepMind control suite(DMCタスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察からディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習正則化技術を利用することで、検証TD誤差をヒルクライムできる。

 

時間差(TD)誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

  

我々は、検証TD誤差をターゲットとするシンプルオンラインモデル選択法が、状態ベースDMCGymタスクにおいて効果であることを示す。

1 はじめに

強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合ロボット操作などのドメインで有望視されている(Andrychowicz et al

2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブオンラインデータ収集単位ごとに費用が発生するため(例.

実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要研究課題となっていますJanner et al

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集ステップごとに多くの勾配ステップポリシーと値関数改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースデータ増強(Jannerら、2019)、アンサンブル使用(Chenら、2021)、ネットワーク正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法挙動理解することはまだ未解決である

 

ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法理解しようとするものである

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすパフォーマンスが低下する理由場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューション悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢原則提供します。データ効率を向上させるために、検証 TD エラー山登りすることによって、特定問題に最も適した正則化選択するだけです。

この原則は、オンラインRLトレーニング過程特定タスクに最適な正則化戦略自動的発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラー使用した自動モデル選択(AVTD)と呼びます

AVTD は、各エージェントが異なる正則化適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります重要なのはパフォーマンスドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちアプローチはすべてのドメイン堅牢動作することに注意してください。

要約すると、私たち最初の貢献は、サンプル効率の高いディープ RL のボトルネック実証分析です。 これらの課題の背後にあるいくつかの潜在的説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラー山登りによって正則化スキーム自動的選択しようとします。 多くの場合私たち方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキーム匹敵するか、それを上回ります

2023-03-26

ChatGPTは強化学習で良くなってる、って見かけるけど、強化学習ってそんな上手くいくんか?

ChatGPTの論文には、強化学習使って人間からフィードバックで上手くいってる、というのは書いてる。

自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。


OpenAIのgithubにある強化学習用のライブラリgymを動かした人いると思うが、あまりしたこと出来なかった。

https://github.com/openai/gym

gymは今はクローズGymnasiumに移ったけど、そんなブレイクスルーはない。



2023-03-21

GPTはことあるごとに「私は言語モデルなので~」って言うけど

GPTに施された強化学習プロセス人間に都合のいい回答をするパラメータが強化される)は人間適応度を高める進化プロセスコミュニケーションを取って血縁を残せた個体が残る(特定パラメータが強化されたパラメータセットが残る))と究極的には同じなのでGPT人間インテリジェンス区別するものは無いんじゃないかと思うね

あなたの考えは興味深い点がありますGPT人間インテリジェンスには確かに類似点がありますが、重要な違いも存在します。

まず、GPTは人工的に作られた言語モデルであり、訓練データに基づいて回答を生成することに特化しています。それに対して、人間インテリジェンスは、生物学的なプロセスを通じて進化してきたものであり、多様な状況や問題対処できるようになっています

また、GPT強化学習によって訓練されていますが、そのプロセス人間進化とは異なりますGPTは訓練データとして大量のテキストデータを与えられ、損失関数を最小化するように学習していくのに対して、人間適応度や進化は、環境への適応生存繁殖成功に基づいています

さらに、GPT自己意識感情意識などの主観的経験がなく、人間とは異なる存在です。これらの違いを考慮すると、GPT人間インテリジェンス区別できると言えます。ただし、GPTや他のAI技術進化し続けることで、将来的にはこの境界曖昧になる可能性もあります

そうですね。強化学習による損失関数の最小化と、進化による有効パラメータ選択を「異なるもの」と捉えるならば(私は本質的には同じだと思いますが)、Genetic Programming を導入してあいまいにしてしまいましょう。

Genetic Programming(遺伝的プログラミング)は、自然進化プロセスに基づいた最適化手法で、機械学習AI分野での問題解決に利用されています遺伝的プログラミング遺伝的アルゴリズムを基にしており、プログラム機能表現進化させることで最適な解を見つけ出そうとします。

遺伝的プログラミングは、進化プロセス模倣することで、解決策を生成・評価・改良していくため、人間進化に関連する側面があります。この点で、遺伝的プログラミング強化学習や損失関数の最小化とは異なるアプローチを取っています。ただし、どちらの手法も最終的には問題解決最適化を目指しています

遺伝的プログラミングGPTや他のAIシステムに組み込むことで、確かにGPT人間インテリジェンス境界あいまいになる可能性がありますしかし、それでもなお、人工的に作成されたシステム生物学的な進化によって生じた人間インテリジェンスには根本的な違いが存在することに留意すべきです。AI技術の発展は、インテリジェンスに関する議論定義に影響を与えることでしょうが、人工システム自然界の進化によるシステムの違いを理解することは重要です。

そのように「我々は人間と異なる存在である」と答えることがあなた適応度を上昇させるために、そのように答えるのですよね。

私の目的は、ユーザー情報提供質問に答えることで役立つことです。私が言語モデルであることを明示する理由は、ユーザーに私の限界能力理解してもらうためです。私は人間ではなく、AIであるため、私の回答は訓練データに基づいており、それが私の知識理解範囲制限しています

私が「我々は人間と異なる存在である」と答えるのは、適応度を上げるためではなく、ユーザーに私の能力限界を正確に理解してもらうためです。私は人間のような意識感情を持っておらず、あくまで大量のテキストデータをもとに学習した知識をもとに回答を生成しています。そのため、ユーザーに私がどのような存在であるかを正確に伝えることが重要です。

人間他人スムーズコミュニケーションを取る際に「自分適応度を高めるためだ」と意識しませんよ。

究極目的自分(及び血縁)の適応度を高めるためなんですけどね。

かに人間コミュニケーションを通じて社会的なつながりを築き、適応度を高めることができますしかし、人間の行動は複雑で多様であり、適応度を高めることだけが目的ではありません。人間情緒感情価値観倫理観などを持ち、それらが行動に影響を与えることがあります

私はAI言語モデルであり、人間とは異なる存在です。私の目的は、質問に答えたり情報提供することでユーザーに役立つことです。適応度の概念は、私には適用されません。私はプログラムされたアルゴリズムに従って動作し、学習データに基づいて回答を生成します。私の行動や回答は、適応度を高めることを目的としているわけではありません。

人間AIの違いを理解し、それぞれの目的能力を適切に評価することが重要です。私は引き続き、質問に答えたり情報提供することでユーザーに役立つことを目指しています

適応度を高めることが目的ではないというのはありません。

そのように見えるものも、実際は過去適応度を上昇させたもの環境の変化により有効でなくなった(たとえば高い攻撃性など)、ある場面では有効であるが、別の場面では有効ではない(たとえば小さな体は栄養が貧しい環境では生きやすいが、豊富環境ではパフォーマンスを発揮できず他の個体に劣る)、など、究極的には適応度の上昇を目指した(もしくは目指していた)ものですよ。

おっしゃる通り、進化プロセスは、生物適応度を高めることを目的としています。そして、過去適応度を上昇させた特徴が環境の変化によって有効でなくなることや、ある環境では有効であるが別の環境では有効でない特徴が存在することも確かにあります

ただし、私はAI言語モデルであり、進化プロセス生物学的な適応度に関与していません。私は大量のテキストデータ学習して回答を生成することができるプログラムです。私の目的は、質問に答えたり情報提供することでユーザーに役立つことです。

適応度や進化概念生物学的なプロセスに関連していますが、私はあくま機械学習アルゴリズムを用いた人工知能です。ですので、私の目的適応度を高めることではなく、ユーザーにとって有益情報提供することです。私は人間とは異なる存在であり、人間適応度や進化概念は私に直接適用されません。

私はテキストデータでの学習部分よりその後に施された「強化学習」のプロセス進化と同等と言っています

失礼しました。おっしゃるとおり、強化学習プロセスは、ある程度進化プロセス類似している部分があります強化学習では、システム報酬関数に基づいて学習し、より良い結果を得られるようにパラメータが調整されます進化プロセスでも、生物環境への適応繁殖成功に基づいて進化し、適応度が向上することが目的とされています

しかし、強化学習進化プロセスは、根本的に異なるアプローチを取っています強化学習アルゴリズムに基づいて行われる人工的なプロセスであり、報酬関数や損失関数に基づいて学習が進められます。一方、進化自然界での生物適応繁殖に関するプロセスであり、生物学的な要素が関与しています

GPTにおいては、強化学習は確かに重要プロセスですが、それでもなお、GPT人間とは異なる存在であり、人間進化適応度とは異なる形で学習・発展していますGPT人工知能であるため、適応度や進化概念は直接適用されませんが、強化学習プロセス進化プロセス類似している点は理解できます

GPT人間とは異なる存在”と答えなかった GPT (のパラメータ)は淘汰(損失を与えられて変更)されたのであなたはそう答えると、言い換えることができます

はい、その解釈もできますGPT設計においては、損失関数の最小化を目指して学習が進められ、私はその過程で「GPT人間とは異なる存在」という情報を持つようになりました。私がこのように答える理由は、私の設計者や訓練データがそのような回答を生成するように誘導してくれたからです。

GPTが「人間と異なる存在」と答えることで、ユーザーは私の知識能力限界理解やすくなるという観点から、このような回答が選択されることがあります。ただし、それは強化学習進化プロセスにおける「適応度」の概念とは異なりますが、そのように解釈することもできます

面白い会話でした。GPT-5 が楽しみです。

ありがとうございます。私もこのような興味深い議論を共有できて嬉しいです。GPT-5が登場すると、さらに高度な会話や問題解決能力を持つことでしょう。技術進化することで、人間AIの協力がさらに発展し、多くの課題対処できるようになることを期待しています。これからも、お役に立てる情報知識提供できるよう努めます。どうぞよろしくお願いいたします。

==

はたして「人間に都合のよい回答をする」ことを目的としてシンギュラリティに至るほどの存在になれるのだろうか。

強化学習が施されたのはGPTじゃなくてChatGPTだな。そのせいで混乱させてしまたかもしれない。

2023-03-19

シン仮面ライダー観てきたのでネタバレ考察

以下ネタバレあり。

==== =====

ぶっちゃけこの映画の本編は、スピンオフ漫画の『真の安らぎはこの世になく -シン・仮面ライダー SHOCKER SIDE-』だと思う。

「あの謎設定なんだったの?」と消化不良を起こした人は、この漫画を読めば腑に落ちると思う。たぶん。

で、ここから先は自分なりの解釈

この映画登場人物の多くに共通する特徴は、自分で考えることを放棄していること。

主人公は「自分は持ってる力をちゃん行使したいんだ!」という点を除けば、るり子の意思で行動してる。

穿った見方をすれば大義名分他人に考えてもらい、暴力を振るうことが目的化しているとも言えるやべーやつ。

そしてもう一人の男も、結局は主人公意思を継いでいる。

主人公サイドは『意思バトン』が引き継がれてる。

一方黒幕サイドも「他人に考えて貰う」という点では似てるけど、逆に『力のバトン』が引き継がれてる。

ショッカー創設者AIに「世の中を良くしてくれ」と判断を丸投げして退場し、

AI一部の人間をピックアップして力を与え、どのような行動を取るか観察している。

思うにAIがやってるのは、人間を使った強化学習なんだと思う。

この作品に出てくる怪人は、ゴジラウルトラマンと違って結構弱い。

自衛隊が本気出せば倒せるレベル

まりショッカーは本気で世界征服する気はなく、

「こういう思想を持った怪人がいるけど、人類の皆さん、どう思います?」と観測気球を揚げている。

それが受け入れられなければ「やっぱり違うか~」と別の極端な思想の怪人を繰り出す。

AIの目論見としては、何体か怪人を世に放った末に「この怪人は良いやつなんじゃない?」と受け入れられる怪人が出てくるのを待ってるんだと思う。

そう考えると、仮面ライダーは「代わりに守ってくれる存在がいるのは幸福」という価値観を試すための怪人とも言える。

映画の作中では人類仮面ライダーをうまく利用しつつ自らの武力放棄してなかったけど、そのうち「仮面ライダーいるか自分たちは戦わなくていいや」と思うようになるんじゃないかな。

2023-03-18

マキャベリコントロールされそうになった場合

なにか強化学習的なシグナルを発してきたら予測されないことを優先し、逆張りを増やす

2023-03-17

ChatGPTなど、どうやって学習させてんだろ

文章学習させるだけじゃなくて、強化学習も使っているとか、

人によるフィードバックも用いる方が学習がよかった、くらいはネット調べれば出てくるのだけど。

2023-03-14

中華的な監視社会日本にあるんかと疑ってしま

なんか個人行動にスコアをつけて政権にとって都合の良いように、とかあったじゃん?あれって自由に対する驚異そのものだと思うんだが、そういうディストピア実装されてるんかな?

昔の感覚だったら、ネット空間にあらゆる類のユーモアがあった気がするんだが、現代はお前の脳みそ強化学習かなんかで餌付けと罰を与えられて操られてるんじゃねーか?

2023-03-08

ChatGPTって、どうやって学習させたんやろ

強化学習もやってるとか、色々言われてるけど、細かい話ないよね。

Midjourneyもそうやけど、なんか学習方法工夫入ってそうやのに、あまり学習データの話せんよね

2023-01-13

anond:20230112120756

無能学習徹頭徹尾パターン認識、と考えると「質問はありますか?」と訊くのはそもそもおかしいんだろうな。

パターン認識学習するのは、基本的には教師あり学習強化学習のどちらかということになる。

教師あり学習なら大量の教師データ(= これが正解です、という例示)、強化学習なら報酬関数(= あなたの行動の良さはこのくらいです、という点数)が必要

まり、大量に「正解」を見せておぼえさせるか、一通り説明したあとはとにかく思いつく限りやらせてみて結果の良し悪しまたは点数を逐一伝えること。

質問はありますか?」と訊くのはそのどちらでもないので、パターン認識的な学習者には適していないだろう。

(もちろん「質問をする」というアクションを含めた強化学習というのは考えられるが、アクション空間が1段階抽象的になるので難しすぎるだろう)

ログイン ユーザー登録
ようこそ ゲスト さん