ChatGPTの論文には、強化学習使って人間からのフィードバックで上手くいってる、というのは書いてる。
自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。
OpenAIのgithubにある強化学習用のライブラリgymを動かした人いると思うが、あまり大したこと出来なかった。
https://github.com/openai/gym
gymは今はクローズ、Gymnasiumに移ったけど、そんなブレイクスルーはない。
Permalink | 記事への反応(1) | 09:24
ツイートシェア
ん?AlphaZeroとかがブレークスルーじゃなかったとでも?