2023-03-26

ChatGPTは強化学習で良くなってる、って見かけるけど、強化学習ってそんな上手くいくんか?

ChatGPTの論文には、強化学習使って人間からフィードバックで上手くいってる、というのは書いてる。

自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。


OpenAIのgithubにある強化学習用のライブラリgymを動かした人いると思うが、あまりしたこと出来なかった。

https://github.com/openai/gym

gymは今はクローズGymnasiumに移ったけど、そんなブレイクスルーはない。



記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん