ChatGPTは強化学習で良くなってる、って見かけるけど、強化学習ってそんな上手くいくんか？

はてな匿名ダイアリー

2023-03-26

■ChatGPTは強化学習で良くなってる、って見かけるけど、強化学習ってそんな上手くいくんか？

ChatGPTの論文には、強化学習使って人間からのフィードバックで上手くいってる、というのは書いてる。

自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。

OpenAIのgithubにある強化学習用のライブラリ gymを動かした人いると思うが、あまり大したこと出来なかった。

https://github.com/openai/gym

gymは今はクローズ、Gymnasiumに移ったけど、そんなブレイクスルーはない。

Permalink | 記事への反応(1) | 09:24

記事への反応 -

anond:20230326092434
ん？AlphaZeroとかがブレークスルーじゃなかったとでも？

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん