ん?AlphaZeroとかがブレークスルーじゃなかったとでも?
Permalink | 記事への反応(0) | 09:35
ツイートシェア
ChatGPTの論文には、強化学習使って人間からのフィードバックで上手くいってる、というのは書いてる。 自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、...