はてなキーワード: 正則化とは
https://arxiv.org/pdf/2304.10466.pdf
試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。
本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。
強化学習ってよく知らない
我々は、状態ベースのDeepMind control suite(DMC)タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証TD誤差をヒルクライムできる。
誤差を減らすのがDeepLearningだけど、それが時間差なのか。
我々は、検証TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGymタスクにおいて効果的であることを示す。
1 はじめに
強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている(Andrychowicz et al、
2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブなオンラインデータ収集の単位ごとに費用が発生するため(例.
実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています(Janner et al、
2019; Chen et al., 2021; Hiraoka et al., 2021)。
原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。
これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強(Jannerら、2019)、アンサンブルの使用(Chenら、2021)、ネットワークの正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。
ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。
最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。
このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。
(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。
この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。
この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラーを使用した自動モデル選択(AVTD)と呼びます。
AVTD は、各エージェントが異なる正則化を適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。
この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。 重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。
要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。 これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。 多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。
あらかじめ日本語を理解してる人でないと理解できない日本語文法と、
理系に実感が湧くように言うと、
回帰関数を2次、3次、4次…と複雑化して《過学習=オーバーフィット》したのが前者で
※ あらかじめ理解してる日本語=標本データに n次関数をむりやり当てはめてる状態
※ n次関数は西洋で発達した文法解析のメタファーだと思って欲しい
階層ベイジアンモデルのパラメータを MCMC でシミレーションして推定したのが後者というか…
前者でも、正則化項つけてリッジ回帰的な方向に持ってくことは可能かもしれないけど…
色んなライブラリが出てるから、Deep Learningを使うこと自体は全然難しくない。
おかげで暇人がDeep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。
ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止。ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。
あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデルは簡単に過学習を起こすから、素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データが必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化のパラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。
なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか?あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。
Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説が簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界。
というわけで、お前らがぽっと出のアイディアでDeep Learning使ったところでゴミみたいなアプリが出来るだけだからやめとけ。
「我々はホログラムの世界に生きているのではない」ということが明らかに - GIGAZINE
シミュレーション仮説ってのは「この世界はコンピュータじゃないか」と哲学者さんが勝手に言っている話や。物理は関係ない。
という数学的な予想や。
みたいな奴やな。
予想と言っても部分的には証明されていて、今でも数々の証拠があがって来とるわけで
多くの人が信じていると思うで。
ブラックホールや原子核や物性理論を弦理論ないし超重力理論で研究できるようになったんやからこれはすごいこっちゃ。
とにかく、物理屋さんはでまかせ言ってるわけやなくて、いろいろ計算しとるわけやな。角度とか。
おっちゃん素人だから読めんのだけど、重力の量子効果を観測しようとした話に見えるよ。
話を進める前に、まず現状の物理理論についておさらいしとこか。
まず、この世界には「電磁気力」「弱い力」「強い力」「重力」の4つの力がある。
これら4つを統一した究極理論があると物理屋さんたちは考えている訳や。
「電磁気力+弱い力」ここまでは出来とる。
数年前にヒッグス粒子発見で大騒ぎになったやろ? あれが「電弱統一理論」完成の瞬間だったんや。
次は「電磁気力+弱い力+強い力」やな。候補となる理論はいろいろできてて、LHCで超対称性粒子ってやつを探しとる。
ここまで物理屋さんの使ってきた理論を「場の理論(=特殊相対論+量子力学)」つうんやけど、
場の理論で重力理論を作ってみるとするな。簡単のため世界をドット絵のように細かく区切って理論を作ろ(格子正則化や)。ここまでは簡単なんや。
ここで、ドットの1辺をずーっと小さくしていって連続極限をとると理論が破綻してしまうんよ。無限大が出て来て取り扱えなくなってしまうのな。
頭のいい人たちがいろいろ考えたんやけどな、ずっと難航しとるんや。
連続極限で理論つくるからだめなんよループで考えましょってやつな。難しすぎて論文出せない絶滅危惧種や
もう一歩進めてこの世は連続的じゃないんや! 結晶構造みたいに分割されているんや! ってやつやな。
こっちも難しすぎて絶滅危惧種や
超対称性導入して無限大キャンセルさせるやつや。難しすぎて絶滅危惧種になるかと思いきや、
ホログラフィック原理でいろんな理論との対応が見つかって今めっちゃ輝いとるな! すごいこっちゃな
ほんなこんなで超難しいんよ。手を出すと死ぬねんで。
難しい原因のひとつは実験結果がないことやな。重力の量子効果をみるにはプランクスケール (10^19 GeV)程度の実験が出来れば 良いのやけれど、
加速器で作ろうとすると銀河系サイズらしいな。こいつは無理や。
こんなんやで「インターステラー」ではブラックホールまで直接観測に行ったわけやな。
そんで、ホーガンさんの研究はな、「主人公、ブラックホールまで行かなくてよかったんちゃう?」って内容なんや。
地球上で実験できるらしいのな。使うのは加速器じゃなくて重力波検出装置や。最近 KAGRA が話題になっとったな。ああいうやつや。
乱暴に言うとな、ながーーーーーいアレを用意してその長さをはかるんや。時空が歪めば長さがかわるっつうわけや。アレというのはマイケルソンレーザー干渉計な。
でもな、おじさんみたいな素人に言わせればな、さすがにプランク長まで測定できんのとちゃう? 重力の量子効果なんて見えんの?と思うところや。
どうもホーガンさんはある模型でこのへん計算してみたようなんよ。それで意外といけるのとちゃうのと。
そんでGIGAZINEさんによると実験してみた結果それっぽいスペクトラムは出て一度喜んだのやけれども、
おっさん、素人のブタやから間違っとるかもわからんけどこの辺で堪忍な。
仮に、仮にな? この世界がPCの中でシミュレーションだったとするな。
そうすると、物理屋さんはそのコンピュータ言語を黙々と調べて、本物と同じコードを黙々と書くわけや。
物理屋さんの目的はあくまでこの世の全てを記述する理論を作る事なんやな。それを誰が書いたかは興味ないんや。
上のはたとえ話やけれど、コンピュータ言語を数学に置き換えるとそれっぽい話になるな。
これはゼータ関数(n=-1)
を使って導いた結果や。こんな調子で数学的要請から理論が決まっているんよ。
この世の全てを決めているのが数学なら、数学を作ったのは誰か?っつう話やな。
おっさんは数学者さんだとおもってるけどね。数学者さんが神や。
でも数学者さんは「俺が作ったのではなく自然にあった物を発見したのだ!おお!なぜ数学はこんなにも物理に役たつのか?!」
などと言い始めることがあるからね。わかんないね。おっさん興味ないけど。
ustam: ここは匿名でウンコの話をする場所やで。せめて仮想グルーウンコの話でもしてたらどうや? ところで重力は距離に反比例するのに距離が0でも無限大にならんのなんでや? 数学で証明できてないんちゃうん?
実験でニュートンの逆2乗則が確かめられているのは r = 1[mm] 程度なんやな。
不思議なのは4つの力の中で重力だけ異常に小さいというところや。
これを説明する模型が「この世界は高次元空間にあって、重力だけが高次元を伝播する」というやつなんや。
ここで図入りでわかりやすく説明されとるんでもっと知りたい人はそっち読んでな。
で、この模型を検証しているのが LHC やな。マイクロブラックホールの実験って聞いた事あるやろうか?
シュタゲの元ネタや。オカリンはタイムマシン作っとったがこっちは余剰次元(高次元)の確認や。
ところがな、外国のマスコミさんが「LHCのブラックホールで世界滅亡」と騒いだんやな。
そんですんごいデモが発生したもんで加速器の皆さんみんな大変だったんや。
おっさんからみんなにお願いがあるんやけどな。もしマスコミさんが「マイクロブラックホール」の報道をしていたら余剰次元の実験が成功したんやなと心の中で置き換えて欲しいんや。別に危ない事してへんからね。
まあ、おっさんはLHC 程度じゃまだ見つからんとおもっとるけどね。
あとこの手の模型を作った人の1人が美しすぎる物理屋こと リサ・ランドール な。
おっさん好みのべっぴんさんや。知らない人は画像検索してみるとええで。
feita: 違う。ロースおじさんはまず最初全く関係ないネタで脱線するの。でその後何故か急に博識ぶりを披露しだして、で最後にまた脱線するの。はいわかったらこのリズムでもう一度(鬼畜)
なん・・・やと・・ 「グーペおじさん」じゃなくて「ロースおじさん」やったんか・・おっさん素で間違ってたわ。
kitayama: 小4が出てこないので、やり直し
「そうだ。おや、あの河原は月夜だろうか。」
そっちを見ますと、青白く光る銀河の岸に、銀いろのゲージ場が、もうまるでいちめん、局所変換にさらさらさらさら、ゆられてうごいて、波を立てているのでした。
「月夜でないよ。銀河だから光るんだよ。」ジョバンニは云いながら、まるではね上りたいくらい愉快になって、足をこつこつ鳴らし、窓から顔を出して、高く高く星めぐりの口笛を吹ふきながら一生けん命延びあがって、その天の川の繰り込み群の流れを、見きわめようとしましたが、はじめはどうしてもそれが、はっきりしませんでした。けれどもだんだん気をつけて見ると、そのきれいな水は、ガラスよりもニュートリノよりもすきとおって、ときどき正則化の加減か、ちらちら赤いろのこまかな波をたてたり、紫外発散にぎらっと光ったりしながら、声もなくどんどん流れて行き、野原にはあっちにもこっちにも、燐光の固定点が、うつくしく立っていたのです。遠いものは小さく、近いものは大きく、遠いものは橙や黄いろではっきりし、近いものは青白く少しかすんで、或いは自由場、或いは漸近的自由性、あるいは一次相転移や臨界指数の形、さまざまにならんで、野原いっぱい光っているのでした。ジョバンニは、まるでどきどきして、頭をやけに振りました。するとほんとうに、そのきれいな野原中の青や橙や、いろいろかがやく固定点も、てんでに息をつくように、ちらちらゆれたり顫えたりしました。
「ぼくはもう、すっかり天の野原に来た。」ジョバンニは云いました。