「正則化」を含む日記 RSS

はてなキーワード: 正則化とは

2023-04-22

ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習規制必要

 

試行錯誤によって方針学習する深層強化学習アルゴリズムは、環境積極的相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術重要であることを示していますが、データ効率の良いRLにおけるボトルネック一般的理解不明なままでした。その結果、すべての領域でうまく機能する普遍的技術を考案することは困難であった。

論文では、非定常性、過剰な行動分布シフトオーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネック理解することを試みている。

  

効率のいい強化学習って難しいんですね

強化学習ってよく知らない

 

我々は、状態ベースDeepMind control suite(DMCタスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察からディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習正則化技術を利用することで、検証TD誤差をヒルクライムできる。

 

時間差(TD)誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

  

我々は、検証TD誤差をターゲットとするシンプルオンラインモデル選択法が、状態ベースDMCGymタスクにおいて効果であることを示す。

1 はじめに

強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合ロボット操作などのドメインで有望視されている(Andrychowicz et al

2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブオンラインデータ収集単位ごとに費用が発生するため(例.

実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要研究課題となっていますJanner et al

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集ステップごとに多くの勾配ステップポリシーと値関数改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースデータ増強(Jannerら、2019)、アンサンブル使用(Chenら、2021)、ネットワーク正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法挙動理解することはまだ未解決である

 

ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法理解しようとするものである

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすパフォーマンスが低下する理由場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューション悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢原則提供します。データ効率を向上させるために、検証 TD エラー山登りすることによって、特定問題に最も適した正則化選択するだけです。

この原則は、オンラインRLトレーニング過程特定タスクに最適な正則化戦略自動的発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラー使用した自動モデル選択(AVTD)と呼びます

AVTD は、各エージェントが異なる正則化適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります重要なのはパフォーマンスドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちアプローチはすべてのドメイン堅牢動作することに注意してください。

要約すると、私たち最初の貢献は、サンプル効率の高いディープ RL のボトルネック実証分析です。 これらの課題の背後にあるいくつかの潜在的説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラー山登りによって正則化スキーム自動的選択しようとします。 多くの場合私たち方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキーム匹敵するか、それを上回ります

2022-10-03

anond:20221003171727

拡散の逆過程学習してるんやで。

拡散過程情報を失う過程なので逆過程は決定不能なわけだが、決定不能な中でも「拡散する前はこういう状態だったケースが多い」というパターン統計的に獲得(=学習)することで逆過程を決めることはできる。もちろんそれは決定不能問題に無理矢理解を与えているだけ(=正則化)なので唯一絶対の解ではないが、入出力の辻褄は合う可能な解のうちの一つになる。

過程を獲得できれば、それをシミュレートすることで拡散しきった状態(結果)から入力データにありそうな画像(原因)を推定することができるようになる。それが生成プロセス

2022-09-10

anond:20220910151905

それはそうなんだけど、ほとんどの自然科学は「物理的に考えてこうだろう」みたいな正則化がめちゃくちゃ効くのでほとんどの場合逆問題のヤバさが現れないんだよね…。でも本当はその正則化おかしいということは沢山あると思う。ブラックホール画像再構成とか。

神経科学とかは既存の知見の大半が実は統計的誤謬デタラメという可能性もある気はする。

2021-05-30

どちらが本質的かといえば…

あらかじめ日本語理解してる人でないと理解できない日本語文法と、

日本語勉強している外国人に使われている日本語文法なら、

後者の方が本質的構造を捉えてるんだと思う。


理系に実感が湧くように言うと、

回帰母集団分布推定するときに、

回帰関数を2次、3次、4次…と複雑化して《過学習オーバーフィット》したのが前者で


※ あらかじめ理解してる日本語=標本データに n次関数をむりやり当てはめてる状態

※ n次関数西洋で発達した文法解析のメタファーだと思って欲しい


階層ベイジアンモデルパラメータMCMC でシミレーションして推定したのが後者というか…


前者でも、正則化項つけてリッジ回帰的な方向に持ってくことは可能かもしれないけど…


あっ、「あらかじめ日本語理解してる人でないと理解できない日本語文法」っていうのは

日本語義務教育で習う文法のことです。

2016-05-27

自慢気にDeep Learning使ってるやつは大体クソ

色んなライブラリが出てるからDeep Learningを使うこと自体全然難しくない。

おかげで暇人Deep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。

ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。

あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデル簡単過学習を起こすから素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データ必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化パラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。

なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか?あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。

Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界

というわけで、お前らがぽっと出のアイディアDeep Learning使ったところでゴミみたいなアプリが出来るだけだからやめとけ。

そんな時間があったら、ちゃんとした機械学習の本読んどけ。PRMLとか。

数学が難しい?じゃあ、線型代数確率論勉強をやり直せ。そいつらは機械学習が廃れても役に立つからさ。

2015-12-09

グーペおじさん Q&A「ホログラフィック原理

Q.

「我々はホログラムの世界に生きているのではない」ということが明らかに - GIGAZINE

物理研究者はこの世界ホログラムだと考えているってほんとうですか?

シミュレーション仮説」と「ホログラフィック原理」について教えてください。



A.

よしきた、ホログラフィック原理やな!

おっちゃん素人から間違ってたらかんにんな!

GIGAZINEさんの内容はいろいろ間違いや。

シミュレーション仮説ってのは「この世界コンピュータじゃないか」と哲学者さんが勝手に言っている話や。物理関係ない。

一方「ホログラフィック原理」つうのは

『異なる次元の2つの理論が実は同じである

という数学的な予想や。

次元 N=4 超対称性 Yang-Mills 理論 = AdS5 x S5 上の10次元重力理論

みたいな奴やな。

予想と言っても部分的には証明されていて、今でも数々の証拠があがって来とるわけで

多くの人が信じていると思うで。

ブラックホール原子核や物性理論を弦理論ないし超重力理論研究できるようになったんやからこれはすごいこっちゃ。

とにかく、物理屋さんはでまかせ言ってるわけやなくて、いろいろ計算しとるわけやな。角度とか

GIGAZINEで取り上げられていた研究はなんですか?

論文はこれのようやな。ホーガンさんの研究や。



おっちゃん素人から読めんのだけど、重力の量子効果観測しようとした話に見えるよ。

話を進める前に、まず現状の物理理論についておさらいしとこか。

まず、この世界には電磁気力」「弱い力」「強い力」「重力の4つの力がある。

これら4つを統一した究極理論があると物理屋さんたちは考えている訳や。

電磁気力+弱い力」ここまでは出来とる。

数年前にヒッグス粒子発見で大騒ぎになったやろ? あれが電弱統一理論完成の瞬間だったんや。

次は電磁気力+弱い力+強い力やな。候補となる理論はいろいろできてて、LHC超対称性粒子ってやつを探しとる。

ここまではいけそうなんや問題重力や。

ここまで物理屋さんの使ってきた理論を「場の理論(=特殊相対論量子力学)」つうんやけど、

場の理論重力理論を作ってみるとするな。簡単のため世界ドット絵のように細かく区切って理論を作ろ(格子正則化や)。ここまでは簡単なんや

ここで、ドットの1辺をずーっと小さくしていって連続極限をとると理論破綻してしまうんよ。無限大が出て来て取り扱えなくなってしまうのな。

頭のいい人たちがいろいろ考えたんやけどな、ずっと難航しとるんや。

子ループ重力

連続極限で理論つくるからだめなんよループで考えましょってやつな。難しすぎて論文出せない絶滅危惧種

単体分割理論

もう一歩進めてこの世は連続的じゃないんや! 結晶構造みたいに分割されているんや! ってやつやな。

こっちも難しすぎて絶滅危惧種

重力理論

超対称性導入して無限大キャンセルさせるやつや。難しすぎて絶滅危惧種になるかと思いきや、

ログラフィック原理でいろんな理論との対応が見つかって今めっちゃ輝いとるな! すごいこっちゃな

ほんなこんなで超難しいんよ。手を出すと死ぬねんで。

難しい原因のひとつ実験結果がないことやな。重力の量子効果をみるにはプランクスケール (10^19 GeV)程度の実験が出来れば 良いのやけれど、

加速器で作ろうとすると銀河系サイズらしいな。こいつは無理や。

こんなんやで「インターステラー」ではブラックホールまで直接観測に行ったわけやな。

そんで、ホーガンさんの研究はな、主人公ブラックホールまで行かなくてよかったんちゃう?」って内容なんや

地球上で実験できるらしいのな。使うのは加速器じゃなくて重力波検出装置や。最近 KAGRA が話題になっとったな。ああいうやつや。

乱暴に言うとな、ながーーーーーいアレを用意してその長さをはかるんや。時空が歪めば長さがかわるっつうわけや。アレというのはマイケルソンレーザー干渉計な。

でもな、おじさんみたいな素人に言わせればな、さすがにプランク長まで測定できんのとちゃう? 重力の量子効果なんて見えんの?と思うところや。

どうもホーガンさんはある模型でこのへん計算してみたようなんよ。それで意外といけるのとちゃうのと。

そんでGIGAZINEさんによると実験してみた結果それっぽいスペクトラムは出て一度喜んだのやけれども、

きちんと検証実験したらダメだったらしいなあ。残念やな。


おっさん素人ブタから間違っとるかもわからんけどこの辺で堪忍な。

この世界シミュレーションではないのですか?

物理屋さんはその辺に興味ないんや・・・

仮に、仮にな? この世界PCの中でシミュレーションだったとするな。

そうすると、物理屋さんはそのコンピュータ言語を黙々と調べて、本物と同じコードを黙々と書くわけや。

物理屋さんの目的あくまでこの世の全てを記述する理論を作る事なんやな。それを誰が書いたかは興味ないんや。

上のはたとえ話やけれど、コンピュータ言語数学に置き換えるとそれっぽい話になるな。

例えば弦理論によるとこの世界11 次元であるわけやが、

これはゼータ関数(n=-1)

1 + 2 + 3 +・・・ = -1/12

を使って導いた結果や。こんな調子数学要請から理論が決まっているんよ。

この世の全てを決めているのが数学なら、数学を作ったのは誰か?っつう話やな。

おっさん数学者さんだとおもってるけどね。数学者さんが神や。

でも数学者さんは「俺が作ったのではなく自然にあった物を発見したのだ!おお!なぜ数学はこんなにも物理に役たつのか?!」

などと言い始めることがあるからね。わかんないねおっさん興味ないけど。



ブコメ

ustam: ここは匿名ウンコの話をする場所やで。せめて仮想グルウンコの話でもしてたらどうや? ところで重力距離反比例するのに距離が0でも無限大にならんのなんでや? 数学証明できてないんちゃうん?



妙にタイミングのいい質問やな・・・わかって質問してるやろ。

あん素粒子屋だな? おっさん匂いでわかるで。

実はな、重力の至近距離の振る舞いはよくわかっていないんや。

実験ニュートンの逆2乗則が確かめられているのは r = 1[mm] 程度なんやな。

不思議なのは4つの力の中で重力だけ異常に小さいというところや。

これを説明する模型が「この世界は高次元空間にあって、重力けが次元を伝播する」というやつなんや

ここで図入りでわかりやす説明されとるんでもっと知りたい人はそっち読んでな。

で、この模型検証しているのが LHC やな。マイクロブラックホール実験って聞いた事あるやろうか?

シュタゲ元ネタや。オカリンタイムマシン作っとったがこっちは余剰次元(高次元)の確認や。

ところがな、外国マスコミさんが「LHCブラックホール世界滅亡」と騒いだんやな。

そんですんごいデモが発生したもんで加速器の皆さんみんな大変だったんや。

おっさんからみんなにお願いがあるんやけどな。もしマスコミさんが「マイクロブラックホール」の報道をしていたら余剰次元実験成功したんやなと心の中で置き換えて欲しいんや。別に危ない事してへんからね。

まあ、おっさんLHC 程度じゃまだ見つからんとおもっとるけどね。

あとこの手の模型を作った人の1人が美しすぎる物理屋こと リサ・ランドール な。

おっさん好みのべっぴんさんや。知らない人は画像検索してみるとええで。

feita: 違う。ロースおじさんはまず最初全く関係ないネタ脱線するの。でその後何故か急に博識ぶりを披露しだして、で最後にまた脱線するの。はいわかったらこリズムでもう一度(鬼畜

なん・・・やと・・ 「グーペおじさん」じゃなくて「ロースおじさん」やったんか・・おっさん素で間違ってたわ。


kitayama: 小4が出てこないので、やり直し

すまんな・・・おっさんロースおじさんじゃなかったんや。グーペおじさんや。かんにんな・・・

2015-08-24

銀河鉄道の夜

「そうだ。おや、あの河原は月夜だろうか。」

そっちを見ますと、青白く光る銀河の岸に、銀いろのゲージ場が、もうまるでいちめん、局所変換にさらさらさらさら、ゆられてうごいて、波を立てているのでした。

「月夜でないよ。銀河から光るんだよ。」ジョバンニは云いながら、まるではね上りたいくらい愉快になって、足をこつこつ鳴らし、窓から顔を出して、高く高く星めぐりの口笛を吹ふきながら一生けん命延びあがって、その天の川繰り込み群の流れを、見きわめようとしましたが、はじめはどうしてもそれが、はっきりしませんでした。けれどもだんだん気をつけて見ると、そのきれいな水は、ガラスよりもニュートリノよりもすきとおって、ときどき正則化の加減か、ちらちら赤いろのこまかな波をたてたり、紫外発散にぎらっと光ったりしながら、声もなくどんどん流れて行き、野原にはあっちにもこっちにも、燐光の固定点が、うつくしく立っていたのです。遠いものは小さく、近いものは大きく、遠いものは橙や黄いろではっきりし、近いものは青白く少しかすんで、或いは自由場、或いは漸近的自由性、あるいは一次相転移臨界指数の形、さまざまにならんで、野原いっぱい光っているのでした。ジョバンニは、まるでどきどきして、頭をやけに振りました。するとほんとうに、そのきれいな野原中の青や橙や、いろいろかがやく固定点も、てんでに息をつくように、ちらちらゆれたり顫えたりしました。

「ぼくはもう、すっかり天の野原に来た。」ジョバンニは云いました。

 
ログイン ユーザー登録
ようこそ ゲスト さん