「正則化」を含む日記

はてなキーワード: 正則化とは

2024-01-14

■anond:20240114142129

L1正則化がなんで機能するのか全く理解してなそう

Permalink | 記事への反応(0) | 14:30

2023-04-22

■ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習の規制が必要

試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。

本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。

＞効率のいい強化学習って難しいんですね

強化学習ってよく知らない

我々は、状態ベースのDeepMind control suite（DMC）タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差（TD）誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証 TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証 TD誤差をヒルクライムできる。

＞時間差（TD）誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

我々は、検証 TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGym タスクにおいて効果的であることを示す。

1 はじめに

強化学習（RL）法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている（Andrychowicz et al、

2020）、チップ配置（Mirhoseini et al.、2020）、ゲーム（Silver et al.、2016）、データセンターの冷却（Lazic et al.、2018）。アクティブなオンラインデータ収集の単位ごとに費用が発生するため（例．

実際のロボットを動かす、シミュレーションによるチップ評価など）、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています（Janner et al、

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法（例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018)）は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価（Thrun & Schwartz, 1993; Fujimoto et al., 2018）といったいくつかの仮説、非定常性（Lyle ら、2022）、またはオーバーフィッティング（Nikishinら、2022）が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強（Jannerら、2019）、アンサンブルの使用（Chenら、2021）、ネットワークの正則化（Hiraokaら、2021）、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット（Nikishinら、2022）などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は（これから示すように）タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。

ICLR 2023で会議論文として発表本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD 学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイトペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。

この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証 TD エラーを使用した自動モデル選択(AVTD)と呼びます。

AVTD は、各エージェントが異なる正則化を適用する共有リプレイバッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロールスイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。

要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。私たちの 2 番目の貢献は、単純なアクティブモデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。

Permalink | 記事への反応(0) | 12:15

2022-10-03

■anond:20221003171727

拡散の逆過程を学習してるんやで。

拡散過程は情報を失う過程なので逆過程は決定不能なわけだが、決定不能な中でも「拡散する前はこういう状態だったケースが多い」というパターンを統計的に獲得（=学習）することで逆過程を決めることはできる。もちろんそれは決定不能問題に無理矢理解を与えているだけ（=正則化）なので唯一絶対の解ではないが、入出力の辻褄は合う可能な解のうちの一つになる。

逆過程を獲得できれば、それをシミュレートすることで拡散しきった状態（結果）から入力データにありそうな画像（原因）を推定することができるようになる。それが生成プロセス。

Permalink | 記事への反応(2) | 17:30

2022-09-10

■anond:20220910151905

それはそうなんだけど、ほとんどの自然科学は「物理的に考えてこうだろう」みたいな正則化がめちゃくちゃ効くのでほとんどの場合は逆問題のヤバさが現れないんだよね…。でも本当はその正則化がおかしいということは沢山あると思う。ブラックホールの画像再構成とか。

神経科学とかは既存の知見の大半が実は統計的誤謬でデタラメという可能性もある気はする。

Permalink | 記事への反応(0) | 15:21

2021-05-30

■どちらが本質的かといえば…

あらかじめ日本語を理解してる人でないと理解できない日本語文法と、

日本語を勉強している外国人に使われている日本語文法なら、

後者の方が本質的な構造を捉えてるんだと思う。

理系に実感が湧くように言うと、

回帰で母集団の分布を推定するときに、

回帰関数を2次、3次、4次…と複雑化して《過学習＝オーバーフィット》したのが前者で

※ あらかじめ理解してる日本語＝標本データに n次関数をむりやり当てはめてる状態

※ ｎ次関数は西洋で発達した文法解析のメタファーだと思って欲しい

階層ベイジアンモデルのパラメータを MCMC でシミレーションして推定したのが後者というか…

前者でも、正則化項つけてリッジ回帰的な方向に持ってくことは可能かもしれないけど…

あっ、「あらかじめ日本語を理解してる人でないと理解できない日本語文法」っていうのは

日本語の義務教育で習う文法のことです。

Permalink | 記事への反応(0) | 11:21

2016-05-27

■自慢気にDeep Learning使ってるやつは大体クソ

色んなライブラリが出てるから、Deep Learningを使うこと自体は全然難しくない。

おかげで暇人がDeep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。

ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止。ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。

あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデルは簡単に過学習を起こすから、素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データが必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化のパラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。

なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか？あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。

Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説が簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界。

というわけで、お前らがぽっと出のアイディアでDeep Learning使ったところでゴミみたいなアプリが出来るだけだからやめとけ。

そんな時間があったら、ちゃんとした機械学習の本読んどけ。PRMLとか。

数学が難しい？じゃあ、線型代数と確率論の勉強をやり直せ。そいつらは機械学習が廃れても役に立つからさ。

Permalink | 記事への反応(0) | 22:23

2015-12-09

■グーペおじさん Q&A「ホログ ラフィック原理」

Q.

「我々はホログラムの世界に生きているのではない」ということが明らかに - GIGAZINE

物理の研究者はこの世界はホログラムだと考えているってほんとうですか？
「シミュレーション仮説」と「ホログラフィック原理」について教えてください。

A.

よしきた、ホログラフィック原理やな！

おっちゃん素人だから間違ってたらかんにんな！

GIGAZINEさんの内容はいろいろ間違いや。

シミュレーション仮説ってのは「この世界はコンピュータじゃないか」と哲学者さんが勝手に言っている話や。物理は関係ない。

一方「ホログラフィック原理」つうのは

『異なる次元の２つの理論が実は同じである』

という数学的な予想や。

４次元 N=4 超対称性 Yang-Mills 理論 = AdS5 x S5 上の10 次元超重力理論

みたいな奴やな。

予想と言っても部分的には証明されていて、今でも数々の証拠があがって来とるわけで

多くの人が信じていると思うで。

ブラックホールや原子核や物性理論を弦理論ないし超重力理論で研究できるようになったんやからこれはすごいこっちゃ。

とにかく、物理屋さんはでまかせ言ってるわけやなくて、いろいろ計算しとるわけやな。角度とか。

GIGAZINEで取り上げられていた研究はなんですか？

論文はこれのようやな。ホーガンさんの研究や。

http://arxiv.org/pdf/0712.3419v5.pdf

おっちゃん素人だから読めんのだけど、重力の量子効果を観測しようとした話に見えるよ。

話を進める前に、まず現状の物理理論についておさらいしとこか。

まず、この世界には「電磁気力」「弱い力」「強い力」「重力」の４つの力がある。

これら４つを統一した究極理論があると物理屋さんたちは考えている訳や。

「電磁気力＋弱い力」ここまでは出来とる。

数年前にヒッグス粒子発見で大騒ぎになったやろ？　あれが「電弱統一理論」完成の瞬間だったんや。

次は「電磁気力＋弱い力＋強い力」やな。候補となる理論はいろいろできてて、LHCで超対称性粒子ってやつを探しとる。

ここまではいけそうなんや。問題は重力や。

ここまで物理屋さんの使ってきた理論を「場の理論（＝特殊相対論＋量子力学）」つうんやけど、

場の理論で重力理論を作ってみるとするな。簡単のため世界をドット絵のように細かく区切って理論を作ろ（格子正則化や）。ここまでは簡単なんや。

ここで、ドットの１辺をずーっと小さくしていって連続極限をとると理論が破綻してしまうんよ。無限大が出て来て取り扱えなくなってしまうのな。

頭のいい人たちがいろいろ考えたんやけどな、ずっと難航しとるんや。

量子ループ 重力

連続極限で理論つくるからだめなんよループで考えましょってやつな。難しすぎて論文出せない絶滅危惧種や

単体分割理論

もう一歩進めてこの世は連続的じゃないんや！　結晶構造みたいに分割されているんや！　ってやつやな。

こっちも難しすぎて絶滅危惧種や

超重力 理論

超対称性導入して無限大キャンセルさせるやつや。難しすぎて絶滅危惧種になるかと思いきや、

ホログラフィック原理でいろんな理論との対応が見つかって今めっちゃ輝いとるな！　すごいこっちゃな

ほんなこんなで超難しいんよ。手を出すと死ぬねんで。

難しい原因のひとつは実験結果がないことやな。重力の量子効果をみるにはプランクスケール (10^19 GeV）程度の実験が出来れば良いのやけれど、

加速器で作ろうとすると銀河系サイズらしいな。こいつは無理や。

こんなんやで「インターステラー」ではブラックホールまで直接観測に行ったわけやな。

そんで、ホーガンさんの研究はな、「主人公、ブラックホールまで行かなくてよかったんちゃう？」って内容なんや。

地球上で実験できるらしいのな。使うのは加速器じゃなくて重力波検出装置や。最近 KAGRA が話題になっとったな。ああいうやつや。

乱暴に言うとな、ながーーーーーいアレを用意してその長さをはかるんや。時空が歪めば長さがかわるっつうわけや。アレというのはマイケルソンレーザー干渉計な。

でもな、おじさんみたいな素人に言わせればな、さすがにプランク長まで測定できんのとちゃう？　重力の量子効果なんて見えんの？と思うところや。

どうもホーガンさんはある模型でこのへん計算してみたようなんよ。それで意外といけるのとちゃうのと。

そんでGIGAZINEさんによると実験してみた結果それっぽいスペクトラムは出て一度喜んだのやけれども、

きちんと検証実験したらダメだったらしいなあ。残念やな。

おっさん、素人のブタやから間違っとるかもわからんけどこの辺で堪忍な。

この世界はシミュレーションではないのですか？

物理屋さんはその辺に興味ないんや・・・。

仮に、仮にな？　この世界がPCの中でシミュレーションだったとするな。

そうすると、物理屋さんはそのコンピュータ言語を黙々と調べて、本物と同じコードを黙々と書くわけや。

物理屋さんの目的はあくまでこの世の全てを記述する理論を作る事なんやな。それを誰が書いたかは興味ないんや。

上のはたとえ話やけれど、コンピュータ言語を数学に置き換えるとそれっぽい話になるな。

例えば弦理論によるとこの世界は 11 次元であるわけやが、

これはゼータ関数(n=-1)

1 + 2 + 3 +・・・ = -1/12

を使って導いた結果や。こんな調子で数学的要請から理論が決まっているんよ。

この世の全てを決めているのが数学なら、数学を作ったのは誰か？っつう話やな。

おっさんは数学者さんだとおもってるけどね。数学者さんが神や。

でも数学者さんは「俺が作ったのではなく自然にあった物を発見したのだ！おお！なぜ数学はこんなにも物理に役たつのか？！」

などと言い始めることがあるからね。わかんないね。おっさん興味ないけど。

ブコメ

ustam: ここは匿名でウンコの話をする場所やで。せめて仮想グルーウンコの話でもしてたらどうや？　ところで重力は距離に反比例するのに距離が0でも無限大にならんのなんでや？　数学で証明できてないんちゃうん？

妙にタイミングのいい質問やな・・・わかって質問してるやろ。

あんた素粒子屋だな？　おっさん匂いでわかるで。

実はな、重力の至近距離の振る舞いはよくわかっていないんや。

実験でニュートンの逆２乗則が確かめられているのは r = 1[mm] 程度なんやな。

不思議なのは4つの力の中で重力だけ異常に小さいというところや。

これを説明する模型が「この世界は高次元空間にあって、重力だけが高次元を伝播する」というやつなんや。

ここで図入りでわかりやすく説明されとるんでもっと知りたい人はそっち読んでな。

で、この模型を検証しているのが LHC やな。マイクロブラックホールの実験って聞いた事あるやろうか？

シュタゲの元ネタや。オカリンはタイムマシン作っとったがこっちは余剰次元（高次元）の確認や。

ところがな、外国のマスコミさんが「LHCのブラックホールで世界滅亡」と騒いだんやな。

そんですんごいデモが発生したもんで加速器の皆さんみんな大変だったんや。

おっさんからみんなにお願いがあるんやけどな。もしマスコミさんが「マイクロブラックホール」の報道をしていたら余剰次元の実験が成功したんやなと心の中で置き換えて欲しいんや。別に危ない事してへんからね。

まあ、おっさんはLHC 程度じゃまだ見つからんとおもっとるけどね。

あとこの手の模型を作った人の１人が美しすぎる物理屋ことリサ・ランドールな。

おっさん好みのべっぴんさんや。知らない人は画像検索してみるとええで。

feita: 違う。ロースおじさんはまず最初全く関係ないネタで脱線するの。でその後何故か急に博識ぶりを披露しだして、で最後にまた脱線するの。はいわかったらこのリズムでもう一度（鬼畜）

なん・・・やと・・　「グーペおじさん」じゃなくて「ロースおじさん」やったんか・・おっさん素で間違ってたわ。

kitayama: 小4が出てこないので、やり直し

すまんな・・・おっさん、ロースおじさんじゃなかったんや。グーペおじさんや。かんにんな・・・。

Permalink | 記事への反応(0) | 21:04

2015-08-24

■銀河鉄道の夜

「そうだ。おや、あの河原は月夜だろうか。」

そっちを見ますと、青白く光る銀河の岸に、銀いろのゲージ場が、もうまるでいちめん、局所変換にさらさらさらさら、ゆられてうごいて、波を立てているのでした。

「月夜でないよ。銀河だから光るんだよ。」ジョバンニは云いながら、まるではね上りたいくらい愉快になって、足をこつこつ鳴らし、窓から顔を出して、高く高く星めぐりの口笛を吹ふきながら一生けん命延びあがって、その天の川の繰り込み群の流れを、見きわめようとしましたが、はじめはどうしてもそれが、はっきりしませんでした。けれどもだんだん気をつけて見ると、そのきれいな水は、ガラスよりもニュートリノよりもすきとおって、ときどき正則化の加減か、ちらちら赤いろのこまかな波をたてたり、紫外発散にぎらっと光ったりしながら、声もなくどんどん流れて行き、野原にはあっちにもこっちにも、燐光の固定点が、うつくしく立っていたのです。遠いものは小さく、近いものは大きく、遠いものは橙や黄いろではっきりし、近いものは青白く少しかすんで、或いは自由場、或いは漸近的自由性、あるいは一次相転移や臨界指数の形、さまざまにならんで、野原いっぱい光っているのでした。ジョバンニは、まるでどきどきして、頭をやけに振りました。するとほんとうに、そのきれいな野原中の青や橙や、いろいろかがやく固定点も、てんでに息をつくように、ちらちらゆれたり顫えたりしました。

「ぼくはもう、すっかり天の野原に来た。」ジョバンニは云いました。

Permalink | 記事への反応(0) | 14:23