「ブートストラップ」を含む日記

2023-04-22

■ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。

本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。

＞効率のいい強化学習って難しいんですね

強化学習ってよく知らない

我々は、状態ベースのDeepMind control suite（DMC）タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差（TD）誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証 TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証 TD誤差をヒルクライムできる。

＞時間差（TD）誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

我々は、検証 TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGym タスクにおいて効果的であることを示す。

1 はじめに

強化学習（RL）法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている（Andrychowicz et al、

2020）、チップ配置（Mirhoseini et al.、2020）、ゲーム（Silver et al.、2016）、データセンターの冷却（Lazic et al.、2018）。アクティブなオンラインデータ収集の単位ごとに費用が発生するため（例．

実際のロボットを動かす、シミュレーションによるチップ評価など）、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています（Janner et al、

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法（例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018)）は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価（Thrun & Schwartz, 1993; Fujimoto et al., 2018）といったいくつかの仮説、非定常性（Lyle ら、2022）、またはオーバーフィッティング（Nikishinら、2022）が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強（Jannerら、2019）、アンサンブルの使用（Chenら、2021）、ネットワークの正則化（Hiraokaら、2021）、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット（Nikishinら、2022）などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は（これから示すように）タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。

ICLR 2023で会議論文として発表本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD 学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイトペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。

この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証 TD エラーを使用した自動モデル選択(AVTD)と呼びます。

AVTD は、各エージェントが異なる正則化を適用する共有リプレイバッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロールスイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。

要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。私たちの 2 番目の貢献は、単純なアクティブモデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。

Permalink | 記事への反応(0) | 12:15

2022-07-24

■anond:20220724140709

ブートストラップ

Permalink | 記事への反応(0) | 23:39

2019-06-19

■anond:20190619082242

950+だけど文法いくらやっても日本語で言えない表現とかあるからあんま意味ないと思ってる文法はブートストラップ

Permalink | 記事への反応(0) | 08:38

2015-08-22

■シューストリングとは

靴紐という意味です

ちなみにブートストラップはブーツの紐という意味です

Permalink | 記事への反応(0) | 09:10

2014-06-14

■オレと統計学

誰でも入れる程度の理科系大学の工学部に入ったオレ。

卒業研究に入るまでトーケーガクとはまったく接点がなかったことは、オレがボンクラなせいなのか大学教育パッケージの不備なのか。

ともかく、B4になって研究のために論文を読むようになった。

なんじゃこの棒グラフについてる変な細い棒は…。

いまから思えば大変浅学なことであるが、当時のオレはそれがなんなのかまったく知らなかった。

標準誤差ってなんだ。標準偏差ってなんだ。っていうか、この変な細い棒が標準偏差のときと標準誤差のときがあるのはどういう基準でそうなってるんだ。

統計の本は一冊入門書を読んでもあまり分からない。書いてあるのは日本語なのだが、通読しても狐につままれる気持ちになるだけで一向に腑に落ちぬ。

確率変数ってなんなのだ。確率分布ってなんなのだ。正規分布？　標準化？

そういう初歩的なところから亀の如き歩みで読み進めていっても論文にはまだまだ謎の単語が出てくる。

t検定？　分散分析？　非線形フィッティング？　最尤法？　ブートストラップ法？　エトセトラエトセトラ…

全くわからないままオレはほぼ独学で（研究に必要なだけは）理解してきた。

いま、オレはそういう当時のオレと同じ気持（であろう）奴らを相手にしている。

そんなに偏差値高くない系の工学部の学生は、統計学の知識が必要とされるとき、どうしてる（た）んだろう…。

最初から分かってた？　それなら、まあ…。

Permalink | 記事への反応(1) | 01:20

2014-05-31

■二度話

会社から帰宅して奥さんと話す時に、昼間チャットで話した内容を、もう一度繰り返して聞いてしまう事がある。

例えば昼に「カップラーメンの新作が美味しかった」と話したら

帰宅してからもう一度「そういえばカップラーメンの新作、美味しかったんだって？」と聞いてしまう。

会話のきっかけと言うか、ブートストラップになることを期待しているのだけど、奥さんはこれをすごく嫌がるのだ。

「同じことを話すのはうざい」らしい。

「もう一度同じことを聞かれるってことは

　あたしがさっき会話したことには

　なんの意味もなかったのだと思わされてしまう」らしい。

飲み会とかで、会話の内容がいつの間にか同じことの繰り返しになっちゃうおっさんは確かにむかつくしうざいけど、

えーーーー、会話のきっかけで質問するのもダメなの？

俺の周囲はこういう会話法する人もそれなりに居て、大丈夫だったのだけど。

この会話の仕方は癖になっちゃってる。努力はするけど、そうそうやめられないよ！

Permalink | 記事への反応(4) | 01:35

2014-02-11

■http://anond.hatelabo.jp/20140211084625

職業を神聖視し過ぎというか、必ずしも高い技能知識を要求しない職はあるはずで…。

家入や千原Jrは特殊だとしても、20代ならなんとかなると思う。

ビハインド分、欲を我慢してブートストラップして行って欲しい。

それか、小さい頃から抑うつ状態の可能性もあるので、

心療内科か精神科でお薬出してもらって定常的に元気出すのが先かも。

Permalink | 記事への反応(0) | 14:27

2014-02-03

■http://anond.hatelabo.jp/20130321232717

写経が足りない。手を動かして動くものを作るんだ。

ドットインストールなりrailsのチュートリアルなり、golangなりやって見るんだ。

そうやってブートストラップしていくとどう情報を掴んでいけば良いか分かるようになってくる。

頑張ればスマホアプリにも手を出せるさ。

とりあえず学部3年なら簡単なTODO リスト管理アプリを作れるぐらいでバイトも普通に見つかるだろう。

それが難しければ、パソコンのサポートなら出来るだろう。なんでも良いからやらせて貰え。

教授にでも、バイト先の社長にでもお願いして。

数学は最低、離散数学でブール代数はきちんと練習すること。あと集合。

それ以外の情報系の授業でソフトウェアだと、

OS 設計基礎
言語処理系 (文字列のパースなど)

ハード系だと

CPU 設計
回路の論理合成

の辺りを意識的に取り組んで欲しい。

その他は、

通信の基礎
TCP/IP
シャノンの情報理論 (エントロピー、符号化)

あたりを読んで、分からないところを先生や詳しい同級生に聞く。

あと、5000万行ぐらいのテキストファイルで、マージソートをUNIXのコマンドでやってみるとかお勧め。

ただし、そうやっていく中で、もし「楽しい」と思えない時間が3ヶ月〜半年なり続くようであれば、

適性を求めて (例えば) 経済学部などに行くが良かろう。

Permalink | 記事への反応(2) | 22:53

2013-12-25

■Visual Basic 2010 Expressでプロジェクトを発行できません

Visual Basic 2010 Expressでプロジェクトを発行すると以下の様なエラーが出ます xxxはユーザー名の置き換えです
プロジェクトの新規作成から作った初期状態のプロジェクトを発行しても同じエラーが出ます
エラー 1 プロジェクトがビルドできなかったため、発行できません。
警告 2 項目 '.NETFramework,Version=v4.0,Profile=Client' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1' で見つかりませんでした。
警告 3 項目 'Microsoft.Windows.Installer.3.1' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1' で見つかりませんでした。
エラー 4 必要なファイル 'setup.bin' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engine' で見つかりませんでした。 WindowsApplication1
C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\setup.binをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineにコピーするとエラー4がこのように変わります
エラー 4 ブートストラップをビルドするために利用可能なリソースがありません。 WindowsApplication1
Visual Studioを修復したりMicrosoft SDKをインストールしたりしましたが、解決しませんでした。
どうしたらよいでしょうか。

C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\setup.binをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineにコピー
更に
C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\jaをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineにコピーしたら発行できました
参照URL
http://msdn.microsoft.com/ja-jp/library/ms228158%28v=vs.90%29.aspx

Permalink | 記事への反応(0) | 19:41