「ブートストラップ」を含む日記 RSS

はてなキーワード: ブートストラップとは

2023-04-22

ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習規制必要

 

試行錯誤によって方針学習する深層強化学習アルゴリズムは、環境積極的相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術重要であることを示していますが、データ効率の良いRLにおけるボトルネック一般的理解不明なままでした。その結果、すべての領域でうまく機能する普遍的技術を考案することは困難であった。

論文では、非定常性、過剰な行動分布シフトオーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネック理解することを試みている。

  

効率のいい強化学習って難しいんですね

強化学習ってよく知らない

 

我々は、状態ベースDeepMind control suite(DMCタスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察からディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習正則化技術を利用することで、検証TD誤差をヒルクライムできる。

 

時間差(TD)誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

  

我々は、検証TD誤差をターゲットとするシンプルオンラインモデル選択法が、状態ベースDMCGymタスクにおいて効果であることを示す。

1 はじめに

強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合ロボット操作などのドメインで有望視されている(Andrychowicz et al

2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブオンラインデータ収集単位ごとに費用が発生するため(例.

実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要研究課題となっていますJanner et al

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集ステップごとに多くの勾配ステップポリシーと値関数改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースデータ増強(Jannerら、2019)、アンサンブル使用(Chenら、2021)、ネットワーク正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法挙動理解することはまだ未解決である

 

ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法理解しようとするものである

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすパフォーマンスが低下する理由場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューション悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢原則提供します。データ効率を向上させるために、検証 TD エラー山登りすることによって、特定問題に最も適した正則化選択するだけです。

この原則は、オンラインRLトレーニング過程特定タスクに最適な正則化戦略自動的発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラー使用した自動モデル選択(AVTD)と呼びます

AVTD は、各エージェントが異なる正則化適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります重要なのはパフォーマンスドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちアプローチはすべてのドメイン堅牢動作することに注意してください。

要約すると、私たち最初の貢献は、サンプル効率の高いディープ RL のボトルネック実証分析です。 これらの課題の背後にあるいくつかの潜在的説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラー山登りによって正則化スキーム自動的選択しようとします。 多くの場合私たち方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキーム匹敵するか、それを上回ります

2015-08-22

シューストリングとは

靴紐という意味です

 

ちなみにブートストラップはブーツの紐という意味です

2014-06-14

オレと統計学

誰でも入れる程度の理科系大学工学部に入ったオレ。

卒業研究に入るまでトーケーガクとはまったく接点がなかったことは、オレがボンクラなせいなのか大学教育パッケージの不備なのか。

ともかく、B4になって研究のために論文を読むようになった。

なんじゃこの棒グラフについてる変な細い棒は…。

いまから思えば大変浅学なことであるが、当時のオレはそれがなんなのかまったく知らなかった。

標準誤差ってなんだ。標準偏差ってなんだ。っていうか、この変な細い棒が標準偏差ときと標準誤差のときがあるのはどういう基準でそうなってるんだ。

統計の本は一冊入門書を読んでもあまりからない。書いてあるのは日本語なのだが、通読しても狐につままれる気持ちになるだけで一向に腑に落ちぬ。

確率変数ってなんなのだ確率分布ってなんなのだ正規分布? 標準化

そういう初歩的なところから亀の如き歩みで読み進めていっても論文にはまだまだ謎の単語が出てくる。

t検定? 分散分析? 非線形フィッティング? 最尤法? ブートストラップ法? エトセトラエトセトラ

全くわからないままオレはほぼ独学で(研究必要なだけは)理解してきた。

いま、オレはそういう当時のオレと同じ気持(であろう)奴らを相手にしている。

そんなに偏差値高くない系の工学部学生は、統計学の知識が必要とされるとき、どうしてる(た)んだろう…。

最初から分かってた? それなら、まあ…。

2014-05-31

二度話

会社から帰宅して奥さんと話す時に、昼間チャットで話した内容を、もう一度繰り返して聞いてしまう事がある。

例えば昼に「カップラーメンの新作が美味しかった」と話したら

帰宅してからもう一度「そういえばカップラーメンの新作、美味しかったんだって?」と聞いてしまう。

会話のきっかけと言うか、ブートストラップになることを期待しているのだけど、奥さんはこれをすごく嫌がるのだ。

「同じことを話すのはうざい」らしい。

「もう一度同じことを聞かれるってことは

 あたしがさっき会話したことには

 なんの意味もなかったのだと思わされてしまう」らしい。

飲み会とかで、会話の内容がいつの間にか同じことの繰り返しになっちゃおっさんは確かにむかつくしうざいけど、

えーーーー、会話のきっかけで質問するのもダメなの?

俺の周囲はこういう会話法する人もそれなりに居て、大丈夫だったのだけど。

この会話の仕方は癖になっちゃってる。努力はするけど、そうそうやめられないよ!

2014-02-11

http://anond.hatelabo.jp/20140211084625

職業神聖視し過ぎというか、必ずしも高い技能知識を要求しない職はあるはずで…。

家入や千原Jr特殊だとしても、20代ならなんとかなると思う。

ビハインド分、欲を我慢してブートストラップして行って欲しい。

それか、小さい頃から抑うつ状態の可能性もあるので、

心療内科精神科でお薬出してもらって定常的に元気出すのが先かも。

2014-02-03

http://anond.hatelabo.jp/20130321232717

写経が足りない。手を動かして動くものを作るんだ。

ドットインストールなりrailsチュートリアルなり、golangなりやって見るんだ。

そうやってブートストラップしていくとどう情報を掴んでいけば良いか分かるようになってくる。

頑張ればスマホアプリにも手を出せるさ。

とりあえず学部3年なら簡単なTODOリスト管理アプリを作れるぐらいでバイト普通に見つかるだろう。

それが難しければ、パソコンサポートなら出来るだろう。なんでも良いからやらせて貰え。

教授にでも、バイト先の社長にでもお願いして。

数学は最低、離散数学ブール代数はきちんと練習すること。あと集合。

それ以外の情報系の授業でソフトウェアだと、

ハード系だと

の辺りを意識的に取り組んで欲しい。

その他は、

あたりを読んで、分からないところを先生や詳しい同級生に聞く。

あと、5000万行ぐらいのテキストファイルで、マージソートUNIXコマンドでやってみるとかお勧め

ただし、そうやっていく中で、もし「楽しい」と思えない時間が3ヶ月〜半年なり続くようであれば、

適性を求めて (例えば) 経済学部などに行くが良かろう。

2013-12-25

Visual Basic 2010 Expressプロジェクトを発行できません

Visual Basic 2010 Expressプロジェクトを発行すると以下の様なエラーが出ます xxxはユーザー名の置き換えです

プロジェクト新規作成から作った初期状態のプロジェクトを発行しても同じエラーが出ます

エラー 1 プロジェクトビルドできなかったため、発行できません。

警告 2 項目 '.NETFramework,Version=v4.0,Profile=Client' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1' で見つかりませんでした。

警告 3 項目 'Microsoft.Windows.Installer.3.1' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1' で見つかりませんでした。

エラー 4 必要ファイル 'setup.bin' が 'C:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engine' で見つかりませんでした。 WindowsApplication1

C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\setup.binをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineコピーするとエラー4がこのように変わります

エラー 4 ブートストラップビルドするために利用可能なリソースがありません。 WindowsApplication1

Visual Studioを修復したりMicrosoft SDKインストールしたりしましたが、解決しませんでした。

どうしたらよいでしょうか。

C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\setup.binをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineコピー

更に

C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrapper\Engine\jaをC:\Users\xxx\documents\visual studio 2010\Projects\WindowsApplication1\WindowsApplication1\Engineコピーしたら発行できました

参照URL

http://msdn.microsoft.com/ja-jp/library/ms228158%28v=vs.90%29.aspx

 
ログイン ユーザー登録
ようこそ ゲスト さん