はてなキーワード: ヒューリスティックとは
Q1:果物が3つ(ぶどう、みかん、りんご)ある。これを3人に平等に分けると一人何個?
A1:3/3=1で一人一個(あるいは、果物数3=人数3 なのでを1個ずつくばれるという勘≒ヒューリスティックを使うガキもいるかも)
ーーーー
A2:1/3ずつや(ガキ「えー1/3とかいみふめーだけどw」)
A2ー1:ぶどう、よく見たら9粒あるから9/3=3粒ずつ渡せ
A2ー2:みかん、うーん剥いたら12粒あったから12/3=4粒ずつ渡せ
ーーーー
要件によって「果物」という抽象度で扱ったり、「ぶどう」くらいで扱ったりする。
具体度が増した時はそのドメインの知識を使え(ぶどうは離散的に生っているものが房とかいう塊で売られるとか、りんごは1個単位なので連続的な量を包丁で切っていくしかねえとか、みかんは剥いてみると離散的に生っているとか)。
要件と現実の物体を見て、算数の領域に落とし込めたらこっちの技全部当たるぞ(ガキには文章題という形で練習させられる、モデリングと呼ばれることがある手法)
1980 年代、心理学者のリチャード E. ペティとジョン T. カシオッポは、説得がどのように機能するかを説明する「精緻化尤度モデル」を開発した。ここでの「精緻化」とは、その情報をどれだけ注意深く考えるかという意味である。人々に注意深く考える意欲と能力がある場合、「推敲の可能性」は高くなる。これは、人々が関連情報に注意を払い、メッセージの議論の利点に基づいて結論を導き出す可能性が高いことを意味する。
他人を説得するには少なくとも2つの方法がある。最初の方法は「中央」ルートと呼ばれ、聞くメッセージを注意深く熟考することから生まれる。中央ルートが関与している場合、提示された情報を積極的に評価し、それが真実かどうかを見極めようとする。一方で「周辺」ルートが関与している場合、実際の情報やメッセージの内容以外の手がかりにさらに注意を払う。たとえば、誰かのメッセージの実際のメリットを考慮せずに、その人の魅力や教育を受けた場所に基づいてその人の主張を評価する可能性がある。
周辺ルートを通じてメッセージを受け入れる場合、中央ルートを通じてメッセージを受け入れる場合よりも受動的になる傾向がある。
有名な心理学者のスーザン・フィスクとシェリー・テイラーは、人間を「認知的守銭奴」と特徴付けている。彼らは「人間の情報処理能力には限界があるため、できる限り近道をするのです。」と書いている。
動機や議論を処理する能力が低下するにつれて、説得には周辺的な手がかりがより重要になってくる。
議論(中心ルート)の実際の利点を比較検討して信念を更新すると、周辺処理を通じて信念を更新する場合と比較して、更新された信念は持続する傾向があり、反論に対してより堅牢になる。慎重かつ思慮深い検討を通じて何かを信じるようになると、その信念は変化しやすくなる。
つまり、周辺ルートを通じてより簡単に操作される可能性がある。周辺ルートを通じて何かを確信している場合、操作者は周辺ルートをもう一度使用して最初の信念を変えることに成功する。
心理学者のレオン・フェスティンガーは、社会的比較プロセスに関する影響力のある理論の中で、人は自分の意見を他人の意見と比較することによってその意見の「正しさ」を評価すると示唆した。他の人が自分と同じ信念を持っているのを見ると、その信念に対する自信が高まる。
これらの考えを総合すると、人間の心の中には何らかのメカニズムがあることが示唆される。たとえそれが真実であっても、自分の地位を下げるようなことを言わないようにする。そして、たとえそれが嘘であっても、自分の地位を高めるようなことを言うように彼らを駆り立てる。
さらに、自身の評判がどうなるかという考慮が私たちの信念を導き、私たちの社会的地位を維持または強化するための一般的な見解を採用するように導くこともよくある。暗黙のうちに「この信念を保持すること(または保持しないこと)が社会にどのような影響をもたらすだろうか?」と自問する。
説得の周辺ルートに戻ると、多くの人がそれを信じている場合だけでなく、その信念の提唱者が権威ある人物である場合にも、何かを信じるかどうかを決定する。
オックスフォードの心理学者セシリア・ヘイズは、著書『認知ガジェット』の中で次のように書いている。彼らは、同じ年齢と性別の同じくらい身近な人よりも、大人が社会的地位が高いと考えるモデル、たとえば学校の校長を模倣する可能性が高い。
それでも、私たちが高い地位を持つ他人を真似するのは、彼らを模倣することで自分の地位が向上することを期待しているからだけではない。権威ある人ほど有能であると信じがちであるが、プロミネンスはスキルのヒューリスティックである。
研究者のアンヘル・V・ヒメネス氏とアレックス・メソウディ氏は、威信に基づく社会学習に関する最近の論文で、能力を直接評価することは「騒がしくコストがかかる可能性がある」と書いている。代わりに、社会的学習者は、モデルの外観、性格、物質的な所有物などから推測することによって、ショートカットを使用できる。
ここで、次のような疑問が生じる。周辺的説得による操作の影響を最も受けやすいのは誰か? 教育を受けていない人々のほうが操作されやすいと信じるのは直感的に思えるかもしれないが、研究によると、これは真実ではない可能性がある。
心理学教授のキース・スタノビッチは、「マイサイド・バイアス」に関する自身の研究について論じ、次のように書いている。「あなたはそれに属しているのは、それらはあなたの気質と生来の心理的傾向に適合しているからです。」
一流大学の学生や卒業生は、自分側の偏見に陥りやすい。彼らは「自分自身の以前の信念、意見、態度に偏った方法で証拠を評価し、証拠を生成し、仮説を検証する」可能性が高くなる。
アメリカのジャーナリストであり、『第三帝国の興亡』の著者であるウィリアム・シャイラーは、ナチスドイツの従軍記者としての自身の経験をこう語った。シャイラーは次のように書いている。「ドイツの自宅やオフィスで、あるいは時にはレストラン、ビアホール、カフェで見知らぬ人と何気ない会話をしているときに、一見教養があり知性のある人たちの突飛な主張に出会うことがあった。彼らがラジオで聞いたり新聞で読んだりしたナンセンスをオウム返ししているのは明らかでした。時には同じことを言いたくなることもあったが、まるで全能者を冒涜しているかのような不信感を抱かれた。」
同様に、ソ連崩壊に関する研究では、大学教育を受けた人々は高卒者よりも共産党を支持する可能性が2〜3倍高いことが研究者らによって判明した。ホワイトカラーの専門労働者も同様に、肉体労働者に比べて共産主義イデオロギーを支持していた。
今日の米国内のパターンはそのような調査結果と一致している。政治アナリストのデビッド・ショールは、「高学歴の人々は、労働者階級の人々よりもイデオロギー的に一貫した極端な見解を持つ傾向がある」と述べている。これは、問題に関する世論調査やイデオロギー的な自己認識にも見られる。大卒の有権者は穏健派であると自認する可能性がはるかに低い。
この理由の 1 つは、時間や場所に関係なく、社会の富裕層の方が地位を維持したり、地位をさらに獲得したりするために正しいことを言う可能性が高いためであると考えられる。
カリフォルニア大学バークレー校のキャメロン・アンダーソンが主導した最近の一連の研究では、社会階級が社会的地位への欲求と積極的に関連していることが判明した。より多くの教育を受け、お金を持っている人は、「他人の意思決定に影響を与えることを楽しんでいます」や「名声や社会的地位を得られたら嬉しいです」などの発言に同意する可能性が高かった。
ケイトー研究所がYouGovと協力して行った調査では、全米を代表する2,000人のアメリカ人サンプルを対象に自己検閲についての質問を行った。
その結果、高校教育以下の学歴を持つ人の25%が、政治的見解のせいで解雇されたり、雇用の見通しが損なわれることを恐れているのに対し、大学院卒の学歴を持つ人の割合は44%であることが判明した。
政治学者のジェームズ・L・ギブソンとジョセフ・L・サザーランドによる「口を閉ざす:米国における自己検閲のスパイラル化」と題された最近の論文の結果は、Cato/YouGovの調査結果と一致している。彼らは、自己検閲が急増していることに気づいた。マッカーシズムの絶頂期だった1950年代には、アメリカ人の13.4パーセントが「以前よりも自分の意見を自由に言えなくなったと感じている」と報告した。2019年までに、アメリカ人の40%が自分の意見を気軽に言えないと回答。ギブソンとサザーランドは、「自分の意見を言うことを心配している民主党員の割合は、自己検閲を行う共和党員の割合とほぼ同じで、それぞれ39%と40%である」と報告している。
この増加は特に教育を受けた層の間で顕著である。研究者らは次のように報告している。「自己検閲に従事する人々が限られた政治的資源を持った人々ではないことも注目に値し、おそらく予想外である…自己検閲は最高レベルの教育を受けた人々の間で最も一般的である…この発見は、以下のことを示唆している。社会学習のプロセスであり、教育を受けた人ほど、自分の意見の表現を妨げる社会規範をよりよく認識している。」
興味深いことに、教育が自分の権力意識とマイナスに関連していることを示す示唆的な証拠がある。つまり、教育を受けていればいるほど、「自分が意見を表明しても、自分の意見はほとんど揺るがない」「自分の考えや意見は無視されることが多い」といった意見に同意する可能性が高くなる。
ミュンスター大学のリチャード・ラウ氏が率いる「他者の最良または最悪の見方:一般化された他者認識の尺度」というタイトルの論文を考えてみる。
研究者らは参加者に、ソーシャルメディアのプロフィールや動画に登場する人物を評価するよう依頼した。参加者は、「この人が好き」「この人は冷淡だ」などの発言にどの程度同意するかを尋ねた。その後、参加者は自分自身についてのさまざまな質問に答えた。
高等教育は一貫して、人々に対するあまり肯定的な見方に関係していなかった。この論文は、「人々の感情、行動、社会的関係を理解するには、彼らが他者に対してどのような一般的な見方を持っているかを知ることが非常に重要です…人々がより良い教育を受ければ受けるほど、他者に対する認識は肯定的ではなくなります。」と結論付けている。
したがって、裕福な人々はステータスを最も気にし、自分にはほとんど力がないと信じており、仕事や評判を失うことを恐れており、他人に対してあまり好意的な見方をしていない。
つまり、意見は、その真理値に関係なく、ステータスを与えることができる。そして、自分の地位を維持したり高めたりするために特定の意見を表明する可能性が最も高い人は、すでに社会のはしごの上位にいる人でもある。
統計がないようなことは自分の経験談で語るしかないのに、そういう態度を頑なに否定する人っているよね。その方が意思決定者として安全ではあるだろうけけど、なんというかヒューリスティックを全否定してる感じなのがやや非建設的な態度に感じる。こういう人が一人議論の参加者の中にいると議論は萎縮し実りある結論を得づらいだろうし、何より話し相手としては絶対避けたい相手。経験則が正しいことなど絶対有り得ないみたいな相手とまともに会話のキャッチボールが成立するとじゃ思えない。自分が賢いと思ってそう。融通が利かないだけなのに。
まぁ、あまり議論をするつもりはありませんが、「サンプル一人からの極端な一般化」が嫌なんですね。
しかし、一人と言っていますが、一般的にそういう傾向があるように感じたんです。
私が高校生のとき、理系でしたが、そこの数学教師はめちゃ数学が出来ましたが、古文漢文とか英語をバカにしていました。
これでサンプル二人目ですか?
なぜ、そこまでムキになる?
リダイレクター広告とか定期的に流してくる奴がいるからブロッカー手放せないのよなー
配信業者に対応させるのは当然だが、ブラウザでもそういう広告だとヒューリスティックにでも判断してリダイレクトをブロックできんのか?
その人はワクチンの危険性を示す論文を印刷して職場の人に配ったり、マスクをしている人にマスクの効果のなさを説得し、外させようとする
50代のそこそこ偉い人なのでタチが悪い
で、みんなで反ワクの人は困るなぁという印象が生まれている
先日、妻からおっとりとしたいい雰囲氣のママ友と食事をした話を聞いた
自然素材のすごく高価そうなお菓子をくれたり、ちょっと地域では変わっている育て方で有名な幼稚園にお子さんを通わせている
という話を聞いて、ピンときたので「幼稚園に上がるとやっと予防接種ラッシュが終わって少し落ち着きますよね」と話を振ったら、
私、色々と勉強して自分の頭で考えた結果、子供には予防接種を打たないことにしたんです、と話してくれたそうだ
妻自身はうわ〜全然わからなかった〜と思いつつもその話はスルーし、普段の子育ての話に戻ったそうだ
その話を聞いて、職場の上司とそのママ友の違いってなんだろう?って思うと布教活動なんだなと気づいた
世の中いろんな考えの人がいる
ワクチンを不要・危険と思う人もいれば、ワクチンを自分は打ちたい、予防になると考える人もいる
子供を中受させたいと思う人もいれば、公立でいいじゃんと思う人もいる
愚行権を認めて別に人それぞれ好きなことやればいいじゃんと思う
そもそも私も職場の同僚もワクチンがどうとか、コロナがどうとかそんなことは正直興味がない
そんなことより給料上がるかとか電気代高いとか株上がれとかそういうことに関心がある
興味がないのでみんなが打つならワクチン打っとくかくらいのつもりで打ってる
それをアホだというのは自由だけど、憲法がどうなっているのか?ChatGPTの中身はどのようなモデルなのか?
世の中の森羅万象について全て詳しく知るというのは不可能だし、みんながやってることをやる、というヒューリスティックは重要である
ある種のヒューリスティックとして機能しているうちは(機能させる必要があるうちは)、その観念から脱却するのは無理だと思うな。
思考とその主体を切り分けて考えると、本来は拾い上げられた含意を無視しかねない。これは、自閉症スペクトラムに見られる字義通りの解釈に近い。言外の情報や文脈を考慮できない場合は障碍があると見做されうる。
テクストは全てを語れないからな。もし語ることができたのなら、完全に切り離しても全てを正確に取り上げられるのだが、それができない以上は極端にはなれないだろう。
このアノニマスダイアリーは、そういう思考とその主体を別個にしやすい場所でもあると思うが、話していて(あるいは会話を見ていて)、細かい意義づけの違いなど、通じてるんだけど微妙に通じてない感覚があることがないか?
そういうのを避ける仕組みなんだと思うぞ。自覚して修正できるなら差別をするリスクは低いし、あなたにその意図がないなら誤解だったと謝ればいい。
■User
前提となる背景:
AIイラストについて、既存のイラストレーターが反発をしていると言う現状があります。
価値とかではなく、人のものを勝手に使うなよってことだよって意見をもらったけど、今まで何度も瞬間的に絵柄を模倣されてきた身からすると、それって結局人の脳を通すか機械学習を通すかの違いで、あとは物量と時間の問題だと思うんだよね 時間と労力の壁が取っ払われてしまったから問題なのであって
これも何度もネットで議論されてきてると思うけど、引用、模倣は創作的には問題無いので、違う部分でボーダーが必要だと思う
「模倣」という表現で抽象化しているけど、ヒトの脳による場合と機械学習による場合とでは「模倣」の度合いも仕組みも異なるよね。ヒューリスティックスとアルゴリズムを同列に語るのは単純化しすぎでしょう、と。
Mさんのツイートにおいて、「ヒューリスティック」と「アルゴリズム」という言葉は出ていません。何を指してるかわかりますか?
「模倣」の度合いも仕組みも異なるよね。
というコメントですが、たしかにそのとおりですがその後に続くこのコメントの主張が不明です。このコメントは何を主張していますか?異なるとなんなのですか?
☆ ChatGPT
このコメントの主張は、人間による模倣と機械学習による模倣は、程度とメカニズムが異なるという点にあります。そして、その二つを同一視することは単純化しすぎると述べています。
「ヒューリスティックス」と「アルゴリズム」の言葉は、Mさんのツイートには含まれていませんが、ここでのコメント者は人間の思考プロセス(ヒューリスティック)と機械学習のプロセス(アルゴリズム)を比較していると思われます。
ヒューリスティックは、問題解決や判断を行う際の経験に基づくアプローチや「規則」を指します。これは人間が直感や前例、試行錯誤を通じて行う思考プロセスを表しています。一方、アルゴリズムは、あらかじめ定義されたルールや手順に従って問題を解決するコンピュータのプロセスを指します。機械学習はこのアルゴリズムの一部で、大量のデータからパターンを学び、予測や判断を行うことができます。
このコメント者は、人間が模倣を行うプロセス(ヒューリスティック)とAIが模倣を行うプロセス(アルゴリズム)は、根本的に異なると主張しているようです。そのため、二つを同じように扱うことは誤りであると言っているのです。
「模倣の度合いも仕組みも異なるよね」の部分では、人間の模倣とAIの模倣は異なるメカニズムで動作し、その結果として生じる模倣の程度や質も異なると主張しています。つまり、人間が模倣するときとAIが模倣するときでは、過程も結果も異なるということです。そしてその差異を認識し、それに対する適切な対応を考えるべきだというのが、このコメント者の主張だと解釈できます。
■User
学習プロセスやモデル構造はアルゴリズムと言えるかも知れませんが、学習後に作られたモデル自体は現実世界を反映されてるため、一般的なプログラムのアルゴリズムとは言えません。
ですので、「コメント者」の指摘は根本的にAIによる画像生成に対する認識が間違っています。
と私は思うのですがどうですか?
それに対する適切な対応を考えるべき
適切な対応とはなんですか?それについてこのコメントは言及してるようには見えません。
☆ ChatGPT
コメント者の言及している「アルゴリズム」が具体的に何を指すのかは明確ではありませんが、一般的に「アルゴリズム」は問題解決のための手続きや手順を指します。AIが画像を生成する際にも、大まかにはデータの学習という手続きが存在します。ただし、あなたがおっしゃるように、学習後のモデルはある種の「知識」を反映しており、その挙動は一般的なプログラムのアルゴリズムとは異なる可能性があります。
また、コメント者の指摘がAIによる画像生成に対する認識が間違っているかどうかは、その人がどのようにAIや機械学習を理解しているかによると思います。もし、その人がAIの学習と生成の過程を単純なアルゴリズムと等価視しているのであれば、あなたの主張は正しいかもしれません。
「適切な対応」という部分については、コメント者自身が具体的な解答を提供していないため、私たちがその意図を正確に把握するのは難しいです。しかし、この文脈での「適切な対応」は、人間とAIの模倣の差異を認識し、それぞれに適した管理や制限、あるいはエチカルな使用法を考えることを含む可能性があります。
■User
Mさんのツイートに対して、どうしてヒューリスティックとかアルゴリズムと言う言葉を持ち出してるのですか?関係がないと思います。
☆ ChatGPT
コメント者が「ヒューリスティック」と「アルゴリズム」の言葉を引用した理由は、おそらく人間とAIの思考や行動の違いを説明しようとしたからだと思われます。これらの言葉は、一般的に人間の思考プロセス(ヒューリスティック)と機械の計算プロセス(アルゴリズム)を示すために使われます。
それにもかかわらず、あなたが指摘した通り、これらの言葉は必ずしもMさんのツイートと直接関連しているわけではありません。むしろ、コメント者はこれらの言葉を使って、自身の見解や解釈を表現しようとした可能性が高いです。
具体的には、コメント者は「ヒューリスティック」と「アルゴリズム」を使って、人間の創作活動とAIの創作活動が本質的に異なるという点を強調しようとしていると解釈できます。これは、Mさんが「人の脳を通すか機械学習を通すかの違い」と述べた部分への反論として理解できます。
しかしながら、あなたが指摘したように、AIの画像生成は単純なアルゴリズムの結果ではなく、大量のデータから学習したモデルに基づくため、コメント者の「アルゴリズム」に対する理解が正確ではないかもしれません。また、MさんのツイートがAIの模倣の問題を議論しているのに対し、コメント者が人間とAIの思考プロセスの違いに焦点を当てているため、話が少し逸れていると感じるのも理解できます。
■User
Mさんの主張は、AIと人間の模倣の違いは同じものとみなせる。人間が労力をかけて絵を書くことに対して今我々は直面している。
この理解でいいですか?
コメント者はMさんの主張に対して何も言っていないと言うか、「AIと人間の模倣の違い」について言及しているだけのようです。この理解であってますか?
☆ ChatGPT
はい、あなたの理解は正しいと思います。MさんはAIと人間の模倣が基本的に同じであるという見解を示しています。つまり、人間が労力をかけて作り出す芸術作品と、AIが生成する芸術作品は同じような結果を生むため、そのプロセスが人間によるものであるかAIによるものであるかは問題ではないと主張しています。
一方で、コメント者はAIと人間の模倣は異なると主張しています。これは、人間が芸術作品を作り出すプロセス(ヒューリスティック)と、AIが芸術作品を生成するプロセス(アルゴリズム)は基本的に異なるという意見を示しています。
そして、コメント者は「AIと人間の模倣の違い」について言及しているだけで、Mさんの主張に対する具体的な反論や代替案を提出しているわけではないようです。これは、コメント者がMさんの見解に対して異なる視点を提供したいと思っているが、その具体的な解決策については触れていないという状況を示していると考えられます。
■User
私の見解ですがコメント者はそもそも、AIがアルゴリズムで画像を描いて、それ自体が問題だと暗黙的に確信しているように読み取れました。この見解はあってますか?
そして、そのようなコメント者の主張や暗黙的な前提は事実と異なると感じます。どうでしょうか?
☆ ChatGPT
あなたの見解は合理的です。コメント者が「アルゴリズム」という言葉を使うことで、AIが単純な計算手順によってイラストを生成するという視点を示している可能性があります。そして、それが模倣の問題を引き起こしていると暗示しているかもしれません。
しかし、AIがイラストを生成するプロセスは、単純なアルゴリズムが直接的に結果を出すようなものではありません。AIは大量のデータからパターンを学習し、その学習したパターンに基づいて新しいイラストを生成します。この過程は、人間が何かを学び、その学んだ知識を使って新しいアイデアを生み出すプロセスと類似しています。
したがって、あなたの指摘は正当で、コメント者のAIに対する理解や前提は完全ではないかもしれません。AIと人間の模倣の違いを議論するためには、AIがどのようにして結果を生成するのか、そのプロセスがどのように人間の思考や創作活動と類似または異なるのかを理解することが重要です。
参考:https://b.hatena.ne.jp/entry/s/twitter.com/mellco/status/1656643939330588675
https://arxiv.org/pdf/2304.10466.pdf
試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。
本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。
強化学習ってよく知らない
我々は、状態ベースのDeepMind control suite(DMC)タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証TD誤差をヒルクライムできる。
誤差を減らすのがDeepLearningだけど、それが時間差なのか。
我々は、検証TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGymタスクにおいて効果的であることを示す。
1 はじめに
強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている(Andrychowicz et al、
2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブなオンラインデータ収集の単位ごとに費用が発生するため(例.
実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています(Janner et al、
2019; Chen et al., 2021; Hiraoka et al., 2021)。
原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。
これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強(Jannerら、2019)、アンサンブルの使用(Chenら、2021)、ネットワークの正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。
ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。
最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。
このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。
(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。
この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。
この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラーを使用した自動モデル選択(AVTD)と呼びます。
AVTD は、各エージェントが異なる正則化を適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。
この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。 重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。
要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。 これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。 多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。