「ヒューリスティック」を含む日記 RSS

はてなキーワード: ヒューリスティックとは

2024-10-27

System1とSystem2ってのが行動経済学理論存在するが、巷で「頭がいい」と言われているのは、S1での能力が高い個人

まり人間ヒューリスティック大会で勝てるやつがなんとなく頭がいいと言われているだけ

今後の世の中ではフェイクが増えていくので、S2判断する能力の高い者が重視されるようになる

ファストシキング時代は終わった、これからスロー時代

2024-08-20

ぶどうみかんりんごの例え(あるいは領域展開・算数

Q1:果物が3つ(ぶどうみかんりんご)ある。これを3人に平等に分けると一人何個?

A1:3/3=1で一人一個(あるいは、果物数3=人数3 なのでを1個ずつくばれるという勘≒ヒューリスティックを使うガキもいるかも)

ーーーー

Q2:ぶどうみかんりんごを3人に平等に分けたい時は?

A2:1/3ずつや(ガキ「えー1/3とかいみふめーだけどw」)

A2ー1:ぶどう、よく見たら9粒あるから9/3=3粒ずつ渡せ

A2ー2:みかん、うーん剥いたら12粒あったか12/3=4粒ずつ渡せ

A2ー3:りんご、あーこれはもう切るしかない

ーーーー

要件によって「果物」という抽象度で扱ったり、「ぶどう」くらいで扱ったりする。

具体度が増した時はそのドメイン知識を使え(ぶどうは離散的に生っているものが房とかいう塊で売られるとか、りんごは1個単位なので連続的な量を包丁で切っていくしかねえとか、みかんは剥いてみると離散的に生っているとか)。

要件現実物体を見て、算数領域に落とし込めたらこっちの技全部当たるぞ(ガキには文章題という形で練習させられる、モデリングと呼ばれることがある手法

2024-06-29

ランサムウェアって簡単に防げないの?

ファイルを片っ端から暗号化していくなんてどう考えても異常な挙動なんだから

アンチウイルスヒューリスティックとか、OSの仕組みで簡単に防げそうに思うんだけど。

2024-06-04

ヒューリスティックのひとことで済む概念に何行かけてるわけ

これだから高卒

2024-04-17

anond:20240417154822

なんでもかんでも「統計ガー」っていうのにネットだと出会うけど現実じゃ出会わない。ひろゆきの「1万人に1人のレベルの頭の残念な人」じゃないけど、なかなか頭悪そうというか意思決定の「センス」とか常人より劣ってそう

現実だったらパソコンそっ閉じじゃないけどまともに会話ができない理屈屋と呆れられそっと離れられるレベル

ああ、これにも「統計ガー」って言うんだろうな。ヒューリスティック見解さらさら受け入れない。頭でっかち

2024-03-27

anond:20240326182303

実際の論文提示しないかぎりはないとみなして次善の策としての「感覚で語る」ということを私は行い続けるよ

人間ヒューリスティック気づきをそこまで馬鹿にするもんじゃないよ。さも統計に則らないもの絶対間違ってるみたいな考え方する人いるけどさ。

2023-09-05

なぜ学歴厨は内容を軽視し、人を見下すのか

1980 年代心理学者のリチャード E. ペティとジョン T. カシオッポは、説得がどのように機能するかを説明する「精緻化尤度モデル」を開発した。ここでの「精緻化」とは、その情報をどれだけ注意深く考えるかという意味である。人々に注意深く考える意欲と能力がある場合、「推敲可能性」は高くなる。これは、人々が関連情報に注意を払い、メッセージ議論の利点に基づいて結論を導き出す可能性が高いことを意味する。

他人を説得するには少なくとも2つの方法がある。最初方法は「中央ルートと呼ばれ、聞くメッセージを注意深く熟考することから生まれる。中央ルートが関与している場合提示された情報積極的評価し、それが真実かどうかを見極めようとする。一方で「周辺」ルートが関与している場合、実際の情報メッセージの内容以外の手がかりにさらに注意を払う。たとえば、誰かのメッセージの実際のメリット考慮せずに、その人の魅力や教育を受けた場所に基づいてその人の主張を評価する可能性がある。

周辺ルートを通じてメッセージを受け入れる場合中央ルートを通じてメッセージを受け入れる場合よりも受動的になる傾向がある。

有名な心理学者スーザン・フィスクシェリーテイラーは、人間を「認知守銭奴」と特徴付けている。彼らは「人間情報処理能力には限界があるため、できる限り近道をするのです。」と書いている。

動機議論を処理する能力が低下するにつれて、説得には周辺的な手がかりがより重要になってくる。

議論(中心ルート)の実際の利点を比較検討して信念を更新すると、周辺処理を通じて信念を更新する場合比較して、更新された信念は持続する傾向があり、反論に対してより堅牢になる。慎重かつ思慮深い検討を通じて何かを信じるようになると、その信念は変化しやすくなる。

まり、周辺ルートを通じてより簡単操作される可能性がある。周辺ルートを通じて何かを確信している場合操作者は周辺ルートをもう一度使用して最初の信念を変えることに成功する。

心理学者レオンフェスティンガーは、社会的比較プロセスに関する影響力のある理論の中で、人は自分意見他人意見比較することによってその意見の「正しさ」を評価すると示唆した。他の人が自分と同じ信念を持っているのを見ると、その信念に対する自信が高まる

これらの考えを総合すると、人間の心の中には何らかのメカニズムがあることが示唆される。たとえそれが真実であっても、自分地位を下げるようなことを言わないようにする。そして、たとえそれが嘘であっても、自分地位を高めるようなことを言うように彼らを駆り立てる。

さらに、自身の評判がどうなるかという考慮私たちの信念を導き、私たち社会的地位を維持または強化するための一般的見解採用するように導くこともよくある。暗黙のうちに「この信念を保持すること(または保持しないこと)が社会にどのような影響をもたらすだろうか?」と自問する。

説得の周辺ルートに戻ると、多くの人がそれを信じている場合だけでなく、その信念の提唱者が権威ある人物である場合にも、何かを信じるかどうかを決定する。

オックスフォード心理学者セシリア・ヘイズは、著書『認知ガジェット』の中で次のように書いている。彼らは、同じ年齢と性別の同じくらい身近な人よりも、大人社会的地位が高いと考えるモデル、たとえば学校校長模倣する可能性が高い。

それでも、私たちが高い地位を持つ他人を真似するのは、彼らを模倣することで自分地位が向上することを期待しているからだけではない。権威ある人ほど有能であると信じがちであるが、プロミネンススキルヒューリスティックである

研究者アンヘル・V・ヒメネス氏とアレックスメソウディ氏は、威信に基づく社会学習に関する最近論文で、能力を直接評価することは「騒がしくコストがかかる可能性がある」と書いている。代わりに、社会的学習者は、モデルの外観、性格物質的な所有物などから推測することによって、ショートカット使用できる。

ここで、次のような疑問が生じる。周辺的説得による操作の影響を最も受けやすいのは誰か? 教育を受けていない人々のほうが操作されやすいと信じるのは直感的に思えるかもしれないが、研究によると、これは真実ではない可能性がある。

心理学教授キース・スタノビッチは、「マイサイド・バイアス」に関する自身研究について論じ、次のように書いている。「あなたはそれに属しているのは、それらはあなた気質生来心理的傾向に適合しているからです。」

一流大学学生卒業生は、自分側の偏見に陥りやすい。彼らは「自分自身の以前の信念、意見、態度に偏った方法証拠評価し、証拠を生成し、仮説を検証する」可能性が高くなる。

アメリカジャーナリストであり、『第三帝国の興亡』の著者であるウィリアムシャイラーは、ナチスドイツ従軍記者としての自身経験をこう語った。シャイラーは次のように書いている。「ドイツの自宅やオフィスで、あるいは時にはレストランビアホールカフェで見知らぬ人と何気ない会話をしているときに、一見教養があり知性のある人たちの突飛な主張に出会うことがあった。彼らがラジオで聞いたり新聞で読んだりしたナンセンスオウム返ししているのは明らかでした。時には同じことを言いたくなることもあったが、まるで全能者を冒涜しているかのような不信感を抱かれた。」

同様に、ソ連崩壊に関する研究では、大学教育を受けた人々は高卒者よりも共産党を支持する可能性が2〜3倍高いことが研究者らによって判明した。ホワイトカラーの専門労働者も同様に、肉体労働者に比べて共産主義イデオロギーを支持していた。

今日米国内のパターンはそのような調査結果と一致している。政治アナリストデビッドショールは、「高学歴の人々は、労働者階級の人々よりもイデオロギー的に一貫した極端な見解を持つ傾向がある」と述べている。これは、問題に関する世論調査イデオロギー的な自己認識にも見られる。大卒有権者穏健派であると自認する可能性がはるかに低い。

この理由の 1 つは、時間場所関係なく、社会富裕層の方が地位を維持したり、地位さらに獲得したりするために正しいことを言う可能性が高いためであると考えられる。

カリフォルニア大学バークレー校キャメロン・アンダーソンが主導した最近の一連の研究では、社会階級が社会的地位への欲求積極的に関連していることが判明した。より多くの教育を受け、お金を持っている人は、「他人意思決定に影響を与えることを楽しんでいます」や「名声や社会的地位を得られたら嬉しいです」などの発言同意する可能性が高かった。

ケイト研究所がYouGovと協力して行った調査では、全米を代表する2,000人のアメリカサンプルを対象自己検閲についての質問を行った。

その結果、高校教育以下の学歴を持つ人の25%が、政治見解のせいで解雇されたり、雇用の見通しが損なわれることを恐れているのに対し、大学院卒の学歴を持つ人の割合は44%であることが判明した。

政治学者のジェームズ・L・ギブソンとジョセフ・L・サザーランドによる「口を閉ざす:米国における自己検閲のスパイラル化」と題された最近論文の結果は、Cato/YouGovの調査結果と一致している。彼らは、自己検閲が急増していることに気づいた。マッカーシズム絶頂期だった1950年代には、アメリカ人の13.4パーセントが「以前よりも自分意見自由に言えなくなったと感じている」と報告した。2019年までに、アメリカ人の40%が自分意見を気軽に言えないと回答。ギブソンサザーランドは、「自分意見を言うことを心配している民主党員の割合は、自己検閲を行う共和党員の割合とほぼ同じで、それぞれ39%と40%である」と報告している。

この増加は特に教育を受けた層の間で顕著である研究者らは次のように報告している。「自己検閲に従事する人々が限られた政治資源を持った人々ではないことも注目に値し、おそらく予想外である自己検閲は最高レベル教育を受けた人々の間で最も一般的である…この発見は、以下のことを示唆している。社会学習プロセスであり、教育を受けた人ほど、自分意見表現を妨げる社会規範をよりよく認識している。」

興味深いことに、教育自分権力意識マイナスに関連していることを示す示唆的な証拠がある。つまり教育を受けていればいるほど、「自分意見を表明しても、自分意見ほとんど揺るがない」「自分の考えや意見無視されることが多い」といった意見同意する可能性が高くなる。

ミュンスター大学のリチャード・ラウ氏が率いる「他者の最良または最悪の見方一般化された他者認識尺度」というタイトル論文を考えてみる。

研究者らは参加者に、ソーシャルメディアプロフィール動画に登場する人物評価するよう依頼した。参加者は、「この人が好き」「この人は冷淡だ」などの発言にどの程度同意するかを尋ねた。その後、参加者自分自身についてのさまざまな質問に答えた。

高等教育は一貫して、人々に対するあまり肯定的見方関係していなかった。この論文は、「人々の感情、行動、社会的関係理解するには、彼らが他者に対してどのような一般的見方を持っているかを知ることが非常に重要です…人々がより良い教育を受ければ受けるほど、他者に対する認識肯定的ではなくなります。」と結論付けている。

したがって、裕福な人々はステータスを最も気にし、自分にはほとんど力がないと信じており、仕事や評判を失うことを恐れており、他人に対してあまり好意的見方をしていない。

まり意見は、その真理値に関係なく、ステータスを与えることができる。そして、自分地位を維持したり高めたりするために特定意見を表明する可能性が最も高い人は、すでに社会はしごの上位にいる人でもある。

2023-09-04

n=1が嫌いな人ってなんでなんだろうね

統計がないようなことは自分経験談で語るしかないのに、そういう態度を頑なに否定する人っているよね。その方が意思決定者として安全ではあるだろうけけど、なんというかヒューリスティック全否定してる感じなのがやや非建設的な態度に感じる。こういう人が一人議論参加者の中にいると議論は萎縮し実りある結論を得づらいだろうし、何より話し相手としては絶対避けたい相手経験則が正しいことな絶対有り得ないみたいな相手とまともに会話のキャッチボールが成立するとじゃ思えない。自分が賢いと思ってそう。融通が利かないだけなのに。

まぁ、あまり議論をするつもりはありませんが、「サンプル一人からの極端な一般化」が嫌なんですね。

しかし、一人と言っていますが、一般的にそういう傾向があるように感じたんです。

私が高校生とき理系でしたが、そこの数学教師はめちゃ数学が出来ましたが、古文漢文とか英語バカにしていました。

これでサンプル二人目ですか?

統計を取ってる人ではないし、そんな統計はたぶんないです。

から今までの経験から推測して言っただけです。

なぜ、そこまでムキになる?

2023-07-18

結局専門知識なんて外野にはわからないので、信頼のおけそうな身なりと容貌人間が自信満々に言ってれば大衆は信じるんだよな

大半の人間はそういうヒューリスティック日常ほとんどを生きてる。

いちいち全てに確証を求めてたらめんどくさい迷惑者扱いだろうし時間いくらあっても足りないのでしょうがない。

なので引き締まった肉体を持ち挙動不審言動を無くせば社会の中で生きやすくなるぞ。

2023-07-12

リダイレクタ広告とか定期的に流してくる奴がいるかブロッカー手放せないのよなー

配信業者対応させるのは当然だが、ブラウザでもそういう広告だとヒューリスティックにでも判断してリダイレクトブロックできんのか?

Chromeの設定でリダイレクト止められるけど、あれで止めると必要リダイレクトまで止まるのでマヌケ感が酷い

最近布教活動が悪いんじゃないかと思えてきた

職場上司に反ワクの人がいる

その人はワクチン危険性を示す論文印刷して職場の人に配ったり、マスクをしている人にマスク効果のなさを説得し、外させようとする

そのため職場ではその反ワクの人が困ったやつ扱いであ

50代のそこそこ偉い人なのでタチが悪い

で、みんなで反ワクの人は困るなぁという印象が生まれている

先日、妻からおっとりとしたいい雰囲氣のママ友食事をした話を聞いた

自然素材のすごく高価そうなお菓子をくれたり、ちょっと地域では変わっている育て方で有名な幼稚園にお子さんを通わせている

という話を聞いて、ピンときたので「幼稚園に上がるとやっと予防接種ラッシュが終わって少し落ち着きますよね」と話を振ったら、

私、色々と勉強して自分の頭で考えた結果、子供には予防接種を打たないことにしたんです、と話してくれたそうだ

自身はうわ〜全然からなかった〜と思いつつもその話はスルーし、普段の子育ての話に戻ったそうだ

その話を聞いて、職場上司とそのママ友の違いってなんだろう?って思うと布教活動なんだなと気づいた

世の中いろんな考えの人がいる

ワクチン不要危険と思う人もいれば、ワクチン自分は打ちたい、予防になると考える人もいる

子供を中受させたいと思う人もいれば、公立でいいじゃんと思う人もいる

愚行権を認めて別に人それぞれ好きなことやればいいじゃんと思う

そもそも私も職場の同僚もワクチンがどうとか、コロナがどうとかそんなことは正直興味がない

そんなことより給料上がるかとか電気代高いとか株上がれとかそういうことに関心がある

興味がないのでみんなが打つならワクチン打っとくかくらいのつもりで打ってる

それをアホだというのは自由だけど、憲法がどうなっているのか?ChatGPTの中身はどのようなモデルなのか?

世の中の森羅万象について全て詳しく知るというのは不可能だし、みんながやってることをやる、というヒューリスティック重要である

にもかかわらず興味のないワクチン話題を延々と聞かされるのが不快なのであって、

職場上司が反ワクであることが不快なのではないな、と気づく

他人が反ワクでも反グルバルでも親露でもなんでもいい

だが、今その話題をすべきタイミングじゃない時になんでもその話題で覆い尽くそうとするのが不快なんだ

2023-07-03

anond:20230703021046

ある種のヒューリスティックとして機能しているうちは(機能させる必要があるうちは)、その観念から脱却するのは無理だと思うな。

思考とその主体を切り分けて考えると、本来は拾い上げられた含意を無視しかねない。これは、自閉症スペクトラムに見られる字義通りの解釈に近い。言外の情報文脈考慮できない場合は障碍があると見做されうる。

テクストは全てを語れないからな。もし語ることができたのなら、完全に切り離しても全てを正確に取り上げられるのだが、それができない以上は極端にはなれないだろう。

このアノニマスダイアリーは、そういう思考とその主体を別個にしやす場所でもあると思うが、話していて(あるいは会話を見ていて)、細かい意義づけの違いなど、通じてるんだけど微妙に通じてない感覚があることがないか

そういうのを避ける仕組みなんだと思うぞ。自覚して修正できるなら差別をするリスクは低いし、あなたにその意図がないなら誤解だったと謝ればいい。

時代遅れだなんてとんでもない、俺は真摯な心構えだと思うよ

2023-05-12

ChatGPTにAIイラスト反対のコメントを解読してもらった

User

前提となる背景:

AIイラストについて、既存イラストレーターが反発をしていると言う現状があります

イラストレーターMさんツイート

価値とかではなく、人のもの勝手に使うなよってことだよって意見をもらったけど、今まで何度も瞬間的に絵柄を模倣されてきた身からすると、それって結局人の脳を通すか機械学習を通すかの違いで、あとは物量と時間問題だと思うんだよね 時間と労力の壁が取っ払われてしまたか問題なのであって

これも何度もネット議論されてきてると思うけど、引用模倣創作的には問題無いので、違う部分でボーダー必要だと思う

問題となるコメント

模倣」という表現抽象化しているけど、ヒトの脳による場合機械学習による場合とでは「模倣」の度合いも仕組みも異なるよね。ヒューリスティックスとアルゴリズムを同列に語るのは単純化しすぎでしょう、と。

問題となるコメントについて、その主張の意味がわかりません。

Mさんツイートにおいて、「ヒューリスティック」と「アルゴリズム」という言葉は出ていません。何を指してるかわかりますか?

模倣」の度合いも仕組みも異なるよね。

というコメントですが、たしかにそのとおりですがその後に続くこのコメントの主張が不明です。このコメントは何を主張していますか?異なるとなんなのですか?

☆ ChatGPT

このコメントの主張は、人間による模倣機械学習による模倣は、程度とメカニズムが異なるという点にあります。そして、その二つを同一視することは単純化しすぎると述べています

ヒューリスティックス」と「アルゴリズム」の言葉は、Mさんツイートには含まれていませんが、ここでのコメント者は人間思考プロセスヒューリスティック)と機械学習プロセスアルゴリズム)を比較していると思われます

ヒューリスティックは、問題解決判断を行う際の経験に基づくアプローチや「規則」を指します。これは人間直感前例試行錯誤を通じて行う思考プロセスを表しています。一方、アルゴリズムは、あらかじめ定義されたルールや手順に従って問題解決するコンピュータプロセスを指します。機械学習はこのアルゴリズムの一部で、大量のデータからパターンを学び、予測判断を行うことができます

このコメント者は、人間模倣を行うプロセスヒューリスティック)とAI模倣を行うプロセスアルゴリズム)は、根本的に異なると主張しているようです。そのため、二つを同じように扱うことは誤りであると言っているのです。

模倣の度合いも仕組みも異なるよね」の部分では、人間模倣AI模倣は異なるメカニズム動作し、その結果として生じる模倣の程度や質も異なると主張しています。つまり人間模倣するときAI模倣するときでは、過程も結果も異なるということです。そしてその差異認識し、それに対する適切な対応を考えるべきだというのが、このコメント者の主張だと解釈できます

User

AIイラストアルゴリズム画像を作っていません。

学習プロセスモデル構造アルゴリズムと言えるかも知れませんが、学習後に作られたモデル自体現実世界を反映されてるため、一般的プログラムアルゴリズムとは言えません。

ですので、「コメント者」の指摘は根本的にAIによる画像生成に対する認識が間違っています

と私は思うのですがどうですか?

それに対する適切な対応を考えるべき

適切な対応とはなんですか?それについてこのコメント言及してるようには見えません。

☆ ChatGPT

コメント者の言及している「アルゴリズム」が具体的に何を指すのかは明確ではありませんが、一般的に「アルゴリズム」は問題解決のための手続きや手順を指します。AI画像を生成する際にも、大まかにデータ学習という手続き存在します。ただし、あなたがおっしゃるように、学習後のモデルはある種の「知識」を反映しており、その挙動一般的プログラムアルゴリズムとは異なる可能性があります

また、コメント者の指摘がAIによる画像生成に対する認識が間違っているかどうかは、その人がどのようにAI機械学習理解しているかによると思います。もし、その人がAI学習と生成の過程を単純なアルゴリズム等価視しているのであれば、あなたの主張は正しいかもしれません。

「適切な対応」という部分については、コメント自身が具体的な解答を提供していないため、私たちがその意図を正確に把握するのは難しいです。しかし、この文脈での「適切な対応」は、人間AI模倣差異認識し、それぞれに適した管理制限、あるいはエチカルな使用法を考えることを含む可能性があります

User

Mさんツイートに対して、どうしてヒューリスティックとかアルゴリズムと言う言葉を持ち出してるのですか?関係がないと思います

☆ ChatGPT

コメント者が「ヒューリスティック」と「アルゴリズム」の言葉引用した理由は、おそらく人間AI思考や行動の違いを説明しようとしたからだと思われます。これらの言葉は、一般的人間思考プロセスヒューリスティック)と機械計算プロセスアルゴリズム)を示すために使われます

それにもかかわらず、あなたが指摘した通り、これらの言葉は必ずしもMさんツイートと直接関連しているわけではありません。むしろコメント者はこれらの言葉を使って、自身見解解釈表現しようとした可能性が高いです。

具体的には、コメント者は「ヒューリスティック」と「アルゴリズム」を使って、人間創作活動AI創作活動本質的に異なるという点を強調しようとしていると解釈できます。これは、Mさんが「人の脳を通すか機械学習を通すかの違い」と述べた部分への反論として理解できます

しかしながら、あなたが指摘したように、AI画像生成は単純なアルゴリズムの結果ではなく、大量のデータから学習したモデルに基づくため、コメント者の「アルゴリズム」に対する理解が正確ではないかもしれません。また、MさんツイートAI模倣問題議論しているのに対し、コメント者が人間AI思考プロセスの違いに焦点を当てているため、話が少し逸れていると感じるのも理解できます

User

Mさんの主張は、AI人間模倣の違いは同じものとみなせる。人間が労力をかけて絵を書くことに対して今我々は直面している。

コメント者の主張は、AI人間模倣は違う。

この理解でいいですか?

コメント者はMさんの主張に対して何も言っていないと言うか、「AI人間模倣の違い」について言及しているだけのようです。この理解であってますか?

☆ ChatGPT

はいあなた理解は正しいと思いますMさんAI人間模倣基本的に同じであるという見解を示しています。つまり人間が労力をかけて作り出す芸術作品と、AIが生成する芸術作品は同じような結果を生むため、そのプロセス人間によるものであるAIによるものであるかは問題ではないと主張しています

一方で、コメント者はAI人間模倣は異なると主張しています。これは、人間芸術作品を作り出すプロセスヒューリスティック)と、AI芸術作品を生成するプロセスアルゴリズム)は基本的に異なるという意見を示しています

そして、コメント者は「AI人間模倣の違い」について言及しているだけで、Mさんの主張に対する具体的な反論代替案を提出しているわけではないようです。これは、コメント者がMさん見解に対して異なる視点提供したいと思っているが、その具体的な解決策については触れていないという状況を示していると考えられます

User

私の見解ですがコメント者はそもそもAIアルゴリズム画像を描いて、それ自体問題だと暗黙的に確信しているように読み取れました。この見解はあってますか?

そして、そのようなコメント者の主張や暗黙的な前提は事実と異なると感じますどうでしょうか?

☆ ChatGPT

あなた見解合理的です。コメント者が「アルゴリズム」という言葉を使うことで、AIが単純な計算手順によってイラストを生成するという視点を示している可能性があります。そして、それが模倣問題引き起こしていると暗示しているかもしれません。

しかし、AIイラストを生成するプロセスは、単純なアルゴリズムが直接的に結果を出すようなものではありません。AIは大量のデータからパターン学習し、その学習したパターンに基づいて新しいイラストを生成します。この過程は、人間が何かを学び、その学んだ知識を使って新しいアイデアを生み出すプロセス類似しています

したがって、あなたの指摘は正当で、コメント者のAIに対する理解や前提は完全ではないかもしれません。AI人間模倣の違いを議論するためには、AIがどのようにして結果を生成するのか、そのプロセスがどのように人間思考創作活動類似または異なるのかを理解することが重要です。

参考:https://b.hatena.ne.jp/entry/s/twitter.com/mellco/status/1656643939330588675

2023-04-22

ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習規制必要

 

試行錯誤によって方針学習する深層強化学習アルゴリズムは、環境積極的相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術重要であることを示していますが、データ効率の良いRLにおけるボトルネック一般的理解不明なままでした。その結果、すべての領域でうまく機能する普遍的技術を考案することは困難であった。

論文では、非定常性、過剰な行動分布シフトオーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネック理解することを試みている。

  

効率のいい強化学習って難しいんですね

強化学習ってよく知らない

 

我々は、状態ベースDeepMind control suite(DMCタスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差(TD)誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証TD誤差を低く制御することを示した。この観察からディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習正則化技術を利用することで、検証TD誤差をヒルクライムできる。

 

時間差(TD)誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

  

我々は、検証TD誤差をターゲットとするシンプルオンラインモデル選択法が、状態ベースDMCGymタスクにおいて効果であることを示す。

1 はじめに

強化学習(RL)法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合ロボット操作などのドメインで有望視されている(Andrychowicz et al

2020)、チップ配置(Mirhoseini et al.、2020)、ゲーム(Silver et al.、2016)、データセンターの冷却(Lazic et al.、2018)。アクティブオンラインデータ収集単位ごとに費用が発生するため(例.

実際のロボットを動かす、シミュレーションによるチップ評価など)、限られた経験量でも効率的学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要研究課題となっていますJanner et al

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法(例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018))は、データ収集ステップごとに多くの勾配ステップポリシーと値関数改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価(Thrun & Schwartz, 1993; Fujimoto et al., 2018)といったいくつかの仮説、非定常性(Lyle ら、2022)、またはオーバーフィッティング(Nikishinら、2022)が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースデータ増強(Jannerら、2019)、アンサンブル使用(Chenら、2021)、ネットワーク正則化(Hiraokaら、2021)、再生バッファを維持しながらRLエージェントゼロから定期的にリセット(Nikishinら、2022)などのいくつかの緩和戦略提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正有効性は(これから示すように)タスクに大きく依存する可能性があり、根本的な問題やこれらの手法挙動理解することはまだ未解決である

 

ICLR 2023で会議論文として発表 本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法理解しようとするものである

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイト ペーパーでは、深い RL アルゴリズムで勾配ステップを増やすパフォーマンスが低下する理由場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法理解しようとします。 最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークブートストラップ ターゲットとの間のエラー) が発生し、最終的なソリューション悪化します。 さらに、データ効率の高い RL 設定のために考案された多くの既存方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢原則提供します。データ効率を向上させるために、検証 TD エラー山登りすることによって、特定問題に最も適した正則化選択するだけです。

この原則は、オンラインRLトレーニング過程特定タスクに最適な正則化戦略自動的発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証TDエラー使用した自動モデル選択(AVTD)と呼びます

AVTD は、各エージェントが異なる正則化適用する共有リプレイ バッファーで、いくつかのオフポリシー RL エージェントトレーニングします。 次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロール スイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります重要なのはパフォーマンスドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちアプローチはすべてのドメイン堅牢動作することに注意してください。

要約すると、私たち最初の貢献は、サンプル効率の高いディープ RL のボトルネック実証分析です。 これらの課題の背後にあるいくつかの潜在的説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。 私たちの 2 番目の貢献は、単純なアクティブ モデル選択法 (AVTD) です。これは、検証 TD エラー山登りによって正則化スキーム自動的選択しようとします。 多くの場合私たち方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキーム匹敵するか、それを上回ります

2023-03-29

anond:20230329154717

「偶然大当たりでしか」ないというのの意味ちょっと自信ないのだが、偶然正しいことを書いてるだけと捉えればいいか

最後が間違ってる人間はそれ以外も間違ってる可能性より、最初が間違ってる人間の方がそれ以外も間違ってる可能性の方がはるかに高いのだから、そう扱うのは一種のふるい分けのヒューリスティックとして当然ということみたいな。

ログイン ユーザー登録
ようこそ ゲスト さん