はてなキーワード: スクラッチとは
最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。
難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。
私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです:
足場作り。CoT++について考えてみよう:ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval(コーディング問題)では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench(実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク)では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)
ツール:もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。
エポックAIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5~30倍の効果的な計算量の向上をもたらすことがわかった。METR(モデルを評価する組織)も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。
https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png
これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。)
「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い!例えば
ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6+RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。
続き I.GPT-4からAGIへ:OOMを数える(8) https://anond.hatelabo.jp/20240605210232
日本はなぜか知らんが文系がITエンジニアを名乗れてしまう謎環境だからな、しかたないな
それはそれとして発注側は素人もさることながらわがまますぎる件も加えてくれ
欧米ではスクラッチ開発なんてナンセンスなのに日本はスクラッチ開発至上主義だからな
ユーザ企業は学歴が低くIT知識も少ない経験の浅い者がITシステムを専門業者に外注している。
この専門業者は基本的に高学歴集団であり仕事ができなくはないが99%はITの素人である。文系も半分以上いる。彼らは設計という名の調整仕事だけをし、具体的な実装は下請け企業に投げる。
下請け企業は中小企業でありもう少し細かくシステムを分割する。中小なので低学歴の集団である。当然ITは素人。更に下請けの企業に実装を投げる。
孫請け企業は中小企業であり実際にコードを書く。コードを書く人達は月15万円ほどで雇える専門学校卒の低IQ集団である。当然英語もできないしITは素人である。
とは言っても、
親が気まぐれに買うスクラッチくじに便乗して300円が当たったり
なにかの催し物で行われるガラポンで中の下あたりの賞を貰ったり
とにかく
そういった『ちょっと』の積み重ねではあるが
小雨の降り注ぐ日は登下校時に雲が切れ
冗談半分に
「神様に愛されてるなあ」なんて思っていた。
サンプルは少ないが
てるてる坊主を作って渡すと
「どうしてもこのコンサートに行きたい」と嘆いていたジャニオタの隣席の子に
「クジ運良いからさ!」なんて笑いながら、ノートに『当選祈願』と蛍光ペンで書いてあげた
まあそういう偶然もあるよな、と驚きつつも
喜んでもらえたのでこちらも嬉しく感じていた。
そんな『運』が薄れてきたと感じたのは高校2年あたり
大きな怪我をする事もないため、
落とした定期入れは見つからず
登下校で小雨がやまず
文化祭で雨が降る、といった程度の
そんな『ごくありふれた小さな不運』であった。
自転車通学だったし
当然ながら日頃濡れる事もないので
それはそれで楽しかった。
そして更に認識を改める事になるのは
薄れてきた『運』を補完するような
当然、頻繁に起こる事でもないし
事象同士の期間はずいぶん開く。
しかし『災害の回避』と表現する以外の言葉が見つからないのである。
細かくは覚えていないのだが
少なくともこの15年
1度も揺れに出会っていない。
数度あった豪雨の際も
周囲が水に浸かるなか
住んでいる町は無被害だった。
何もできないし
経験値もないし
受け止める強さもないし
共感する力もないし
ただTwitterでTLを眺め
ニュースばっかでつまんねぇな、と零し
現実を
ほんとうに、「無」なのだ。
何も起こらない、ただひたすらに平穏な
こんな人間もいるんだと
思ってもらうだけでいい。
余談ではあるが
きっと運が良いから
すぐ還っていってしまうんだな、なんて
柄にもなく思ったりしている。
今はとりあえず
何もなかったかのように
あえて無視して
普段通りに
何事にも気を揉まず
今日公開される、すみっコの映画『ツギハギ工場のふしぎなコ』のチケットを予約してたからだ。
俺がすみっコの魅力にやられたのは、妻の影響。
1作目・2作目はアマプラで視聴し、その可愛さと感動のストーリーに悶絶した。
それなのに、妻からは「映画館で観るとまた格別やから」と聞かされた。
アマプラでさえこんなに可愛くて感動するんだから、映画館で観ちゃったらもう幸せすぎて宇宙まで飛んでいっちゃうんじゃないかな、と心配してた。
公開初日の今日、映画を見終わった妻と俺は、2人とも言葉を失っていた。
せっかくのすみっコの映画なのに、しかも69分しかない短い映画なのに、途中で「はよ終わらんかな・・・」とすら思ってしまっている自分にドン引きした。
個人的に、なぜ今回の映画がこんなに残念だったのかを考えてみた。
もちろん、本作を観て心から満足した方もいるだろうから、以下はあくまでも俺の主観。
Xの投稿を観る限りでは「感動した」「かわいかった」っていう声が大多数だから、俺の感覚が正しいとは思わない。
俺と同じように本作にモヤモヤしたっていう人にとっては、多少なりとも共感できる要素があるのではと思う。
すみっコに必然性を求めるなと思われるかもしれないが、そういうことじゃない。
1作目・2作目はファンタジー要素がありつつも、ストーリー全体として「なぜ物語が始まるのか」「なぜこんな展開になるのか」がはっきりしていた。
しろくまのもとに、ぺんぎん(本物)がぬいぐるみを持ってくるところから、話は始まる。
ぬいぐるみは、しろくまが実家で大切にしていたという設定になっている。
俺が記憶している限り、ぺんぎん(本物)がしろくまのもとにぬいぐるみを持ってきた動機がはっきりしない。
いや、まぁ「しろくまが大事にしていたぬいぐるみだからしろくまの元に届けてあげよう」と考えたんだろうとは思う。
ぺんぎん(本物)としろくまが親友のような関係であることは、にわかすみっコファンの俺にでもわかる。
けど、なんでぺんぎん(本物)がしろくまの実家に行ったのか、なんでしろくまの親御さんや兄弟からぬいぐるみを預けられたのかが、全然わからない。
このぬいぐるみは本作の中でけっこう大切なポジションなのに、そのへんの背景がわからないから、ストーリーにいまひとつ没入できなかった。
それから、工場でおもちゃ作りに励むことになったすみっコたちが、なぜ文句を言わずに働き続けるのかもわからない。
企画会議でも活発に意見を交換し、新商品の開発に積極的に取り組んでいた。
くま工場長から課せられるノルマは日々増え続けていき、持ち場を少しでも離れればロボットアームで定位置に強制連行される様は、お世辞にも楽しそうには見えなかった。
すみっコたちがおもちゃ作りを頑張る明確な理由は、なにひとつなかった。
一応、食べ放題の社員食堂があったり、豪華な寝室が用意されていたりと、福利厚生は充実していたように思う。
でも、別にすみっコたちって食いしん坊でもなければ、住処に困ってるわけでもないじゃないか。
(第一、工場のすみっこにあるソファでみんなで固まって寝てたから、寝室に関してはほぼ使ってないし)
たとえば、「すみっコらんどに帰れなくなっちゃった・・・!」的な理由があるなら、工場で頑張って働くのもまだわかる。
けど、そもそも徒歩でたどり着いた工場なんだから、帰りだって徒歩圏内のはずだ。
なんでくま工場長の言いなりになって働き続けているのか理解に苦しむ。
ひょっとしたら、「仕事が苦しくても辞められない日本人」的なところを投影しているのかもしれない。
でもそれなら、「苦しいけど、くま工場長に悪いから辞められないね・・・」的なすみっコたちの葛藤があってしかるべきだ。
そのへんが描かれていないので、すみっコたちがあたかも自分の意思なくただひたすら奴隷のように働いているように見えてしまった。
俺はすみっコの可愛い姿を見たいのであって、可哀想な姿を見たいわけではなかった。
必然制の希薄さ、という点と少しかぶるが、とってつけたような展開が続いたことも、映画に没入できなかった理由のひとつだ。
途中、何度かアクシデントが発生した。
たとえば、とんかつが大量発生したり、おもちゃがすみっコらんどを席巻したり。
でも、各アクシデントが次の展開につながることはなかった。
アクシデントを解決して、ホッと一息ついたら、また次のアクシデント・・・という感じで、脈絡のない小話が延々と続いているような印象だった。
とんかつの増殖については、ロゴマークを消すとおもちゃが命を失う・・・という設定が明らかになる伏線になってはいるが、このロゴマーク設定もけっこう雑だった。
おもちゃ工場でロゴマークをつけると、おもちゃに命が吹き込まれ、自分の意思で動くようになる。
で、そのロゴマークをこすって消すと、動かなくなる。
この設定はけっこう大事な気がしたが、割とあっさり無視されていた。
たとえば、くま工場長が実はおもちゃだった・・・という衝撃の事実が判明するシーン。
くま工場長は動かなくなってしまっていたが、ロゴマークははっきりと印字されたままだった。
細かいところでは、しろくまが持っていたぬいぐるみにもロゴマークがはっきり印字されていたのに、なぜ動かなかったのかという謎も残る。
まぁしろくまのぬいぐるみに関しては、経年劣化で動かなくなったという見方もできるけど。
でもそれなら、ロゴマークが薄れてしまってるなどの工夫は必要なのではと思う。
おもちゃ作りを放棄したすみっコたちに激おこになり、工場が暴走する。
で、その暴走が実は苦い過去の思い出によるものだったと判明する。
そのとき、すみっコたちは「役に立たなくたって仲間だよ」と言い、工場を笑顔にする。
なんつーか、唐突な流れすぎて感動が追いつかなかった。
ありがちな感動展開でうまくまとめようとした感じが拭えない。
てか工場に対して仲間意識を持つなら、くま工場長への心配があってしかるべきだろと思うが、すみっコたちは全然くま工場長のことは忘れているようだった。
そのあたりのアンバランスさも、すげー気になった。
そして何より、すみっコたちが楽しくなさそうだった。
これは俺の主観かもしれないが、少なくとも俺はそう感じた。
本作のすみっコたちは、楽しそうじゃなかったのだ。
「自分たちがやりたいから、これをやる」っていう、前向きな雰囲気が感じられなかった。
もしかして、くま工場長からの褒め言葉に縛られているのでは・・・?と心配にすらなった。
くま工場長は、すみっコたちを工場にスカウトする際、みんなのことを一人ひとり褒めた。
だけど今思うと、すみっコたちを思い通りに働かせるために操作しようとしているようにしか思えない。
っていうネガティブな感情をもってるわけだが、映画館の来場者特典として「くま工場長のほめスクラッチカード」ってのがもらえる。
硬貨でこすると褒めのセリフが浮かび上がってくるという代物だ。
俺のカードは「だいじょうぶ!みんな、すごいから!」、妻のカードは「サクサク!」だった。
(サクサク!がなぜ褒め言葉になるのかは、映画を観た方ならお分かりになると思う)
いや、この話の流れで、このカードもらって喜ぶお客さんっているんだろうか。
このあたりの細部の手抜き加減も、すげー残念だった。
とまぁ、今回の映画は本当に心底残念だったわけだけど、俺がすみっコ好きなのは変わらない。
今のところ2年周期で映画が出ているから、また2年後、2025年に4作目のすみっコ映画が公開されたなら、俺は間違いなく公開初日に観に行くだろう。
ざっくり状況を話すと、ギャンブル癖があるため家計の管理は夫に任せて、夫からは現金が引き出せない家族カードを預かりそれで普段の買い物をしています。パートをしていて、そのお給料は全額自分の小遣いにできる恵まれた境遇ですが、全額パチンコ屋に費やしてしまい、手元に残った数百円の小銭もギャンブルの資金欲しさに宝くじのスクラッチに費やしてしまう、そんなギャンブル依存症の主婦です。
一時期ギャンブルを止めるための自助会につながりましたが、それでも結局ギャンブルはやめられず、今日もまたギャンブルの資金がなくなりスクラッチに小銭を費やして、手元には100円すらないのが今日の私です。
今日はそんな自分を甚く反省する出来事があったので、それについて書こうと思います。
ギャンブルから帰ってきて、家に「三千円の使い方」という文庫本が転がっていることに気がつきました。
この本を買ったのは私自身です。一時期ギャンブルから離れようと考えていた時に書店で見つけて買ったのですが、そのまま読まれることなく放置されていた本です。
財布の中に3000円どころか100円すらない、自分の銀行口座には1000円もない、そんな状況の今になって、この本を読んでみる気になりました。
小説本で、とある一家のお金にまつわる悩みが描かれるお話でした。
それを今日のうちに一気に読んでしまい、この物語の登場人物たちと自分を比べて、自分がいかに自分のことだけしか考えず、刹那的に生きてきたのか、恥入りました。
特に心に刺さったのは、家計簿で計画や予定を立てる、という言葉でした。
私は普通の家に生まれました。普通というのは、家の収入が相対的貧困には該当せず、多分統計の中央値程度はある家だという意味です。
でも、それって年収400万前後の話で、この収入だと事前に計画をしっかり立てなければ子どもを国立大に通わせることも叶わないのです。
私は女だったからという理由で、両親は大学の学費を用意してくれてはいませんでした。
だから、私は国立大の夜間部に進学して、昼の間のアルバイトの収入月12万くらいから毎月3万を学費に積み立て、家賃や食費諸々も自分で払って大学に通いました。当時はまだギャンブルに手を出しておらず、こうしたお金の使い方ができる人間だったのです。
この頃の私は、確かに家計簿をつけていたし、それで計画を立ててお金を使うことができていたのです。
それを本を読んで思い出しました。
それと比べると今は、なんと刹那的にお金を使うようになったことか。
今は家計簿、いえ、小遣い帳すらまともにつけていないし、だから欲しいもののためにお金を計画立てて使うこともできません。
一方、物語の中の登場人物たちは、とても堅実に、誠実に、切実に、お金と向かい合っていました。
私のお金の使い方には、堅実さも誠実さも切実さもありません。
なぜここまでギャンブルに手を出してしまうのか、自分でも全くわかりません。
自分の金銭感覚が破滅しているのは分かります。本のタイトルにもなっている3000円の使い方。私にはもうそれがわからない。パチンコ屋に行ったら10分ちょっとで消えるお金だということくらいしか頭に浮かびません。
だから、どうやったらまともな金銭感覚を取り戻せるのか、それを考えています。
私はこの物語の登場人物の中で、主婦の真帆を羨ましく思いました。
金銭感覚がちゃんとしていて、家族の未来に備えてお金を貯めていく事ができる。かつての私のようであり、そして今の私とは全く正反対の人。
私は、もしかしたらパチ屋通いをやめることやお金の使い方をどうにかすることよりも、本当になりたい自分を思い描く事が必要なのかもしれないと思ったのでした。
取り留めなくまとまらない話になりましたが、11月に出る新作パチスロのまどマギFをスルーできるよう祈っていただけると嬉しいです。
増田の書き込みを考察してみた。同じ売り場で宝くじを買うとすると、その「当たる確率は過去の情報に左右されるか?」というテーマで考えてみよう。
① スクラッチみたいな始めからアタリが出る量が決まっているタイプのくじがプールされている場合は、当たりが出たらそれ以降の期待値は低下する。
② 年末ジャンボみたいなタイプは、翌年度以降の当選するか否かは独立しているので、期待値は左右されないはず。
③ では、当たりが出た店舗から翌年に当たりが出る傾向に「ない」と言い切れるかというと、それは違う。なぜなら、当たると評判になった店舗は人気になって数が出るので、その店舗の当たる確率は上がる。ただし、くじ一枚の期待値と当たる確率は普遍。
まとめると、前年度に当たりが出ると「その店舗の売上はアップする」けど、それで購入者の当たる確率や期待値は変化しないと思う。俺だったら、不人気の店舗で並ばずにくじを買うし、そもそもくじのようなゼロサムゲームに投資しない。
ネット内引きこもりが半世紀ぶりに別垢作って掃き溜めに出たらやっぱり嫌な思いをしたが、そこで言うわけにも(物理的にはいくけど)いかないので書き散らすためだけにアカウントをとった。
だってそもそもシステム的に向いてねえんだもん。無理してうちよそするから元から死んでるコンセプトだけじゃなくルールまで半分死んでんだよな。
そもそもうちよそ勢、システムとシナリオをダシにうちよそエモエピ作りたいわけじゃん。それは別にいいんだけどなんでクソめんどくさいシステム代表クトゥルフくん使うんだ?しかも第六版。
もっと向いてるシステムなんていくらでもあるのにね。コンセプトは最早アスファルトにこびりついたガムより酷い目にあってるから今更生き返らないだろうけど、そろそろ原義に則ったクトゥルフやりたいよ。ホラー演出下手くそすぎて自分も回せないけどな。
クトゥルフってどんなコンセプトか知ってる?判定数値見た?神性データ見た?基本的に一発かじわじわかの差はあれどロストしていく可哀想なキャラクターを愉悦部で囲んで神様ごっこするゲームなんや。語弊はある。
うちよそするならエモクロアどころか願いの井戸程度でええねん。というかもっと軽くてもいい。だってどうせお前ら、キャラ動くだけでエモいエモい鳴くじゃろ?
基本数値4つくらいとフレーバー数値とか自由筆記特技に分けて、シナリオ判定は全部基本数値で作ればいい。でもって得意/普通/苦手だけ決めて適当に補正決めて、2d6で7あたり基準に甘辛つけて判定すればいい。
フレーバーとか特技は申告制で都度基本数値での判定に補正入れるゴネ要素にでもどうぞ。
コンセプトガン無視するならそんなのないやつにすればいいんだよ。力技も一つの正義。
ガチでうちよそやりたいなら、自分とこのキャラのためにシステム選んでシナリオ見繕ったり、なんなら作ったりすればいいのにね。脳死であるものだけ使って当然使いきれてもなくて、うっすい体験を「エモーい」つってる底辺消費者がうざくてキモい。視界から消しゴムマジックしたい。
うちよそ何度かやったことはあるけど、どれもシステムに合わせてスクラッチしたキャラでちゃんとコンセプトに則ったし展開に合わせて必要な時はシナリオ自作したよ。
じゃなきゃ足りねえんだよな、質が。
https://arxiv.org/pdf/2305.00833.pdf
Learning to Reason and Memorize with Self-Notes
大規模な言語モデルは、限られたコンテキスト メモリと多段階の推論に苦労することが示されています。
モデルが自己メモを取ることを可能にすることにより、これらの問題の両方を解決するための簡単な方法を提案します。
最近のスクラッチパッド アプローチとは異なり、モデルはいつでも入力コンテキストから逸脱して明示的に考えることができます。
これにより、モデルはコンテキストを読み取りながら情報を想起し、オンザフライで推論を実行できるため、メモリが拡張され、複数ステップの推論が可能になります。
複数のタスクに関する私たちの実験は、推論時に自己メモを取ることにより、トレーニング設定からより長く複雑なインスタンスに私たちの方法がうまく一般化できることを示しています.
1. イントロダクション
Transformers (Vaswani et al., 2017) および同様のバリアントは、シーケンスベースのタスクで印象的な結果を示しています
特に、GPT-3 (Brown et al., 2020) などの大規模な言語モデル (LM) はトランスフォーマーを使用し、質問応答 (QA) などのさまざまな NLP タスクを解決できます。
LM を QA タスクに使用すると、図 1 (上) に示すように、事実情報と質問を含むコンテキスト プロンプトが与えられ、モデルが直接回答を生成します。 ただし、この自己回帰の「ワンステップ」アプローチは、複数ステップの推論タスクと格闘します (Austin et al., 2021; Press et al., 2022a; Creswell et al., 2023)。 これは、バニラ LM が各トークンに対して固定された計算を行い、現在のコンテキストに応じてさらに「考える」オプションがないという事実から生じると主張します。 (2021) 図 1 (中央) に示すように、モデルが質問に答える前に推論トークンを生成できるようにするスクラッチパッドの使用を提案しましたが、完全なコンテキストと質問を読み取った後です。 同様に、一連の思考を促す方法 (Wei et al., 2022; Zelikman*Equal Contributor 1Meta AI. への対応: JackLanchantin <jacklanchantin@meta.com>, Sainbayar Sukhbaatar<sainbar@meta.com>.et al., 2022; Huang et al., 2022) は、モデルをプッシュして、一度に 1 ステップずつ答えを説明し、より首尾一貫した最終的な答えに導きます。 非線形タスク (Fan et al., 2020)、LSTM (Hochreiter and Schmidhuber, 1997) などの再帰型先行モデルが十分に備えられているもの。 Fan et al., 2020; Ju et al., 2022; Hutchins et al., 2022)、しかし、それでも与えられたプロンプトに対して一定量の計算を使用します。 推論と状態追跡メモリがより扱いやすくなります。 私たちの方法である「Self-Notes」により、LM はオンザフライでコンテキスト プロンプトから逸脱し、明示的な推論トークンを生成できます。 図 1 (下) に示すように、スクラッチパッドとは異なり、モデルは生成されたトークンを入力コンテキストとインターリーブできます。 このようなセルフ ノートは、明示的な中間推論ステップと状態追跡用のメモリの両方として機能します。 具体的には、推論ステップで 2 つの事実を組み合わせる必要がある場合、結果として得られる推論をセルフ ノートに書き込んで、将来の推論に使用することができます。したがって、中間推論ステップとして機能します。 たとえば、「アリスは箱を持っています」と「アリスは公園にいます」が与えられた場合、「箱は公園にある」と推測してそれを自己メモに書き、将来のステートメント「鍵は in the box」で「鍵は公園にある」と結論付ける。 さらに、コンテキストをトラバースしながらモデルがエンティティの最新の状態を新しいトークンとして書き込むことができるため、SelfNote はワーキング メモリの形式として機能できます。 たとえば、プログラミング環境では、最初に x=5 を想定し、次に x を 1 ずつ増やします。モデルが x=6 をセルフ ノートとして正しく記述していると仮定すると、元の x=5 ステートメントをそのコンテキストから安全に削除できます。 モデルが x の値について問い合わせられた場合、モデルは既に答えを持っています。
私たちの提案した方法と、スクラッチパッド (Nye et al., 2021)、思考の連鎖 (Wei et al., 2022)、または内部独白 (Huang et al., 2022) などの以前の研究との主な違いは、モデルを許可することです。 各コンテキストステートメントを順番に読み取るときに、複数のメモを明示的に書き出す。 InarXiv:2305.00833v1 [cs.LG] 2023 年 5 月 1 日図 1: (上) ベースライン バニラ LM は、コンテキスト (C) と質問 (Q) が与えられると、回答 (A) を直接生成します。 (中央)スクラッチパッドを使用すると、モデルは質問に答える前に中間推論トークンを生成できますが、コンテキストが表示された後です。 (下) 私たちの Self-Notes メソッドにより、モデルはいつでも推論してメモを取るために入力コンテキストから逸脱することができます。言い換えれば、私たちのアプローチは、将来の推論に役立つ可能性のある情報でコンテキストを補強するスクラッチパッドのインライン形式です。 私たちはこれを、人間が読む方法と同様に、明示的に述べられていない情報を推測するための行間の読み取り (および書き込み) の形式と見なします (van den Broek et al., 2009)。 以前の方法では、モデルが完全なコンテキストを読み取った後に反芻することができ、読み取っている間ではなく、最後に大量の推論を行うように強制されます。
さらに、そのようなポストコンテキスト推論は、推論が開始される前に以前のコンテキストトークンがモデルのコンテキストウィンドウからすでに出ている可能性があるため、メモリとして機能できません。 たとえば、数週間または数か月の対話履歴を持つインテリジェント エージェントを考えてみましょう。 直観的には、最初から考え直すことなく、以前の対話で行った推論ステップを使用できることは理にかなっています。自己メモを生成するようにモデルに教えるために、トレーニング中に、入力の一部としてグラウンド トゥルース自己メモを言語モデルに提供することを検討します。 コンテクスト。 推論中に、トレーニング中に学習した特別なトークンを生成する場合、モデルはコンテキストから逸脱し、SelfNote を生成できます。モデルが Self-Note の生成を完了すると、元のコンテキスト トークンが引き続き供給されます。 これにより、モデルは最後だけでなく、入力トークンの処理中にメモリを推論および作成できます。 また、Self-Notes をトレーニングするための半教師ありおよび教師なしの方法も提案します。多段階の推論と状態追跡を評価するように設計された 5 つのテキスト データセットでこの方法をテストします。 , 2020; Anil et al., 2022)、および 2 つの現実世界のチェス ゲーム タスク (Toshniwal et al., 2022)。 私たちの方法は、明示的なメモ取りを行わない微調整された言語モデルとスクラッチパッドのベースラインの両方よりも優れています.2. 方法シーケンス内の次のトークンを予測する自己回帰変換モデル M を考えてみましょう
呼び込みでやってるくじを引きたかった。
宝くじ売り場で売ってるスクラッチをめちゃくちゃやりたかった。
当たりつきの駄菓子も大好きだった。
年賀状にたまに張り付けてあるコインで削るくじも大好きだった。
これ全部小学生くらいの時のこと。
自分で金を使えるようになってパチンコ屋に入れる年になったら確実に破滅すると思って絶対に行かないように生きてきた。
一番くじとか引いてA賞とかB賞が出るとめちゃくちゃ脳汁が出た。でも景品はすぐ売るんだけど。
UFOキャッチャーとかもやるようになった。景品が落ちた時、脳に快楽物質がドバドバ出てるのを感じる。
いろんなソシャゲをダウンロードして無課金でガチャを回してた。最高レア確定演出が出るとゾクゾクした。
そんな感じでなんとか大金を使わないようにギャンブル欲をごまかしながら生きてた。
ソシャゲの話で盛り上がってなんやかんやで結婚した夫の趣味はカードゲームだった。遊戯王とかポケカとか。
趣味に関しては自分の金でやってさえすれば特に口出ししない。万が一迷惑行為を行ってたりとか整理ができなくて生活スペースに侵食したとかがあったらひっ叩くけども。
あるとき、次に発売するボックスの購入が一人一箱限定になってしまったので申し訳ないんだけど一緒に並んでくれないかと夫から相談された。
特段断る理由もないので一緒に並び、その日初めてパックを剥く喜びと出会った。出会ってしまった。
パックの一番後ろのカードがビカビカのキラキラに光っているのを見たときに脳汁が出てるのがわかった。
カードをパックから取り出してちょっとだけ横にずらして光ってた時のあの感覚!
遊戯王ではプリシクっていうらしいカードがちょっと見えたときの鳥肌が立つ瞬間!
これだ、と思った。
それからというもの、毎月遊戯王のボックスを買うのに同行し、ポケカの戦争にも繰り出し、転売ヤー死ねハゲ!!と思いながら日々を過ごしている。
大会にもちょくちょく参加し、新弾が発売されればパックを剥いて一喜一憂している。
カードが光った時の気持ちよさはずっとあるのでギャンブル狂いのままなんだろうけど夫の趣味の糧になるならパチンコよりは数億倍マシだと思って生きてる。