難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

■I.GPT-4からAGIへ：OOMを数える (3)

ディープラーニングのトレンド

過去 10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマークをクラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。

https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png

ディープラーニング・システムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィックデータで見る我々の世界

私たちは文字通りベンチマークを使い果たしている。逸話として、友人のダンとコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生や大学生が受ける最も難しい試験に匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90％だ。

より広く言えば、GPT-4は標準的な高校や大学の適性試験をほとんど解いている。(GPT-3.5から GPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから、人間の成績の上位に入るところまで、しばしば到達した)

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png

GPT-4の標準テストのスコア。また、GPT-3.5から GPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間の中央値よりかなり下から人間の最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)

https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png

灰色：2021年 8月に行われた、MATHベンチマーク（高校数学コンテストの難解な数学問題）の2022年 6月のパフォーマンスに関する専門家の予測。赤い星：2022年 6月までの実際の最先端のパフォーマンス。ML 研究者の中央値はさらに悲観的だった。

MATHベンチマーク（高校の数学コンテストで出題された難しい数学の問題集）を考えてみよう。このベンチマークが2021年に発表されたとき、最高のモデルは問題の5％しか正解できなかった。そして元の論文にはこう記されている：「さらに、このままスケーリングの傾向が続けば、単純に予算とモデルのパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズムの進歩が必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルーが必要だ、そう彼らは考えたのだ。ML 研究者の調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内（2022年半ばまで）に、最高のモデルの精度は5％から50％に向上した。

毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去 10年間のAI から学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。

現在、最も難しい未解決のベンチマークは、博士号レベルの生物学、化学、物理学の問題を集めたGPQAのようなテストである。問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパスは現在60％程度であり、それに対してインドメインの博士たちは80％程度である。

https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png

GPQAの問題例。モデルはすでに私より優れており、おそらくすぐにエキスパート・博士レベルを突破するだろう...。

続き I.GPT-4からAGIへ：OOMを数える (4) https://anond.hatelabo.jp/20240605205024

Permalink | 記事への反応(1) | 20:47

■

今日もまた帰宅途中の市営住宅の一室（SUUMOによると家賃3万円台）から

メガホンで謎の政治演説を垂れ流してる奴おるわ

たぶん福祉につながっている人なので他の住民は泣き寝入りなんやろなあ

Permalink | 記事への反応(0) | 20:01

■都会の電車 マジで無理すぎる

今日は仕事の都合で電車乗ることがあったんだけどキツかった・・・

これ毎日通勤してる奴ら正気じゃないだろ

俺は２０年歩きで通勤してるけど電車で１時間通勤してる奴わんさかいるけど何考えてるんだ

絶対無理

慣れるってよく聞くけどそれブラック企業に慣れるのと何が違うねん

電車で１時間通勤だったら３年と持たないで会社辞めてるわ

そう考えると同僚が鉄人に見えてきた

ぼんやりした顔の若い女も１時間以上かけて通勤してるっていうんだよなあ

俺よりあの女の方がはるかに頑丈だよ・・・

負けた負けた

終わりだよ、この国は

Permalink | 記事への反応(1) | 19:37

■日本でもチップ 制度か

今日のNHKで取り上げてた投げ銭（チップ）

反対はしないし、むしろいいと思うけど

チップがないのが日本のいい所だったのにな

今の政治見ててそんなことしなくても食べていける世の中になるのかね

Permalink | 記事への反応(0) | 19:10

■

病院にて。

「今日はどうされました？」

「えっいつも通ってるんですけど」

「・・・（無言の圧力）」

「・・・水虫です」

「あっ・・・熱とかありませんか？」

「ありません」

あるわけないだろ！！

もうーみんなに水虫って聞かれたじゃん！

もうお嫁に行けなーい！😂

Permalink | 記事への反応(0) | 18:51

■他人の時間を大切にしてよね

日本もすごく共働きが増えて、共働き子育てを推奨してる雰囲気もあるんだけども、自分もその中にいる一人。

でもさ、推奨するんなら、専業主婦(夫)にあたる人はいないんだという前提で社会をまわしてほしいんだよね。

特に公共系ね。

なんで平日日中に出向かないとできないような手続きばっかりなわけ？

学校とかさ、保護者会。いいよ、必要なんでしょ。行ってみたらすでに配られている資料を読み上げるだけ。無意味だから今すぐやめろ。口頭じゃないと無理なら動画配信でもいいし。最低限、「資料と内容は同じだから参加は任意」くらい言え。始まる最初に、今日の趣旨と、終了時間と、内容について話せ。そこは基本だろ。

あと最近、車を買い替えたんだけど。同じマンションの同じ駐車場を使い続けるだけの話なのに、車庫証明を取るために警察に行き、納税証明をとるために税事務所に行き、印鑑証明をとるために役所に行き。しかも、こっちは数年に一度しかないものだから記入ミスとかが起きると数回行く羽目にもなる。手続き以前に、そもそもこの手続き全体は必要なのか？いらんだろ？どうしても必要ならそっちが来い。あんたらは平日昼間に何日も休めるところに勤めてるのか？？そっちは毎日同じことを繰り返しているんだろうが、こっちは数年に1度なんだよ。細かい慣習知っているわけないだろ。

この話で思い出したが、世の中いろいろあるDX。会社の中でも人事や総務が頑張ってやってる。それはやればいい。でもナントカクラウドを導入してこっちは逆に時間がかかっているんだよ。上に書いたが、こっちはまれにしか触らないんだよそのシステム。そのたびごとに100ページとかのマニュアルを引っ張り出して、それでもわからないとかエラーがでるとか。馬鹿なんじゃないのかこの設計。昔のほうが早かったよ。

ただの打ち合わせにいちいち呼び出す客先もそうだ。君らは1時間の会議と思ってるんだろうが、こっちは行き来するから3時間かかるんだよ。

他人の時間を大切にしよう。DXのとか言う前にそもそも要らんものはやめよう。毎日繰り返しているものは洗練させよう。頼むよ。

Permalink | 記事への反応(2) | 17:53

■ポテチの最後に流し込むあれ

ある日、二十年来の友であるＢ作と私は、ひとつの袋からポテトチップを食べていた。

やがてほとんどのポテトチップを食べ終わり、袋の中はひとつかみの破片だけになった。

袋の中を覗き込んだＢ作は、私に袋を渡しながらこう言った。

「おくすりいいよ」

私はなんとなくその場の流れで「サンキュー」と言って袋を受け取り、上を向いて残った破片を全部口に流し込んだのだが。

（おくすり？）

心の中でさっきＢ作が口にした言葉を反復した。

うん。ポテトチップの最後に残った破片を口に流し込むしぐさは、たしかに、薬包紙から粉薬を服むしぐさによく似ている。

しかし、これを「おくすり」と呼ぶのは一般的なのか？

何かほかに呼び方はあったような気はするが、「おくすり」というのは初耳だった。

だが言いえて妙である。私はその呼び名を気に入った。

しかし釈然としないことがひとつある。

二十年来幾度となく私とポテチを共にしてきたはずのＢ作が、私の前でこの言葉を使ったのは今日が初めてなのだ。

今私の横でテレビを見ながら次のスナック菓子の袋を開けようとしているＢ作は、本当に私の知っているＢ作なのだろうか？

Permalink | 記事への反応(1) | 17:47

■神なんていないと思ってる。これを徹底的にやるべし。神頼みしたら人間終わりだから

うまい棒の何味が好き？って聞かれたら、俺はたこ焼き味だと答える。

そんなアラサーだが、今日は豆腐スイーツを作った。

豆腐と抹茶と牛乳と砂糖をジップロックに入れて凍らせるだけ。

時々揉んでやれば、ヘルシー抹茶アイスの出来上がり。

暑くなってきたからさっぱりして美味しいね。

次はおからパウダーでドーナツを作るつもり。

楽しみだなー！

Permalink | 記事への反応(0) | 17:40

Permalink | 記事への反応(1) | 13:54

■充電ばかりしてる

仕事休んでるとかそういう話ではない。電池の話だ。

昔乾電池で使っていたものもどんどんバッテリー内蔵タイプになっていくし今後ますますそうなっていくだろう。

防災グッズみたいな特殊な状況下を想定してるもの以外はどんどんバッテリーを内蔵していくんだろう。

俺は乾電池で使える物が好きだったけど、新しい製品に買い替えるタイミングで徐々に充電式のものが増えていった。

バッテリー式のものが増えれば当然それを充電する機器も必要になってくる。やれPD 対応だだ急速充電だ非接触だポートは何口が最適だ、などぶつぶつ言いながら充電ステーションの最適化に悩む日々を過ごすようになった。

俺が日々充電しながら使ってるものたち

毎日のように充電してるのはスマホとヘッドセットくらいだけど、それらはあまり問題ではない。

なんせ毎日のように充電する必要があるんで、寝る前に充電するとか風呂入る時に充電するとかルーティン化しやすく充電忘れが少ないからだ。

やっかいなのがその他の充電サイクルが長めのやつら。

充電をし忘れるという罪

例えばキーボードとマウス。無線化してるのでどちらも充電が必要なんだがなんとなく充電を忘れてしまうことが多い。

そのくせ使いたい時にすぐ使えないとけっこう辛い。

週末に一度必ず充電するみたいなルーティンを作れればいいんだが、週末はPC 自体使う頻度が下がるし行動にもバラつきが出るので忘れてしまうこともけっこう多い。

電動歯ブラシや電動ヒゲ剃りも充電切れてるとけっこう困る。

俺は趣味で写真を撮るんだけどカメラのバッテリーもたまにやらかす。

カメラを持ち出す時はだいたい最短でも前の日には分かってるので、余裕をもって充電しておく事は可能なんだけどうっかり忘れてしまうことがある。

今日は写真撮るに行くぞって日の朝、バッテリーの充電忘れてたことに気づいた時は本当に自分が嫌になる。

そもそもメーカー毎にバッテリー形状が全然違ってたり、機種によってはバッテリーの持ちが悪くて予備バッテリー必須だったりもしてなんかもうめんどくさい。

もちろんいざとなればケーブルさして給電しながら使えばいいんだが、こういった小さなストレスが日々積み重なっていく。

せっかく充電で使えるようになってるんだからケーブル繋ぎながら使うということはそもそもしたくない。なんか全然スマートじゃないし悔しい気持ちになる。

それが自分のミスということもあってとても気持ちが萎える。

萎える。そう、充電が切れてるとなんかとても萎えるのだ。

便利になっているのに、せっかくスマートに使えるようになっているのに、俺だけがどんくさいまま。

なんかもういいよ充電切れてたから俺も電池切れすねってふて寝したくなる。

たぶん自分はちょっと神経質で充電するものと相性が悪いんだろう。

女の子に多い気がするがスマホ残り15%しかない状態で平気で遊びに出るのとかよく平気だなと思う。

ちなみに俺は計画的に行動するのも苦手だ。充電という行為は「約束」という感じがある。

使う時を想定して前もって充電しておくというのと、切れた時に電池交換すればいいというのはずいぶん違って感じる。

前者は能動的にならなければいけないが、乾電池の場合（電池そのものは用意しておかないといけないけど）どちらかというと受け身でいられるのだ。

乾電池に戻れる？

乾電池を使っていたころはこんなに気を使うことはなかった。

電池を消耗してるという感覚すらなく、いざ電池切れた時も充電を待つ必要なんてなく電池を交換すればいいだけだったからなんにも考えなかった。

電力に対して受け身でいられたし、ストレスになるとすればせいぜい交換しようとしたら電池がなかった時くらい。俺はストックはあまり切らさないタイプだからこれはほぼ問題にならない。

エネループ教になったこともあった。乾電池型の二次電池、充電しないといけないのは同じだが、形状が乾電池のままなので充電作業もシンプルになりアレはアレで良かった。

そしてなによりいざというとき多少持ちが悪いとしても乾電池も使えるという安心感もあった。

しかしこれも製品そのものがバッテリー内蔵型のものが増えたことで使わなくなっていった。

今更乾電池タイプに戻していくというのはもう無理なのである。

バッテリー内蔵式ならほとんどの場合とても軽くなるし、長く使うものはランニングコストも低くなるだろう。

そしてこの先技術がもっと進めば非接触型で早い給電も可能になっていくだろう。

あるいは俺が知らないだけでもうそういう時代になりつつあるのかもしれない。

ほとんど意識することなく、机の上や特定の場所に置いとくだけで最適なバランスで勝手に充電しといてくれるみたいなのもすぐ当たり前になっていくだろう。

今における充電問題はその途上にあり、便利なのだがなんかダルい事が多いという歯がゆい時代なのだろうか。

充電器をあれこれ用意していちいちケーブルで繋いで手動で充電してたんだよっていうことが「いやよくそんなめんどくさいことしてましたね」って言われるようになるんだろうな。

それまでは俺は日々充電の事を気にしながら生きていくしかないのだ。

そんな事を考えながら今ようやく充電が終わったのでこれで出かけられる。

Permalink | 記事への反応(0) | 12:00

■今日の礼拝

誰かひとりでも死にますように。

ブクマカははてなブックマーカー

増田はAnonymousDiaryユーザー

という形で網羅しております。

Permalink | 記事への反応(3) | 10:32

■anond:20240605090245

おはよ！

明太子おにぎり、たまに食べるとブっとぶ位美味しくてたまらない・・・・。

それにマヨを足した明太子マヨなんてもうカロリーの暴力！

最近近所におにぎり専門店が出来て結構お安く玄米おにぎりから季節のスペシャルなおにぎりまで買えちゃうからとってもお得。

今日は数か月ぶりにすじこのおにぎりを食べたんだけど、このイクラのおにぎりとはちがった濃厚な味わいがまたなんとも・・・・・。

Permalink | 記事への反応(1) | 10:30

「今日」を含む日記

2024-06-06

■

■anond:20240606075827

■今日のハッタショ増田

2024-06-05

■弱者男性にセクハラされました……

■

■今日は忙種

■今日 めっちゃ くしゃみ出るんだけどなにこれ

■anond:20240603204439

■だからおまえはだめなんだ

■anond:20240605211543

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング