2024年06月05日の日記

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (9)

3.コンピュータの使用

これはおそらく3つの中で最も簡単な方法だ。現在のChatGPTは、基本的に、テキストを入力できる孤立した箱の中に座っている人間のようなものだ。初期のアンホブリング改良では、個々の孤立したツールの使い方をモデルに教えていましたが、マルチモーダルモデルでは、近いうちにこれを一挙にできるようになると期待しています。

つまり、Zoomでの通話に参加したり、オンラインで調べ物をしたり、メッセージや電子メールを送ったり、共有されたドキュメントを読んだり、アプリや開発ツールを使ったりといったことだ。(もちろん、より長いホライゾン・ループでモデルがこれを最大限に活用するためには、テスト時間のコンピューティングをアンロックする必要がある。)

最終的には、ドロップイン・リモートワーカーのようなものができると期待している。エージェントは、あなたの会社に入社し、新しい人間の雇用のようにオンボードされ、Slackであなたや同僚にメッセージを送り、あなたのソフトウェアを使用し、プルリクエストを行い、大きなプロジェクトがあれば、人間が独立してプロジェクトを完了するために数週間留守にするのと同等のことができる。これを実現するためには、GPT-4よりもいくらか優れたベースモデルが必要だろうが、おそらくそれほどでもないだろう。

https://situational-awareness.ai/wp-content/uploads/2024/06/devin.gif

Devinは、完全に自動化されたソフトウェア・エンジニアを作るために、モデル上の「エージェンシー・オーバーハング」／「テストタイム・コンピューティング・オーバハング」を解除する初期のプロトタイプだ。Devinが実際にどの程度機能するかはわからないし、このデモは、適切なチャットボット→エージェントのアンホブリングがもたらすものに比べれば、まだ非常に限定的なものだが、近々登場するもののティーザーとしては役に立つだろう。

ところで、私は、アンホブリングの中心性が、商業的応用という点で、少々興味深い「ソニックブーム」効果につながると期待している。現在とドロップイン・リモートワーカーの中間モデルは、ワークフローを変更し、統合して経済的価値を引き出すためのインフラを構築するために、膨大な手間を必要とする。ドロップイン・リモートワーカーは、統合が劇的に簡単になる。つまり、リモートでできるすべての仕事を自動化するために、ドロップインするだけでいいのだ。つまり、ドロップイン・リモートワーカーが多くの仕事を自動化できるようになる頃には、中間モデルはまだ完全に活用され統合されていないため、生み出される経済価値のジャンプはやや不連続になる可能性がある。

次の4年間

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_gpt2togpt4.png

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_2023to2027.png

GPT-4に先立つ4年間の進歩の原動力と、GPT-4後の4年間に期待されることについての推計のまとめ。

数字をまとめると、GPT-4に続く4年間で、2027年末までにGPT-2から GPT-4規模のジャンプが再び起こると（おおよそ）予想される。

GPT-2から GPT-4は、おおよそ4.5-6 OOMのベースとなる有効なコンピュート・スケールアップ（物理的なコンピュートとアルゴリズムの効率化）であり、それに加えて（ベースモデルからチャットボットへの）大きな「アンホブリング」利益であった。
その後4年間は、3～6OOMのベース実効計算スケールアップ（物理計算とアルゴリズム効率）が期待され、さらに「アンホブリング」（チャットボットからエージェント／ドロップインリモートワーカーへ）によってユーティリティとアプリケーションの段階的変化（～5OOM）がおそらく最良と推測される。

GPT-4のトレーニングに3ヶ月かかったとしよう。2027年には、一流のAI ラボはGPT-4レベルのモデルを1分で訓練できるようになるだろう。OOMの効果的なコンピュート・スケールアップは劇的なものになるだろう。

それは我々をどこへ連れて行くのだろうか？

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_counting_the_ooms.png

OOMのカウントのまとめ。

GPT-2から GPT-4までで、私たちは～未就学児から～賢い高校生になった。とんでもないジャンプだ。もしこれが、私たちが今一度カバーする知能の差だとしたら、それは私たちをどこに連れて行くのだろうか？私たちは、それが私たちをとてもとても遠くに連れていっても驚かないはずだ。おそらく、ある分野の博士や最高の専門家を凌駕するようなモデルまで到達するだろう。

(このことを考える1つの良い方法は、現在のAIの進歩の傾向は、子供の成長のおよそ3倍のペースで進んでいるということだ。あなたの3倍速の子どもは高校を卒業したばかりだが、いつの間にかあなたの仕事を奪っていくだろう！)

続き I.GPT-4からAGIへ：OOMを数える(10) https://anond.hatelabo.jp/20240605211837

Permalink | 記事への反応(1) | 21:03

■anond:20240605205922

やっぱり弱者男性ってセクハラとしてしか肉体関係図々しく求められんのな

Permalink | 記事への反応(2) | 21:03

■anond:20240605144406

重婚を認めるべきだと思う

皇室も側室いないと維持辛いだろうし

Permalink | 記事への反応(0) | 21:03

■

今度東京ディズニーランドに行くんだけどさあ

ディズニーに毛ほども興味がない

ディズニー観てないとかじゃなくて、割と観てる上で興味がない

それでも楽しめる？

Permalink | 記事への反応(2) | 21:02

■I.GPT-4からAGIへ：OOMを数える (8)

チャット ボット から エージェント兼同僚へ

今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか？私が考えるに、3つの重要な要素がある：

1."オンボーディング問題 "の解決

GPT-4は、多くの人の仕事の大部分をこなせるだけの生の賢さを持っているが、それは5分前に現れたばかりの賢い新入社員のようなものだ：関連するコンテキストを持っておらず、会社のドキュメントやSlackの履歴を読んだり、チームのメンバーと会話したり、会社内部のコードベースを理解するのに時間を費やしたりしていない。賢い新入社員は、着任して5分後にはそれほど役に立たないが、1ヶ月後にはかなり役に立つ！例えば、非常に長いコンテクストを通じて、新しい人間の同僚を雇うようにモデルを「オンボード」することは可能なはずだ。これだけでも、大きなアンロックになるだろう。

2.テスト時間の計算オーバーハング（より長いホライズンの問題に対する推論／エラー訂正／システムII）

今のところ、モデルは基本的に短いタスクしかこなせない。しかし、これでは非常に限界がある。5分どころか、数時間、数日、数週間、数ヶ月かかるのだ。

難しい問題について5分間しか考えることができない科学者は、科学的なブレークスルーを起こすことはできない。ソフトウェア・エンジニアは、より大きな仕事を与えられ、計画を立て、コードベースや技術ツールの関連部分を理解し、さまざまなモジュールを書いて段階的にテストし、エラーをデバッグし、可能性のある解決策を検索し、最終的には数週間の仕事の集大成である大規模なプル・リクエストを提出する。などなど。

要するに、テスト時間の計算オーバーハングが大きいのだ。GPT-4の各トークンは、問題を考えるときの内部モノローグの言葉だと考えてください。各GPT-4トークンは非常に賢いのですが、現在のところ、思考の連鎖のために～数百トークンのオーダーしか効果的に使うことができません（あたかも問題やプロジェクトに数分しか内部独白／思考を費やせないかのように）。

もし数百万トークンを使って、本当に難しい問題や大きなプロジェクトについて考え、取り組むことができるとしたらどうだろう？

トークンの数	私が何かに取り組むのに相当する時間...
100s	数分	ChatGPT (私たちはここにいる)
1000s	30分	+1 OOMsテスト時間計算
10,000 回	半日	+2 OOMs
100,000ドル	1週間	+3 OOMs
数百万回	複数月	+4 OOMs

人間が〜100トークン/分で考え、40時間/週働くと仮定して、「モデルが考える時間」をトークンで換算すると、与えられた問題/プロジェクトにおける人間の時間になる。

仮に「トークンあたり」の知能が同じだったとしても、頭のいい人が問題に費やす時間が数分なのか数ヶ月なのかの違いになる。あなたのことは知らないが、私が数ヶ月でできることと数分でできることは、はるかに、はるかに、はるかに多い。もしモデルに「数分ではなく、数カ月に相当する時間、何かを考え、取り組むことができる」という能力を与えることができれば、その能力は飛躍的に向上するだろう。ここには膨大なオーバーハングがある。

今のところ、モデルにはまだこれができない。最近のロング・コンテキストの進歩をもってしても、このロング・コンテキストのほとんどはトークンの消費にしか機能せず、トークンの生産には機能しない。しばらくすると、このモデルはレールから外れたり、行き詰まったりする。しばらくの間、離れて単独で問題やプロジェクトに取り組むことはまだできない。

しかし、テスト時間の計算を解除することは、単に比較的小さな「ホブリングしない」アルゴリズムの勝利の問題かもしれない。おそらく、少量のRLは、モデルがエラー訂正（「うーん、これは正しくないようだ、再確認してみよう」）を学習したり、計画を立てたり、可能性のある解を探索したりするのに役立つだろう。ある意味、モデルはすでに生の能力のほとんどを持っており、それをまとめるために、さらにいくつかのスキルを学習する必要があるだけなのだ。

要するに、私たちはモデルに、困難で見通しの長いプロジェクトを推論させるシステムIIのアウターループのようなものを教えればいいのだ。

この外側のループを教えることに成功すれば、2、3段落の短いチャットボットの答えの代わりに、モデルが問題を考え、ツールを使い、異なるアプローチを試し、研究を行い、仕事を修正し、他の人と調整し、大きなプロジェクトを一人で完成させるような、何百万もの言葉のストリーム（あなたが読むよりも早く入ってくる）を想像してみてほしい。

他のML 領域におけるテスト時間と訓練時間のトレードオフ

続き I.GPT-4からAGIへ：OOMを数える(9) https://anond.hatelabo.jp/20240605210357

Permalink | 記事への反応(1) | 21:02

■anond:20240605205234

なんで？

Permalink | 記事への反応(0) | 21:01

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

■anond:20240605203117

原発停止とかもそうだろな

Permalink | 記事への反応(0) | 20:59

■anond:20240605205511

図々しく肉体関係を求めた時点でセクハラで社会的に死ぬリスクを抱えるし

肉体関係を求める→ホテル行く→やっぱ嫌みたいな事言い出した女を流れで無理やり→はい逮捕

みたいなのも十分有り得るで

セックスはもはやリスクよ

Permalink | 記事への反応(1) | 20:59

■原作改変と言えば

クリスタルセイントの悲劇

思い出してみたら

子供の頃観てたアニメは

改変モリモリだったよなあ

Permalink | 記事への反応(0) | 20:58

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

Permalink | 記事への反応(0) | 20:56

■anond:20240605205359

なんの判例よ

Permalink | 記事への反応(0) | 20:55

■anond:20240605205140

求めても終わらんよ

弱者男性って求めることと、拒否られてるのに無理矢理セックスすることの違いも分からんの？

Permalink | 記事への反応(1) | 20:55

■[今日のワイの餌]

プレミアムガーナショコラカレ香るティーラテ

油淋鶏ソースinファミチキ

2種の特製ソースで食べるチキンオーバーライス

クリームがおいしいふわふわ台湾カステラ

本まぐろ盛り合せお造り

にぎり寿司サーモンハラス揚げ

にぎり寿司かわはぎ

ルマンドアイス

Permalink | 記事への反応(0) | 20:55

■I.GPT-4からAGIへ：OOMを数える (5)

アルゴリズムの効率化

コンピュートへの大規模な投資が注目される一方で、アルゴリズムの進歩も同様に重要な進歩の原動力であると思われる（そして、これまで劇的に過小評価されてきた）。

アルゴリズムの進歩がどれほど大きな意味を持つかを理解するために、MATHベンチマーク（高校生の競技用数学）において、わずか2年間で～50%の精度を達成するために必要な価格が下がったことを示す次の図を考えてみてください。(比較のために、数学が特に好きではないコンピュータサイエンスの博士課程の学生が40%のスコアを出したので、これはすでにかなり良いことです)。推論効率は2年足らずで3OOMs-1,000倍近く向上した。

https://situational-awareness.ai/wp-content/uploads/2024/06/math_inference_cost-1024x819.png

MATHのパフォーマンスを〜50%にするために必要な推論コストの概算。

これは推論効率だけの数字だが（公開データから推論するのが難しいトレーニング効率の向上と一致するかどうかはわからない）、アルゴリズムの進歩は非常に大きく、また実際に起こっている。

この記事では、アルゴリズムの進歩を2種類に分けて説明します。まず、「パラダイム内」でのアルゴリズムの改良を取り上げることにします。例えば、より優れたアルゴリズムによって、同じパフォーマンスを達成しながら、トレーニングの計算量を10倍減らすことができるかもしれません。その結果、有効計算量は10倍（1OOM）になります。(後ほど「アンホブリング」を取り上げますが、これはベースモデルの能力を解き放つ「パラダイム拡張/アプリケーション拡張」的なアルゴリズムの進歩と考えることができます)。

一歩下がって長期的な傾向を見ると、私たちはかなり一貫した割合で新しいアルゴリズムの改良を発見しているようです。しかし、長期的なトレンドラインは予測可能であり、グラフ上の直線である。トレンドラインを信じよう。

アルゴリズム研究がほとんど公開されており、10年前にさかのぼるデータがある）ImageNetでは、2012年から 2021年までの9年間で、計算効率が一貫して約0.5OOM/年向上しています。

https://situational-awareness.ai/wp-content/uploads/2024/06/pareto_frontiers_imagenet_epoch-1024x349.png

アルゴリズムの進歩を測定することができます。同じ性能のモデルを訓練するために必要な計算量は、2012年と比較して2021年にはどれくらい少なくなっているのでしょうか？その結果、アルゴリズムの効率は年間0.5 OOMs/年程度向上していることがわかります。出典Erdil and Besiroglu 2022.

これは非常に大きなことです。つまり、4年後には、～100倍少ない計算量で同じ性能を達成できるということです（同時に、同じ計算量ではるかに高い性能も達成できます！）。

残念ながら、研究室はこれに関する内部データを公表していないため、過去4年間のフロンティアLLMのアルゴリズムの進歩を測定することは難しい。EpochAIは、言語モデリングに関するImageNetの結果を再現した新しい研究を行っており、2012年から 2023年までのLLMのアルゴリズム効率のトレンドは、同様に～0.5OOM/年であると推定しています。(しかし、これはエラーバーが広く、また、主要なラボがアルゴリズム効率の公表を停止しているため、最近の上昇を捕捉していません）。

https://situational-awareness.ai/wp-content/uploads/2024/06/llm_efficiency_epoch-1-1024x711.png

Epoch AIによる言語モデリングにおけるアルゴリズム効率の推定。この試算によると、私たちは8年間で～4OOMの効率向上を達成したことになります。

より直接的に過去4年間を見ると、GPT-2から GPT-3は基本的に単純なスケールアップでした（論文によると）が、GPT-3以降、公に知られ、公に干渉可能な多くの利益がありました：

我々はAPIコストから利益を推測することができる：
- GPT-4がリリースされたときのコストは、性能の絶対的な向上にもかかわらず、GPT-3とほぼ同じだった。(スケーリング法則に基づく素朴で単純化しすぎた見積もりをしてみると、GPT-3から GPT-4への実質的な計算量増加のおよそ半分がアルゴリズムの改善によるものであることがわかります)。
- 1年前のGPT-4のリリース以来、GPT-4レベルのモデルのOpenAIの価格は、GPT-4oのリリースでさらに6倍/4倍(入力/出力)に下がりました。

最近リリースされたGemini 1.5 Flashは、"GPT-3.75レベル "とGPT-4レベルの間の性能を提供する一方で、オリジナルのGPT-4よりも85倍/57倍（入力/出力）安い（驚異的な利益！）。

チンチラ・スケーリング法則は、3倍以上（0.5 OOMs以上）の効率向上をもたらす。
Gemini 1.5 Proは、MoE（Mixture of Experts）をアーキテクチャの変更点として強調し、大幅な計算効率の向上（Gemini 1.0 Ultraを凌駕し、計算量は「大幅に少ない」）を主張している。他の論文でも、MoEによるコンピュートの大幅な倍増が主張されている。
アーキテクチャ、データ、トレーニングスタックなどについては、常に多くの調整と改善が行われている。

公開されている情報を総合すると、GPT-2から GPT-4へのジャンプには、1-2 OOMのアルゴリズム効率向上が含まれていたことになります。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute_algos-1024x866.png

GPT-4に続く4年間はこの傾向が続くと予想され、2027年までに平均0.5OOMs/年の計算効率、つまり GPT-4と比較して～2OOMsの向上が見込まれます。計算効率の向上は、低空飛行の果実を摘み取るようになるにつれて難しくなる一方、新たなアルゴリズムの改良を見出すためのAI ラボの資金と人材への投資は急速に増加しています。 (少なくとも、公開されている推論コストの効率化は、まったく減速していないようだ)。ハイエンドでは、より根本的な、トランスフォーマーのようなブレークスルーが起こり、さらに大きな利益が得られる可能性さえある。

これらをまとめると、2027年末までには（GPT-4と比較して）1～3OOMのアルゴリズム効率向上が期待できることになります。

続き I.GPT-4からAGIへ：OOMを数える(6) https://anond.hatelabo.jp/20240605205754

Permalink | 記事への反応(1) | 20:54

■anond:20240605205249

（考えるのが）めんどくさい

だからなｗ

まあバイトや部活で後輩抱えた経験があれば分かるだろｗ

Permalink | 記事への反応(0) | 20:54

■anond:20240605203117

・服を買い替えず長く着よう。流行を追う必要なんかない

→長期的に見ればアパレル業界で働く人の仕事がなくなる

Permalink | 記事への反応(1) | 20:54

2024年06月05日の日記

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (9)

3.コンピュータの使用

次の4年間

■anond:20240605205922

■anond:20240605144406

■

■anond:20240605210141

■I.GPT-4からAGIへ：OOMを数える (8)

チャット ボット から エージェント兼同僚へ

■anond:20240605205234

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

■anond:20240605203117

■anond:20240605205511

■原作改変と言えば

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

■anond:20240605144619

■anond:20240605205404

■anond:20240605144406

■anond:20240605205359

■anond:20240605205140

■[今日のワイの餌]

■I.GPT-4からAGIへ：OOMを数える (5)

アルゴリズムの効率化

■anond:20240605205249

■anond:20240605203117

■anond:20240605204848

■anond:20240605141004

■anond:20240605204431

■anond:20240605205027