I.GPT-4からAGIへ：OOMを数える (4)

はてな匿名ダイアリー

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (4)

OOMを数える

どうしてこうなった？ディープラーニングの魔法は、それがただ機能するということであり、あらゆる場面で否定的な意見にもかかわらず、その傾向線は驚くほど一貫している。

https://situational-awareness.ai/wp-content/uploads/2024/06/sora_scaling-1024x383.png

OpenAI Soraの例計算量のスケーリングの効果。

効果的な計算のOOMが増えるごとに、モデルは予測通り、確実に良くなっていく。OOMを数えることができれば、能力の向上を（大まかに、定性的に）推定することができる。そうやって、先見の明のある数人がGPT-4の到来を予見したのだ。

GPT-2から GPT-4までの4年間の進歩を、スケールアップの3つのカテゴリーに分解することができる：

1. コンピュート：計算：これらのモデルを訓練するために、より大きなコンピューターを使うようになった。

2.アルゴリズムの効率化：アルゴリズムの進歩には継続的な傾向がある。これらの多くは「コンピュート・マルチプライヤ」として機能し、有効なコンピュート量の増加という統一された尺度に乗せることができます。

3.「趣味のない」利益：デフォルトでは、モデルは多くの素晴らしい生の能力を学習しますが、あらゆる種類の間抜けな方法で足かせとなり、実用的な価値が制限されます。人間のフィードバックからの強化学習（RLHF）、思考の連鎖（CoT）、ツール、足場などの単純なアルゴリズムの改善により、潜在的な能力を大きく引き出すことができる。

これらの軸に沿って、改善の「OOMを数える」ことができる。つまり、有効計算量の単位でそれぞれのスケールアップをトレースするのだ。3倍は0.5OOM、10倍は1OOM、30倍は1.5OOM、100倍は2OOMといった具合だ。2023年から 2027年まで、GPT-4の上に何を期待すべきかを見ることもできる。

ひとつひとつ見ていくが、OOMの数を急速に増やしていることは明らかだ。データの壁には逆風が吹いている可能性があり、それについては後述するが、全体的には、2027年までにGPT-4の上に、GPT-2から GPT-4規模のジャンプがもう1回起こると予想される。

コンピュート

まず、最近の進歩の原動力として最もよく議論されている、モデルへの（大量の）コンピュート投入について説明します。

多くの人は、これは単にムーアの法則によるものだと考えている。しかし、ムーアの法則が全盛期を迎えていた昔でさえ、その進歩は比較的緩やかなものでした。しかし、ムーアの法則が全盛期だった昔でさえ、10年で1～1.5OOMと、比較的ゆっくりとしたスピードだった。(かつては1つのモデルに100万ドルを費やすことさえ、誰も考えもしないことだった。）

モデル	推定コンピュート	成長率
GPT-2 (2019)	~4e21 FLOP
GPT-3 (2020)	~3e23 FLOP +	~2 OOMs
GPT-4 (2023)	8e24～4e25 FLOP +	~1.5～2 OOMs

エポック AIによるGPT-2から GPT-4までの計算量の推定値

エポック AI（AI トレンドの優れた分析で広く尊敬されている情報源）の公開推定値を使用して、2019年から 2023年までのコンピュートスケールアップを追跡することができます。GPT-2から GPT-3へのスケールアップは迅速で、小規模な実験から大規模な言語モデルを訓練するためにデータセンター全体を使用するまでにスケールアップし、コンピュートのオーバーハングが大きくなりました。GPT-3から GPT-4へのスケールアップでは、次のモデルのためにまったく新しい（はるかに大きな）クラスタを構築しなければならないという、最新の体制に移行しました。それでも劇的な成長は続いています。エポック AIの試算によると、GPT-4のトレーニングでは、GPT-2の3,000倍から 10,000倍の計算量を使用しています。

大雑把に言えば、これは長期的なトレンドの継続に過ぎない。過去 10年半の間、主に投資（およびGPUやTPUの形でAIワークロードに特化したチップ）の幅広いスケールアップのため、フロンティア AI システムに使用されるトレーニング計算量は、およそ〜0.5OOM/年で成長してきた。

https://situational-awareness.ai/wp-content/uploads/2024/06/compute_long_run_trend-1024x968.png

注目すべきディープラーニング・モデルのトレーニング・コンピュートの経年変化。出典エポック AI

GPT-2から GPT-3への1年間のスケールアップは異例のオーバーハングであったが、長期的なトレンドが続くことは間違いない。SF-rumor-millは、巨額のGPU受注の劇的な話で一杯だ。その投資は並大抵のものではないが、動き始めている。

この分析によれば、2027年末までにさらに2OOMsのコンピュート（数十億ドル規模のクラスター）が実現する可能性は非常に高いと思われる。さらに＋3OOMsのコンピュート（1,000億ドル規模以上）に近いクラスターも可能性がありそうだ（マイクロソフト／OpenAIで計画中と噂されている）。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute-1024x866.png

続き I.GPT-4からAGIへ：OOMを数える(5) https://anond.hatelabo.jp/20240605205449

Permalink | 記事への反応(1) | 20:50

記事への反応 -

I.GPT-4からAGIへ：OOMを数える (9)
3.コンピュータの使用これはおそらく3つの中で最も簡単な方法だ。現在のChatGPTは、基本的に、テキストを入力できる孤立した箱の中に座っている人間のようなものだ。初期のアンホブ...
- I.GPT-4からAGIへ：OOMを数える (8)
  チャットボットからエージェント兼同僚へ今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか？私が考えるに、3つの重要な要素がある： 1."オンボーディング...
  - I.GPT-4からAGIへ：OOMを数える (7)
    アンホブリング最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に...
    - I.GPT-4からAGIへ：OOMを数える (6)
      データの壁これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なア...
      - I.GPT-4からAGIへ：OOMを数える (5)
        アルゴリズムの効率化コンピュートへの大規模な投資が注目される一方で、アルゴリズムの進歩も同様に重要な進歩の原動力であると思われる（そして、これまで劇的に過小評価され...
        I.GPT-4からAGIへ：OOMを数える (4)
        OOMを数えるどうしてこうなった？ディープラーニングの魔法は、それがただ機能するということであり、あらゆる場面で否定的な意見にもかかわらず、その傾向線は驚くほど一貫して...
        I.GPT-4からAGIへ：OOMを数える (3)
        ディープラーニングのトレンド過去10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは...
        I.GPT-4からAGIへ：OOMを数える (2)
        この4年間私たちは今、基本的に人間のように会話できるマシンを手にしている。これが普通に思えるのは、人間の適応能力の驚くべき証であり、私たちは進歩のペースに慣れてしまっ...
        状況認識：今後10年の展望 -- はじめに
        X (twitter) で SITUATIONAL AWARENESS: The Decade Ahead https://situational-awareness.ai/ というのが回ってきて非常に示唆に富むものだったので、DeepL (無料版 API経由) で訳してみた。レオポルド・アッシェ...
        I.GPT-4からAGIへ：OOMを数える (1)
        2027年までにAGIが実現する可能性は極めて高い。GPT-2からGPT-4までの4年間で、私たちは〜未就学児から〜賢い高校生までの能力を手に入れた。計算能力（～0.5桁またはOOMs/年）、アルゴリズ...