これはおそらく3つの中で最も簡単な方法だ。現在のChatGPTは、基本的に、テキストを入力できる孤立した箱の中に座っている人間のようなものだ。初期のアンホブリング改良では、個々の孤立したツールの使い方をモデルに教えていましたが、マルチモーダルモデルでは、近いうちにこれを一挙にできるようになると期待しています。

つまり、Zoomでの通話に参加したり、オンラインで調べ物をしたり、メッセージや電子メールを送ったり、共有されたドキュメントを読んだり、アプリや開発ツールを使ったりといったことだ。(もちろん、より長いホライゾン・ループでモデルがこれを最大限に活用するためには、テスト時間のコンピューティングをアンロックする必要がある。)

最終的には、ドロップイン・リモートワーカーのようなものができると期待している。エージェントは、あなたの会社に入社し、新しい人間の雇用のようにオンボードされ、Slackであなたや同僚にメッセージを送り、あなたのソフトウェアを使用し、プルリクエストを行い、大きなプロジェクトがあれば、人間が独立してプロジェクトを完了するために数週間留守にするのと同等のことができる。これを実現するためには、GPT-4よりもいくらか優れたベースモデルが必要だろうが、おそらくそれほどでもないだろう。

https://situational-awareness.ai/wp-content/uploads/2024/06/devin.gif

Devinは、完全に自動化されたソフトウェア・エンジニアを作るために、モデル上の「エージェンシー・オーバーハング」／「テストタイム・コンピューティング・オーバハング」を解除する初期のプロトタイプだ。Devinが実際にどの程度機能するかはわからないし、このデモは、適切なチャットボット→エージェントのアンホブリングがもたらすものに比べれば、まだ非常に限定的なものだが、近々登場するもののティーザーとしては役に立つだろう。

ところで、私は、アンホブリングの中心性が、商業的応用という点で、少々興味深い「ソニックブーム」効果につながると期待している。現在とドロップイン・リモートワーカーの中間モデルは、ワークフローを変更し、統合して経済的価値を引き出すためのインフラを構築するために、膨大な手間を必要とする。ドロップイン・リモートワーカーは、統合が劇的に簡単になる。つまり、リモートでできるすべての仕事を自動化するために、ドロップインするだけでいいのだ。つまり、ドロップイン・リモートワーカーが多くの仕事を自動化できるようになる頃には、中間モデルはまだ完全に活用され統合されていないため、生み出される経済価値のジャンプはやや不連続になる可能性がある。

次の4年間

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_gpt2togpt4.png

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_2023to2027.png

GPT-4に先立つ4年間の進歩の原動力と、GPT-4後の4年間に期待されることについての推計のまとめ。

数字をまとめると、GPT-4に続く4年間で、2027年末までにGPT-2から GPT-4規模のジャンプが再び起こると（おおよそ）予想される。

GPT-2から GPT-4は、おおよそ4.5-6 OOMのベースとなる有効なコンピュート・スケールアップ（物理的なコンピュートとアルゴリズムの効率化）であり、それに加えて（ベースモデルからチャットボットへの）大きな「アンホブリング」利益であった。
その後4年間は、3～6OOMのベース実効計算スケールアップ（物理計算とアルゴリズム効率）が期待され、さらに「アンホブリング」（チャットボットからエージェント／ドロップインリモートワーカーへ）によってユーティリティとアプリケーションの段階的変化（～5OOM）がおそらく最良と推測される。

GPT-4のトレーニングに3ヶ月かかったとしよう。2027年には、一流のAI ラボはGPT-4レベルのモデルを1分で訓練できるようになるだろう。OOMの効果的なコンピュート・スケールアップは劇的なものになるだろう。

それは我々をどこへ連れて行くのだろうか？

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_counting_the_ooms.png

OOMのカウントのまとめ。

GPT-2から GPT-4までで、私たちは～未就学児から～賢い高校生になった。とんでもないジャンプだ。もしこれが、私たちが今一度カバーする知能の差だとしたら、それは私たちをどこに連れて行くのだろうか？私たちは、それが私たちをとてもとても遠くに連れていっても驚かないはずだ。おそらく、ある分野の博士や最高の専門家を凌駕するようなモデルまで到達するだろう。

(このことを考える1つの良い方法は、現在のAIの進歩の傾向は、子供の成長のおよそ3倍のペースで進んでいるということだ。あなたの3倍速の子どもは高校を卒業したばかりだが、いつの間にかあなたの仕事を奪っていくだろう！)

続き I.GPT-4からAGIへ：OOMを数える(10) https://anond.hatelabo.jp/20240605211837

Permalink | 記事への反応(1) | 21:03

■I.GPT-4からAGIへ：OOMを数える (8)

チャット ボット から エージェント兼同僚へ

今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか？私が考えるに、3つの重要な要素がある：

1."オンボーディング問題 "の解決

GPT-4は、多くの人の仕事の大部分をこなせるだけの生の賢さを持っているが、それは5分前に現れたばかりの賢い新入社員のようなものだ：関連するコンテキストを持っておらず、会社のドキュメントやSlackの履歴を読んだり、チームのメンバーと会話したり、会社内部のコードベースを理解するのに時間を費やしたりしていない。賢い新入社員は、着任して5分後にはそれほど役に立たないが、1ヶ月後にはかなり役に立つ！例えば、非常に長いコンテクストを通じて、新しい人間の同僚を雇うようにモデルを「オンボード」することは可能なはずだ。これだけでも、大きなアンロックになるだろう。

2.テスト時間の計算オーバーハング（より長いホライズンの問題に対する推論／エラー訂正／システムII）

今のところ、モデルは基本的に短いタスクしかこなせない。しかし、これでは非常に限界がある。5分どころか、数時間、数日、数週間、数ヶ月かかるのだ。

難しい問題について5分間しか考えることができない科学者は、科学的なブレークスルーを起こすことはできない。ソフトウェア・エンジニアは、より大きな仕事を与えられ、計画を立て、コードベースや技術ツールの関連部分を理解し、さまざまなモジュールを書いて段階的にテストし、エラーをデバッグし、可能性のある解決策を検索し、最終的には数週間の仕事の集大成である大規模なプル・リクエストを提出する。などなど。

要するに、テスト時間の計算オーバーハングが大きいのだ。GPT-4の各トークンは、問題を考えるときの内部モノローグの言葉だと考えてください。各GPT-4トークンは非常に賢いのですが、現在のところ、思考の連鎖のために～数百トークンのオーダーしか効果的に使うことができません（あたかも問題やプロジェクトに数分しか内部独白／思考を費やせないかのように）。

もし数百万トークンを使って、本当に難しい問題や大きなプロジェクトについて考え、取り組むことができるとしたらどうだろう？

トークンの数	私が何かに取り組むのに相当する時間...
100s	数分	ChatGPT (私たちはここにいる)
1000s	30分	+1 OOMsテスト時間計算
10,000 回	半日	+2 OOMs
100,000ドル	1週間	+3 OOMs
数百万回	複数月	+4 OOMs

人間が〜100トークン/分で考え、40時間/週働くと仮定して、「モデルが考える時間」をトークンで換算すると、与えられた問題/プロジェクトにおける人間の時間になる。

仮に「トークンあたり」の知能が同じだったとしても、頭のいい人が問題に費やす時間が数分なのか数ヶ月なのかの違いになる。あなたのことは知らないが、私が数ヶ月でできることと数分でできることは、はるかに、はるかに、はるかに多い。もしモデルに「数分ではなく、数カ月に相当する時間、何かを考え、取り組むことができる」という能力を与えることができれば、その能力は飛躍的に向上するだろう。ここには膨大なオーバーハングがある。

今のところ、モデルにはまだこれができない。最近のロング・コンテキストの進歩をもってしても、このロング・コンテキストのほとんどはトークンの消費にしか機能せず、トークンの生産には機能しない。しばらくすると、このモデルはレールから外れたり、行き詰まったりする。しばらくの間、離れて単独で問題やプロジェクトに取り組むことはまだできない。

しかし、テスト時間の計算を解除することは、単に比較的小さな「ホブリングしない」アルゴリズムの勝利の問題かもしれない。おそらく、少量のRLは、モデルがエラー訂正（「うーん、これは正しくないようだ、再確認してみよう」）を学習したり、計画を立てたり、可能性のある解を探索したりするのに役立つだろう。ある意味、モデルはすでに生の能力のほとんどを持っており、それをまとめるために、さらにいくつかのスキルを学習する必要があるだけなのだ。

要するに、私たちはモデルに、困難で見通しの長いプロジェクトを推論させるシステムIIのアウターループのようなものを教えればいいのだ。

この外側のループを教えることに成功すれば、2、3段落の短いチャットボットの答えの代わりに、モデルが問題を考え、ツールを使い、異なるアプローチを試し、研究を行い、仕事を修正し、他の人と調整し、大きなプロジェクトを一人で完成させるような、何百万もの言葉のストリーム（あなたが読むよりも早く入ってくる）を想像してみてほしい。

他のML 領域におけるテスト時間と訓練時間のトレードオフ

続き I.GPT-4からAGIへ：OOMを数える(9) https://anond.hatelabo.jp/20240605210357

Permalink | 記事への反応(1) | 21:02

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

■I.GPT-4からAGIへ：OOMを数える (4)

OOMを数える

どうしてこうなった？ディープラーニングの魔法は、それがただ機能するということであり、あらゆる場面で否定的な意見にもかかわらず、その傾向線は驚くほど一貫している。

https://situational-awareness.ai/wp-content/uploads/2024/06/sora_scaling-1024x383.png

OpenAI Soraの例計算量のスケーリングの効果。

効果的な計算のOOMが増えるごとに、モデルは予測通り、確実に良くなっていく。OOMを数えることができれば、能力の向上を（大まかに、定性的に）推定することができる。そうやって、先見の明のある数人がGPT-4の到来を予見したのだ。

GPT-2から GPT-4までの4年間の進歩を、スケールアップの3つのカテゴリーに分解することができる：

1. コンピュート：計算：これらのモデルを訓練するために、より大きなコンピューターを使うようになった。

2.アルゴリズムの効率化：アルゴリズムの進歩には継続的な傾向がある。これらの多くは「コンピュート・マルチプライヤ」として機能し、有効なコンピュート量の増加という統一された尺度に乗せることができます。

3.「趣味のない」利益：デフォルトでは、モデルは多くの素晴らしい生の能力を学習しますが、あらゆる種類の間抜けな方法で足かせとなり、実用的な価値が制限されます。人間のフィードバックからの強化学習（RLHF）、思考の連鎖（CoT）、ツール、足場などの単純なアルゴリズムの改善により、潜在的な能力を大きく引き出すことができる。

これらの軸に沿って、改善の「OOMを数える」ことができる。つまり、有効計算量の単位でそれぞれのスケールアップをトレースするのだ。3倍は0.5OOM、10倍は1OOM、30倍は1.5OOM、100倍は2OOMといった具合だ。2023年から 2027年まで、GPT-4の上に何を期待すべきかを見ることもできる。

ひとつひとつ見ていくが、OOMの数を急速に増やしていることは明らかだ。データの壁には逆風が吹いている可能性があり、それについては後述するが、全体的には、2027年までにGPT-4の上に、GPT-2から GPT-4規模のジャンプがもう1回起こると予想される。

コンピュート

まず、最近の進歩の原動力として最もよく議論されている、モデルへの（大量の）コンピュート投入について説明します。

多くの人は、これは単にムーアの法則によるものだと考えている。しかし、ムーアの法則が全盛期を迎えていた昔でさえ、その進歩は比較的緩やかなものでした。しかし、ムーアの法則が全盛期だった昔でさえ、10年で1～1.5OOMと、比較的ゆっくりとしたスピードだった。(かつては1つのモデルに100万ドルを費やすことさえ、誰も考えもしないことだった。）

モデル	推定コンピュート	成長率
GPT-2 (2019)	~4e21 FLOP
GPT-3 (2020)	~3e23 FLOP +	~2 OOMs
GPT-4 (2023)	8e24～4e25 FLOP +	~1.5～2 OOMs

エポック AIによるGPT-2から GPT-4までの計算量の推定値

エポック AI（AI トレンドの優れた分析で広く尊敬されている情報源）の公開推定値を使用して、2019年から 2023年までのコンピュートスケールアップを追跡することができます。GPT-2から GPT-3へのスケールアップは迅速で、小規模な実験から大規模な言語モデルを訓練するためにデータセンター全体を使用するまでにスケールアップし、コンピュートのオーバーハングが大きくなりました。GPT-3から GPT-4へのスケールアップでは、次のモデルのためにまったく新しい（はるかに大きな）クラスタを構築しなければならないという、最新の体制に移行しました。それでも劇的な成長は続いています。エポック AIの試算によると、GPT-4のトレーニングでは、GPT-2の3,000倍から 10,000倍の計算量を使用しています。

大雑把に言えば、これは長期的なトレンドの継続に過ぎない。過去 10年半の間、主に投資（およびGPUやTPUの形でAIワークロードに特化したチップ）の幅広いスケールアップのため、フロンティア AI システムに使用されるトレーニング計算量は、およそ〜0.5OOM/年で成長してきた。

https://situational-awareness.ai/wp-content/uploads/2024/06/compute_long_run_trend-1024x968.png

注目すべきディープラーニング・モデルのトレーニング・コンピュートの経年変化。出典エポック AI

GPT-2から GPT-3への1年間のスケールアップは異例のオーバーハングであったが、長期的なトレンドが続くことは間違いない。SF-rumor-millは、巨額のGPU受注の劇的な話で一杯だ。その投資は並大抵のものではないが、動き始めている。

この分析によれば、2027年末までにさらに2OOMsのコンピュート（数十億ドル規模のクラスター）が実現する可能性は非常に高いと思われる。さらに＋3OOMsのコンピュート（1,000億ドル規模以上）に近いクラスターも可能性がありそうだ（マイクロソフト／OpenAIで計画中と噂されている）。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute-1024x866.png

続き I.GPT-4からAGIへ：OOMを数える(5) https://anond.hatelabo.jp/20240605205449

Permalink | 記事への反応(1) | 20:50

■I.GPT-4からAGIへ：OOMを数える (1)

2027年までにAGIが実現する可能性は極めて高い。GPT-2から GPT-4までの4年間で、私たちは〜未就学児から〜賢い高校生までの能力を手に入れた。計算能力（～0.5桁またはOOMs/年）、アルゴリズム効率（～0.5OOMs/年）、および「趣味のない」向上（チャットボットからエージェントへ）のトレンドラインをトレースすると、2027年までに再び未就学児から高校生規模の質的ジャンプが起こると予想される。

この記事では
過去4年間
- GPT-2から GPT-4へ
- ディープラーニングのトレンド
OOMのカウント
- コンピュート
- アルゴリズム効率
  - データの壁
- アンホブリング
  - チャットボットからエージェント・コワーカーへ
次の4年
- 補遺 OOMを駆け抜けるこの10年か、それとも破綻か

見て。モデルたちはただ学びたいだけなんだ。あなたはこれを理解しなければならない。モデルたちは、ただ学びたいだけなんだ。

イリヤ・スーツケバー（2015年頃、ダリオ・アモデイ経由）

GPT-4の能力は、多くの人に衝撃を与えた。コードやエッセイを書くことができ、難しい数学の問題を推論し、大学の試験を突破することができるAI システムである。数年前までは、これらは難攻不落の壁だと思っていた。

しかしGPT-4は、ディープラーニングにおける10年間の猛烈な進歩の延長線上にあった。その10年前、モデルは犬猫の単純な画像を識別するのがやっとだった。4年前、GPT-2は半可通な文章をつなぎ合わせるのがやっとだった。今、私たちは思いつく限りのベンチマークを急速に飽和させつつある。しかし、この劇的な進歩は、ディープラーニングのスケールアップにおける一貫した傾向の結果に過ぎない。

ずっと以前から、このことを見抜いていた人々がいた。彼らは嘲笑されたが、彼らがしたのはトレンドラインを信じることだけだった。トレンドラインは強烈で、彼らは正しかった。モデルはただ学びたいだけなのだ。

私は次のように主張する。2027年までには、モデルがAIの研究者やエンジニアの仕事をこなせるようになるだろう、と。SFを信じる必要はなく、グラフ上の直線を信じるだけでいいのだ。

https://situational-awareness.ai/wp-content/uploads/2024/06/base_scaleup-1024x790.png

過去と将来の有効計算量（物理計算量とアルゴリズム効率の両方）の大まかな見積もり。モデルをスケールアップすればするほど、モデルは一貫して賢くなり、"OOMを数える "ことによって、（近い）将来に期待されるモデルのインテリジェンスの大まかな感覚を得ることができます。(このグラフはベースモデルのスケールアップのみを示している。）

この記事で取り上げた一般的な推定に基づく、効果的な計算（物理的な計算とアルゴリズムの効率の両方）の過去と将来のスケールアップの概算。モデルをスケールアップするにつれ、モデルは一貫して賢くなり、「OOMを数える」ことで、（近い）将来に期待されるモデルのインテリジェンスの大まかな感覚を得ることができる。(このグラフはベースモデルのスケールアップのみを示している。"unobblings "は描かれていない)。

この作品では、単純に「OOMを数える」(OOM = order of magnitude、10x = 1 order of magnitude)ことにします。1)計算、2)アルゴリズム効率(「効果的な計算」の成長として考えることができるアルゴリズムの進歩)、3)「アンホブリング」(モデルがデフォルトで足かせとなっている明らかな方法を修正し、潜在的な能力を引き出し、ツールを与えることで、有用性を段階的に変化させること)の傾向を見ます。GPT-4以前の4年間と、GPT-4後の2027年末までの4年間に期待されるそれぞれの成長を追跡する。ディープラーニングが効率的な計算のすべてのOOMで一貫して向上していることを考えると、将来の進歩を予測するためにこれを使うことができる。

世間では、GPT-4のリリースから1年間、次世代モデルがオーブンに入ったままであったため、ディープラーニングは停滞し、壁にぶつかっていると宣言する人もいた。しかし、OOMをカウントすることで、私たちは実際に何を期待すべきかを垣間見ることができる。

結果は非常にシンプルだ。GPT-2から GPT-4への移行は、時々まとまりのある文章を並べることに感動的だったモデルから、高校入試のエースになるモデルへの移行であり、一度だけの進歩ではない。私たちはOOMsを極めて急速に克服しており、その数値は、4年以上かけてGPT-2から GPT-4への質的なジャンプをさらに～100,000倍の効果的なコンピュート・スケールアップが期待できることを示している。さらに、決定的なことは、それは単にチャットボットの改良を意味しないということだ。"unhobbling "利益に関する多くの明らかな低空飛行の果実を選ぶことで、チャットボットからエージェントへ、ツールからドロップイン・リモートワーカーの代替のようなものへと我々を導いてくれるはずだ。

推論は単純だが、その意味するところは注目に値する。このような別のジャンプは、私たちをAGIに、博士号や同僚として私たちのそばで働くことができる専門家と同じくらい賢いモデルに連れて行く可能性が非常に高い。おそらく最も重要なことは、これらのAI システムがAI 研究そのものを自動化することができれば、次回のテーマである強烈なフィードバック・ループが動き出すということである。

現在でも、このようなことを計算に入れている人はほとんどいない。しかし、AIに関する状況認識は、一歩下がってトレンドを見てみれば、実はそれほど難しいことではない。AIの能力に驚き続けるなら、OOMを数え始めればいい。

続き I.GPT-4からAGIへ：OOMを数える (2) https://anond.hatelabo.jp/20240605204240

Permalink | 記事への反応(1) | 20:38

■クールジャパンは無駄遣い説

政府が「クールジャパン」なんてスローガンに大金をつぎ込むのは、税金の無駄遣いではねーのか。

まずさ、これって結局、政治家たちの「なんか日本らしいもん」で注目集めようっていう浅はかな発想から来てるわけでしょ。アニメやマンガ、Jポップ、これが日本の代表文化っていうのは分かるけど、これを国家プロジェクトにするってどうなの？

文化ってのは自然に育つもんだろ。お金をかけて無理やり「クール」の看板を背負わせようとするなんて、本末転倒もいいところだ。

「クールジャパンが世界に日本の魅力を広める」って言うお題目があるわけだけど、それって実際どうなの？海外の人たちは日本のアニメやマンガを愛してくれるけど、だからってそのために税金をつぎ込む必要があるかって話。

何より、このクールジャパンにかかる予算が一体どこに消えてるのか、ちゃんと見えてこない。具体的な成果もあやふやなまま、「なんとなく効果があるから」「金の使い道として文句を言われづらいから」って理由で予算がどんどん使われる。これって、ただの利権の温床じゃないのか？特定の企業や団体がその予算をかすめ取って、結局は国民のためになってないなんてこと、よくある話だ。

もう一つ、クールジャパンなんて政府が決めるもんじゃない。文化は下から湧き上がるもんであって、上から押し付けられるもんじゃない。だから、政府が「クールジャパン」に大金を注ぎ込むのは、本質的に間違ってるんだよ。もっと現場のクリエイターたちを直接支援するとか、文化が自然に育つ環境を整えるとか、やり方はいくらでもあるはずなんじゃねーの。

結局のところ、クールジャパンってのは、政府が自分たちの無能を隠すための一時的な流行作成に過ぎない。税金をもっと有効に使ってくれよ。教育、福祉、インフラ整備、やることはいくらでもあるんだからさ。

Permalink | 記事への反応(3) | 19:29

■やっぱ子育ては損得じゃん

前子育ては損得か否かで増田とはてぶが荒れてたことがあるけど

子育て支援をいくら充実させても少子化には全く効果がないって結果出てるんだよな

つまり子育て支援で拡充された分は二人目以降ではなく一人の子供につぎ込まれてたってこと

費用対効果を上げるために少ない対象により投資するわけだ

やっぱ子育てって損得じゃん

Permalink | 記事への反応(1) | 18:51

■anond:20240605091903

日本は結婚が減っているだけで、結婚した家庭の出産数は実はそれほど減ってないんだよな

子育て支援なんかより

よほど婚活支援の方が効果的だろう

もちろん離婚したりするかもしれないが

そっから先は福祉の仕事だしな

Permalink | 記事への反応(0) | 16:09

■anond:20240605091903

別に東京都がマッチングアプリを作っても良いけど、少子化の原因と対策は複合的だから、別の面にも目を向けないと意味がないだろう。

未婚率の上昇は意識の変化が関係しているだろうし、経済的な不安も未来を悲観させる。仕事と家庭の両立の難しさはどんどん明らかになっているし、特に都会では住宅問題もある。将来的な育児や教育費の増大も、子どもを産むことを躊躇わせる。

そうすると、マッチングアプリがカバーし得るのは、未婚率へのわずかな効果の部分。ないよりはマシだと思うけど、他に「経済支援の強化」「労働環境の改善」「住環境の整備」「教育費の削減」「結婚や出産に対する社会的に支援」「育児休暇等の充実」みたいな対策も考えられる。

これらを複合的にみたうえで、「少子化対策7つの柱」みたいなキャッチーさで理解を促進して、その一環としてマッチングアプリが出てくれば、世の中の反応も違ったものになるだろう。

Permalink | 記事への反応(1) | 13:42

■anond:20240605102120

実質賃金が下がるってのは、給料を上げても効果が減るって意味なのに、下げてどうするｗ

マクロで見る場合とミクロで見る場合は違うよね

マクロで見た場合、名目賃金の賃上げは物価転嫁を引き起こして物価高を生じ、結果的に「実質賃金＝名目賃金÷物価」の値が低下する

政府はマクロで支援できるのだから、「賃上げすれば経済回復！」なんて嘘をつくのをやめればいい

Permalink | 記事への反応(1) | 10:24

■anond:20240605102000

実質賃金が下がるってのは、給料を上げても効果が減るって意味なのに、下げてどうするｗ

おもしろすぎるなおまえの会社ｗ算数できない社長とかそりゃ社員やめるわｗ

Permalink | 記事への反応(1) | 10:21

■

ニアミス効果

原始時代より前を想像する…人間の祖先が樹上生活をしている。若い個体が果物を取ろうとするが、足場の先にあって少しだけ届かない。手を思い切り伸ばすと、人差し指の第二関節まで触れた！あと少しだ、もう一度！……

今はかつての時代よりはるかに複雑になっていて、知らなければ容易に絡め取られる罠がそこかしこにある……スロットマシンの当たるか否かはレバーを引いた瞬間に決まっているのが当然だ……これはプログラミングの経験からそうだと思っている……回っている途中で決めるなんて複雑すぎる……つまり、当たりと演出は別である

そう考えてなければ、演出が当たりへの道筋に見える。

Permalink | 記事への反応(0) | 09:35

■anond:20240605091903

普通に既存の相談所に登録するのに補助金でも出した方が効果高いだろ

Permalink | 記事への反応(0) | 09:21

■

東京都のマッチングアプリに対し、少子化対策に子育て支援だけを求める人々から非難轟々だが

個人的にはやっと本質的な少子化対策が出てきたって思うし、

もっと早くやって欲しかったわ

10年前にこれがあれば(まぁその場合『アプリ』ではなかっただろうけれど)、自分は結婚できていたかもしれない……本当に遅いよ

これで目に見えて効果が出たら、否定している人達はどういう態度を取る気だろう？

まぁ、今からでは「少子化対策」としてはとっくに手遅れだから成果は出ないと思うけれど

それはマッチングアプリという手段が悪い訳ではなく、既に若年人口自体が減るフェーズに入っているからであって

マッチングアプリはどう考えても少子化対策としては「子育て支援」よりは有意義だと思うよ

少子化の一番の原因は未婚率の上昇だという事実にはけして目を向けず、子育て支援ばかりを際限なく求める人々がこの国を駄目にした

(追記)

ブコメでなんでか男にされてるみたいだけど、私は女ですが。

女だからこそ自分自身の年齢に対して諦めるしかないんだよ。

もしも男だったら、諦めずに若い女狙いで突撃してたんじゃゃない？知らんけど。

子育て支援、子持ち優遇の皺寄せを受けて苦しんでるのって明らかに女性の方が多いしXでの愚痴も女の方が多いのに、何故か男にされる不思議。

Permalink | 記事への反応(47) | 09:19

■モテ論争だかなんだか知らんが

結局どうすればモテんだかわかんねえだろこれじゃあよ〜！！！！

とキレキレになったので自分なりにまとめてみたぞ！！！！！！！

▼そもそもゴールはどこか？

モテる、彼女を作るといっても

・誰でもいいからヤッてみたい（その状態を維持したい）

・心から安心していられる一生のパートナーがほしい

ではやるべきことが全然違ってくる

ここをごっちゃにしたままだから、「人として見ろ」と「ヤリチンは人として見なくても大丈夫じゃん。人としてみるとか綺麗事」が錯綜してしまうのである。(まあ元ヤリチンが一生のパートナーを得ている場合もあるが、希であると思う。大体映画の愚行録で殺された夫婦みたいになりがちだ)

というわけで、まずゴールを決めよう

この時非モテは努力するのが苦しいあまり「いつでもいっぱいヤレて一生安心できるパートナーがほしい！見た目も超タイプで！」とか求めだしてしまう

しかし普通は全部一気には無理なので、「まずはつきあえたらいいな」とか「ヤリまくるのは無理でも心の繋がりが持てたら」とか「性格が最悪で多少歳いって太っててもいいからせめて顔は死守したい…」とか決めてスモールステップするといい

▼ゴールが決まったら、ここからアプローチ方法を考えていく

・ヤリたい、とりあえず経験として異性とつきあってみたい派

→ガワから入るといい。一般的にモテる動作、話し方、ファッション、友達作りなど頑張るといい。自分はあまり好きではないが、ここにおいては恋愛工学も有用かもしれない。

こういう恋人作りを批判する人もいるだろうが、女でも「寂しいし誰でもいいから彼氏欲しい」タイプは存在するので、そういう相手とマッチングする分にはなんら問題ないと思う。

・ある程度長期的なパートナーがほしい派（または上記方法でうまくいかない時）→自己分析のターンに入る

▼自己分析のターン

パートナーがほしい！となった時に重要になるのが、「自分は相手から何が欲しいのか？」「自分は何を相手にあげられるか？」という分析である

・何が欲しいのか

個人的には「可愛がられたい」か「可愛がりたい」かで分けるとわかりやすいと思う

自分を取り繕えない、嘘つけない、よく見せることに罪悪感のあるタイプは大抵「可愛がられたい」だ。とにかくありのまま受け入れられたい。

そういうタイプが探すべきは「懐の深い」「情にあつい」「優しい」「偏見の少ない」タイプだ。

一方で「可愛がりたい」タイプはターゲットにできる層が厚い。可愛い！と思うタイプが広ければ広いほど枠は広がる。ただ可愛い！と思うタイプが一般的な美少女とかモデルとか倍率が高いものになると途端に厳しくなるのでご注意。

自分は可愛がられたい/可愛がりたいからこの辺のタイプがよさそ〜とわかったら次は「何をあげられるか？」を考えよう。

・何をあげられるか

恋愛とはお互いがwinの状態になって初めて成り立つものである。「自分と付き合うことで相手にどんな益が生まれるのか？」を考え提供しなければまず成功はしない。

ここで「そんなん金があればいいんだろ！」となって稼ぐことに必死になってしまう人は大抵モテない。女は金だけで釣られるわけではない。大体金だけで釣られる女がきても嬉しくないだろう。（そんなこんなで医者の知り合いは合コンで身分を隠すようになってしまった）

俺みたいな非モテ、益なんて与えられねー！金くらいしかない！と思ってしまう人もいるかもしれないが、落ち着いて考えて欲しい。世の中、当たり前にあるものが実は宝だったりする。

例えば、のんびりしたおおらかな性格なら「リラックスした穏やかな時間」をあげられる。

キチっとした性格なら「整理整頓されたスマートな生活」を提供できる

映画オタクだったら「映画の豊富な知識」。料理好きなら「美味しいもの」などなど…本当に小さくてもいいので「これならちょっとはあげられる」というものを見つけてみよう。卑屈にならず長所を見つけまくろう。

そうすると多少見えてくるはずだ。

おおらかな人なら、ちょっと気難しいタイプや気が強いタイプに必要とされそう

キチっとした人なら、そういうのに憧れるズボラなタイプに必要とされそう

映画オタクだったら、芸術好きで好奇心旺盛なタイプに必要とされそう

料理好きなら、食べるの好きなタイプに必要とされそう

のようなような

そこまでわかったらあとはトライである。

そういう子がいそうな場所に行くのだ。もしくはマッチングアプリでそういうタイプを探すのだ。

(恋愛目当てに行くなんて社会人サークル荒らしみたいでイヤッ！という方はマチアプ全力投球で頑張るのもあり)

そしてようやくここ…っ

ようやくここから「相手に人として接する」が始まる！！！！（パンパカパー）

結局人としてってどゆことやねんであるが、簡単にいうと「その人個人として見る」ということである。

女は（誰でもいいけど付き合いたい勢を除き）基本、体目当てで寄ってこられて消費されるのを嫌う。「女なら誰でもいい」系の男は相当アウトローな魅力がない限り蛇蝎のごとく嫌われる。

その辺わからず「かわいいから〜」「好みだから〜」というテンションで最初から異性として意識してまーす！という匂い漂わせ近づくと「こいつ顔と体しか見てねえだろ！」と思われ嫌悪感を持たれてしまうのである。

だからあれだな、「人としてみる」は「女として見すぎない」でもある。

いきなり向けられる好意は、それがもし純粋なものだとしても、女性側からしてみたら「なんで話もしてないのにこんなに好いて来るの？」→「顔と体で寄ってきたんじゃないか？」と不信感を抱かせる。

なのでまあ、しっかり関係を構築したいなら、初手から好意を見せるのは悪手である。どんなに見た目がタイプでアタックしたくても、まずは相手の中身、パーソナルについて触れていく方が勝率が高い。

が！！！パーソナルを掘る相手が可愛い子ばかりだと、「こいつ結局…」とモロにバレるので注意が必要だ。

普段からいろんな人に興味を持ち、コミュニケーションを取っていくことでこの露骨さは消えるので、モテたいなら友達は積極的に作っていこう。あと単純にたくさん友達作るとコミュニケーション経験値が上がるし、いろいろとFBをもらえるようになるしいいことづくしである。それができたら苦労しねえ！という方は、好意を隠す訓練を頑張るしかない

そしてここまでくるとあの考え…「それだとぬいペニになるのでは？」が浮かぶはずだ。

もちろんその可能性はある。ただ、考えても見て欲しい。「ごめんそういう気持ちはなくて友達だと思ってた」は女でも男でも好意を見せた時に発生する確率のあるイベントである。

つまり…起こるものは起こる！！！！ある程度みんなある！！！！！

ただ、ぬいペニを起こさないテクはある。それがどっかの増田も書いていたが「徐々に好意を見せていく」という手だ。

例えば一緒にご飯を食べに行った時、「◎◎さんて美味しそうに食べるよね」とか「字が綺麗だよね」とか「いつもきちんとしてるよね」とか褒める。ふんわりと「あなたのこといいなーと思ってるよ」と伝えるのである。

この辺りで反応を見る。嬉しそうだったら多少脈アリ、簡素な返事だったり距離を置かれたりしたら脈なしなので残念ながら次に行こう。

脈アリそうならもうちょっと褒めてみる。「髪型凝ってるね！すごい！」「笑ってる顔可愛いって言われない？」「その本読んでみたいな」

こうやって少しずつ「大丈夫かな？嫌じゃないかな？」と近づいていく。(もし嫌がったら「ごめんね」と離れること。それがセクハラをしないために必要なことである)

そして最終、「◎◎さんの恋人は幸せだろうな」とか「ふたりきりで行きたいところがあるんだ」等に乗ってきてくれるようになったらあとはゴー！である

これをせずただ友達として過ごし、ある日突然好きだと言っても相手も面食らってしまう。「そういう相手だと思ってなかった」となってしまう。

なので「あ、この人自分のこと好きそうだな」と微妙に気づかせるため、好きの種を蒔いておくといい。

更に言えばこの際に、「日曜はおれ美味しいご飯いっぱい作るよ」とか「おすすめの映画見まくろう」とか付き合ったらどうなるかをイメージさせられるとよい

（まあここまでやっても好意を理解しない恐るべし鈍感女もいるので、そういうのに当たった場合は運が悪かったと思って次にいこう…）

ここまでくればかなり目的に近づけると思うが…それでもたまに「いい人だとは思うんだけど」となってしまう人もいるだろう。

そんな人に足りないのは、ズバリ、「ドキッとさせる力」である。

これは男性なら少女漫画、女性なら男性向け恋愛漫画を読んである程度ドキっとパターンを学習することをおすすめする。

基本はこの二択だ

1、ワガママだったり我の強いヤツが強引にくるor自分にだけ弱い顔を見せる

2、真面目で優しい子が、自分にだけ男っぽい（女っぽい）側面を見せる

非モテは基本2で攻めるといいと思う。いつもふにゃっとした男が「◎◎さん大丈夫！？」とかっこよく駆けつけたりしたらやはりドキーッとする。

そんなシーンないがな！という場合は「エスコート風の動作」が効果的だ。車道側に立つ、エスカレーターで登る時後ろに立つなど、「女性として大事にしていますよ」ということを動作で伝えるだけでだいぶ好印象だ。女性ならたまに裾を掴むとか、もしできちゃうなら肩とかくっつけてしまうのもいい。性的な魅力をちょっとアピールするのだ。