はっきり言って、エラーバーは大きい。データの壁を突破するために必要なアルゴリズムのブレークスルーが予想以上に困難であることが判明した場合、データが足りなくなり、進歩が停滞する可能性がある。もしかしたら、ホッブリングはそこまで進まず、専門家の同僚ではなく、単なる専門家のチャットボットに留まってしまうかもしれない。もしかしたら10年来のトレンドラインが崩れるかもしれないし、スケーリング・ディープラーニングが今度こそ本当に壁にぶつかるかもしれない。(あるいは、アルゴリズムのブレークスルーが、テスト時間の計算オーバーハングを解放する単純なアンホブリングであっても、パラダイムシフトとなり、事態をさらに加速させ、AGIをさらに早期に実現させるかもしれない)。

いずれにせよ、私たちはOOMsを駆け抜けているのであり、2027年までにAGI（真のAGI）が誕生する可能性を極めて真剣に考えるのに、難解な信念は必要なく、単に直線のトレンド外挿が必要なだけである。

最近、多くの人がAGIを単に優れたチャットボットなどとして下方定義しているように思える。私が言いたいのは、私や私の友人の仕事を完全に自動化し、AI 研究者やエンジニアの仕事を完全にこなせるようなAI システムのことだ。おそらく、ロボット工学のように、デフォルトで理解するのに時間がかかる分野もあるだろう。また、医療や法律などの社会的な普及は、社会の選択や規制によって容易に遅れる可能性がある。しかし、ひとたびAI 研究そのものを自動化するモデルができれば、それだけで十分であり、強烈なフィードバック・ループを始動させるのに十分であり、完全自動化に向けて残されたすべてのボトルネックを自動化されたAI エンジニア自身が解決することで、非常に迅速にさらなる進歩を遂げることができるだろう。特に、数百万人の自動化された研究者たちによって、アルゴリズムのさらなる進歩のための10年間が1年以内に圧縮される可能性は非常に高い。AGIは、まもなく実現する超知能のほんの一端に過ぎない。(詳しくは次の記事で）。

いずれにせよ、目まぐるしい進歩のペースが衰えることはないだろう。トレンドラインは無邪気に見えるが、その意味するところは強烈である。その前の世代がそうであったように、新世代のモデルが登場するたびに、ほとんどの見物人は唖然とするだろう。博士号を持っていれば何日もかかるような信じられないほど難しい科学的問題を、間もなくモデルが解決し、あなたのコンピュータのまわりを飛び回り、あなたの仕事をこなし、何百万行ものコードからなるコードベースをゼロから書き上げ、これらのモデルによって生み出される経済的価値が1年か2年ごとに10倍になるとき、彼らは信じられないだろう。SF小説は忘れて、OOMを数えよう。AGIはもはや遠い空想ではない。単純なディープラーニング技術をスケールアップすることがうまくいき、モデルは学習したがり、2027年末までにさらに100,000倍を超えようとしている。私たちよりも賢くなる日もそう遠くはないだろう。

https://situational-awareness.ai/wp-content/uploads/2024/06/gan_progress-1.jpeg

GPT-4はほんの始まりに過ぎない。GANの進歩に見られるように）ディープラーニングの進歩の速さを過小評価するような間違いを犯さないでほしい。

続き I.GPT-4からAGIへ：OOMを数える(11) https://anond.hatelabo.jp/20240605212014

Permalink | 記事への反応(1) | 21:18

■状況認識：今後10年の展望 -- はじめに

X (twitter) で SITUATIONAL AWARENESS: The Decade Ahead https://situational-awareness.ai/ というのが回ってきて非常に示唆に富むものだったので、DeepL (無料版 API経由) で訳してみた。

レオポルド・アッシェンブレナー 2024年 6月号

サンフランシスコに行けば、まず未来が見える。

この1年で、街の話題は100億ドルのコンピュート・クラスターから 1000億ドルのクラスター、そして1兆ドルのクラスターへと移り変わってきた。半年ごとに、役員室の計画にまたゼロが追加される。その裏では、残りの10年間に利用可能なすべての電力契約と、調達可能なすべての電圧変圧器を確保しようとする熾烈な争いが繰り広げられている。アメリカの大企業は、アメリカの産業力を結集させるために、何兆ドルもの資金を注ぎ込む準備を整えている。ペンシルベニア州のシェールフィールドからネバダ州の太陽光発電所まで、何億もの GPUが稼働する。

AGI競争が始まったのだ。私たちは思考し、推論できるマシンを作りつつある。2025年から26年にかけて、これらのマシンは多くの大学卒業生を凌駕するだろう。10年後までには、これらのマシンは私やあなたよりも賢くなり、本当の意味での超知性を手に入れるだろう。その過程で、この半世紀には見られなかったような国家安全保障の力が解き放たれ、やがて「プロジェクト」が始動する。運が良ければ、中国共産党との全面的な競争になり、運が悪ければ全面戦争になる。

今、誰もがAIについて話しているが、何が自分たちを襲おうとしているのか、かすかな光明を感じている人はほとんどいない。Nvidiaのアナリストは、まだ2024年がピークに近いと考えている。主流派の評論家たちは、「次の言葉を予測するだけだ」という故意の盲目に陥っている。彼らが見ているのは誇大広告といつも通りのビジネスだけで、せいぜいインターネット規模の新たな技術革新が起こるのを楽しむ程度なのだ。

やがて世界は目を覚ますだろう。しかし、今現在、状況認識を持っているのはおそらく数百人で、そのほとんどはサンフランシスコとAI 研究所にいる。運命の不思議な力によって、私はその中に身を置くことになった。数年前、このような人々はクレイジーだと揶揄されたが、彼らはトレンドラインを信頼し、過去数年間のAIの進歩を正しく予測することができた。この人たちが今後数年についても正しいかどうかはまだわからない。しかし、彼らは非常に賢い人々であり、私がこれまでに会った中で最も賢い人々である。おそらく、彼らは歴史の中で奇妙な脚注となるか、あるいはシラードやオッペンハイマー、テラーのように歴史に名を残すだろう。もし彼らが未来を正しく見ているとしたら、私たちはとんでもないことになる。

私たちが見ているものを教えよう。

2027年までにAGIが実現する可能性は極めて高い。GPT-2から GPT-4までの4年間で、私たちは～未就学児から～賢い高校生までの能力を手に入れた。計算能力（～0.5桁またはOOMs/年）、アルゴリズム効率（～0.5OOMs/年）、および「趣味のない」向上（チャットボットからエージェントへ）のトレンドラインをトレースすると、2027年までに再び未就学児から高校生サイズの質的なジャンプが起こると予想される。

II.AGIから超知能へ：知性の爆発

AIの進歩は人間レベルでは止まらない。何億ものAGIがAI 研究を自動化し、10年に及ぶアルゴリズムの進歩（5以上のOOM）を1年以下に圧縮することができる。私たちは、人間レベルから超人的なAI システムへと急速に進化することになる。超知能の威力と危険性は劇的なものとなるだろう。

III.課題

IIIa.兆ドル クラスタへの競争

驚異的な技術資本の加速が始まっている。AIの収益が急増するにつれ、10 年末までに何兆ドルもの資金がGPU、データセンター、電力の増強に投入されるだろう。米国の電力生産を数十％増加させるなど、産業界の動員は激しくなるだろう。

IIIb.研究所の封鎖AGIのセキュリティ

米国の主要なAI 研究所は、セキュリティを後回しに扱っている。現在、彼らは基本的にAGIの重要な機密を銀の皿に載せて中国共産党に渡している。AGIの秘密とウェイトを国家機関の脅威から守るには膨大な努力が必要であり、我々はその軌道に乗っていない。

IIIc.スーパーアライメント

我々よりもはるかに賢いAI システムを確実に制御することは、未解決の技術的問題である。解決可能な問題ではあるが、急速な知能の爆発が起きれば、物事は簡単にレールから外れてしまう。これを管理することは非常に緊張を強いられるだろう。

IIId.自由 世界は勝利しなければならない

スーパーインテリジェンスは、経済的にも軍事的にも決定的な優位性をもたらすだろう。中国はまだゲームから抜け出してはいない。AGIをめぐる競争では、自由世界の存亡がかかっている。我々は権威主義的な大国に対する優位性を維持できるのか？そして、その過程で自滅を避けることができるのだろうか？

IV.プロジェクト

AGIへの競争が激化するにつれ、国家安全保障が関与してくる。アメリカ政府は眠りから覚め、27～28年までに何らかの形で政府によるAGIプロジェクトが立ち上がるだろう。どんな新興企業も超知能を扱うことはできない。SCIFのどこかで、終盤戦が始まるだろう。

V.おわりに

もし我々が正しかったら？

――――――――

私はかつてOpenAIで働いていたが、これはすべて一般に公開されている情報、私自身のアイデア、一般的な現場知識、あるいはSF ゴシップに基づいている。

Collin Burns、Avital Balwit、Carl Shulman、Jan Leike、Ilya Sutskever、Holden Karnofsky、Sholto Douglas、James Bradbury、Dwarkesh Patel、その他多くの方々の有益な議論に感謝する。初期の草稿にフィードバックをくれた多くの友人に感謝する。グラフィックを手伝ってくれたジョー・ローナン、出版を手伝ってくれたニック・ウィテカーに感謝する。

イリヤ・スーツケバーに捧ぐ。

続き I.GPT-4からAGIへ：OOMを数える(1) https://anond.hatelabo.jp/20240605203849

Permalink | 記事への反応(0) | 21:11

■I.GPT-4からAGIへ：OOMを数える (9)

3.コンピュータの使用

これはおそらく3つの中で最も簡単な方法だ。現在のChatGPTは、基本的に、テキストを入力できる孤立した箱の中に座っている人間のようなものだ。初期のアンホブリング改良では、個々の孤立したツールの使い方をモデルに教えていましたが、マルチモーダルモデルでは、近いうちにこれを一挙にできるようになると期待しています。

つまり、Zoomでの通話に参加したり、オンラインで調べ物をしたり、メッセージや電子メールを送ったり、共有されたドキュメントを読んだり、アプリや開発ツールを使ったりといったことだ。(もちろん、より長いホライゾン・ループでモデルがこれを最大限に活用するためには、テスト時間のコンピューティングをアンロックする必要がある。)

最終的には、ドロップイン・リモートワーカーのようなものができると期待している。エージェントは、あなたの会社に入社し、新しい人間の雇用のようにオンボードされ、Slackであなたや同僚にメッセージを送り、あなたのソフトウェアを使用し、プルリクエストを行い、大きなプロジェクトがあれば、人間が独立してプロジェクトを完了するために数週間留守にするのと同等のことができる。これを実現するためには、GPT-4よりもいくらか優れたベースモデルが必要だろうが、おそらくそれほどでもないだろう。

https://situational-awareness.ai/wp-content/uploads/2024/06/devin.gif

Devinは、完全に自動化されたソフトウェア・エンジニアを作るために、モデル上の「エージェンシー・オーバーハング」／「テストタイム・コンピューティング・オーバハング」を解除する初期のプロトタイプだ。Devinが実際にどの程度機能するかはわからないし、このデモは、適切なチャットボット→エージェントのアンホブリングがもたらすものに比べれば、まだ非常に限定的なものだが、近々登場するもののティーザーとしては役に立つだろう。

ところで、私は、アンホブリングの中心性が、商業的応用という点で、少々興味深い「ソニックブーム」効果につながると期待している。現在とドロップイン・リモートワーカーの中間モデルは、ワークフローを変更し、統合して経済的価値を引き出すためのインフラを構築するために、膨大な手間を必要とする。ドロップイン・リモートワーカーは、統合が劇的に簡単になる。つまり、リモートでできるすべての仕事を自動化するために、ドロップインするだけでいいのだ。つまり、ドロップイン・リモートワーカーが多くの仕事を自動化できるようになる頃には、中間モデルはまだ完全に活用され統合されていないため、生み出される経済価値のジャンプはやや不連続になる可能性がある。

次の4年間

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_gpt2togpt4.png

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_ooms_2023to2027.png

GPT-4に先立つ4年間の進歩の原動力と、GPT-4後の4年間に期待されることについての推計のまとめ。

数字をまとめると、GPT-4に続く4年間で、2027年末までにGPT-2から GPT-4規模のジャンプが再び起こると（おおよそ）予想される。

GPT-2から GPT-4は、おおよそ4.5-6 OOMのベースとなる有効なコンピュート・スケールアップ（物理的なコンピュートとアルゴリズムの効率化）であり、それに加えて（ベースモデルからチャットボットへの）大きな「アンホブリング」利益であった。
その後4年間は、3～6OOMのベース実効計算スケールアップ（物理計算とアルゴリズム効率）が期待され、さらに「アンホブリング」（チャットボットからエージェント／ドロップインリモートワーカーへ）によってユーティリティとアプリケーションの段階的変化（～5OOM）がおそらく最良と推測される。

GPT-4のトレーニングに3ヶ月かかったとしよう。2027年には、一流のAI ラボはGPT-4レベルのモデルを1分で訓練できるようになるだろう。OOMの効果的なコンピュート・スケールアップは劇的なものになるだろう。

それは我々をどこへ連れて行くのだろうか？

https://situational-awareness.ai/wp-content/uploads/2024/06/overview_counting_the_ooms.png

OOMのカウントのまとめ。

GPT-2から GPT-4までで、私たちは～未就学児から～賢い高校生になった。とんでもないジャンプだ。もしこれが、私たちが今一度カバーする知能の差だとしたら、それは私たちをどこに連れて行くのだろうか？私たちは、それが私たちをとてもとても遠くに連れていっても驚かないはずだ。おそらく、ある分野の博士や最高の専門家を凌駕するようなモデルまで到達するだろう。

(このことを考える1つの良い方法は、現在のAIの進歩の傾向は、子供の成長のおよそ3倍のペースで進んでいるということだ。あなたの3倍速の子どもは高校を卒業したばかりだが、いつの間にかあなたの仕事を奪っていくだろう！)

続き I.GPT-4からAGIへ：OOMを数える(10) https://anond.hatelabo.jp/20240605211837

Permalink | 記事への反応(1) | 21:03

■I.GPT-4からAGIへ：OOMを数える (8)

チャット ボット から エージェント兼同僚へ

今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか？私が考えるに、3つの重要な要素がある：

1."オンボーディング問題 "の解決

GPT-4は、多くの人の仕事の大部分をこなせるだけの生の賢さを持っているが、それは5分前に現れたばかりの賢い新入社員のようなものだ：関連するコンテキストを持っておらず、会社のドキュメントやSlackの履歴を読んだり、チームのメンバーと会話したり、会社内部のコードベースを理解するのに時間を費やしたりしていない。賢い新入社員は、着任して5分後にはそれほど役に立たないが、1ヶ月後にはかなり役に立つ！例えば、非常に長いコンテクストを通じて、新しい人間の同僚を雇うようにモデルを「オンボード」することは可能なはずだ。これだけでも、大きなアンロックになるだろう。

2.テスト時間の計算オーバーハング（より長いホライズンの問題に対する推論／エラー訂正／システムII）

今のところ、モデルは基本的に短いタスクしかこなせない。しかし、これでは非常に限界がある。5分どころか、数時間、数日、数週間、数ヶ月かかるのだ。

難しい問題について5分間しか考えることができない科学者は、科学的なブレークスルーを起こすことはできない。ソフトウェア・エンジニアは、より大きな仕事を与えられ、計画を立て、コードベースや技術ツールの関連部分を理解し、さまざまなモジュールを書いて段階的にテストし、エラーをデバッグし、可能性のある解決策を検索し、最終的には数週間の仕事の集大成である大規模なプル・リクエストを提出する。などなど。

要するに、テスト時間の計算オーバーハングが大きいのだ。GPT-4の各トークンは、問題を考えるときの内部モノローグの言葉だと考えてください。各GPT-4トークンは非常に賢いのですが、現在のところ、思考の連鎖のために～数百トークンのオーダーしか効果的に使うことができません（あたかも問題やプロジェクトに数分しか内部独白／思考を費やせないかのように）。

もし数百万トークンを使って、本当に難しい問題や大きなプロジェクトについて考え、取り組むことができるとしたらどうだろう？

トークンの数	私が何かに取り組むのに相当する時間...
100s	数分	ChatGPT (私たちはここにいる)
1000s	30分	+1 OOMsテスト時間計算
10,000 回	半日	+2 OOMs
100,000ドル	1週間	+3 OOMs
数百万回	複数月	+4 OOMs

人間が〜100トークン/分で考え、40時間/週働くと仮定して、「モデルが考える時間」をトークンで換算すると、与えられた問題/プロジェクトにおける人間の時間になる。

仮に「トークンあたり」の知能が同じだったとしても、頭のいい人が問題に費やす時間が数分なのか数ヶ月なのかの違いになる。あなたのことは知らないが、私が数ヶ月でできることと数分でできることは、はるかに、はるかに、はるかに多い。もしモデルに「数分ではなく、数カ月に相当する時間、何かを考え、取り組むことができる」という能力を与えることができれば、その能力は飛躍的に向上するだろう。ここには膨大なオーバーハングがある。

今のところ、モデルにはまだこれができない。最近のロング・コンテキストの進歩をもってしても、このロング・コンテキストのほとんどはトークンの消費にしか機能せず、トークンの生産には機能しない。しばらくすると、このモデルはレールから外れたり、行き詰まったりする。しばらくの間、離れて単独で問題やプロジェクトに取り組むことはまだできない。

しかし、テスト時間の計算を解除することは、単に比較的小さな「ホブリングしない」アルゴリズムの勝利の問題かもしれない。おそらく、少量のRLは、モデルがエラー訂正（「うーん、これは正しくないようだ、再確認してみよう」）を学習したり、計画を立てたり、可能性のある解を探索したりするのに役立つだろう。ある意味、モデルはすでに生の能力のほとんどを持っており、それをまとめるために、さらにいくつかのスキルを学習する必要があるだけなのだ。

要するに、私たちはモデルに、困難で見通しの長いプロジェクトを推論させるシステムIIのアウターループのようなものを教えればいいのだ。

この外側のループを教えることに成功すれば、2、3段落の短いチャットボットの答えの代わりに、モデルが問題を考え、ツールを使い、異なるアプローチを試し、研究を行い、仕事を修正し、他の人と調整し、大きなプロジェクトを一人で完成させるような、何百万もの言葉のストリーム（あなたが読むよりも早く入ってくる）を想像してみてほしい。

他のML 領域におけるテスト時間と訓練時間のトレードオフ

続き I.GPT-4からAGIへ：OOMを数える(9) https://anond.hatelabo.jp/20240605210357

Permalink | 記事への反応(1) | 21:02

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

■I.GPT-4からAGIへ：OOMを数える (1)

2027年までにAGIが実現する可能性は極めて高い。GPT-2から GPT-4までの4年間で、私たちは〜未就学児から〜賢い高校生までの能力を手に入れた。計算能力（～0.5桁またはOOMs/年）、アルゴリズム効率（～0.5OOMs/年）、および「趣味のない」向上（チャットボットからエージェントへ）のトレンドラインをトレースすると、2027年までに再び未就学児から高校生規模の質的ジャンプが起こると予想される。

この記事では
過去4年間
- GPT-2から GPT-4へ
- ディープラーニングのトレンド
OOMのカウント
- コンピュート
- アルゴリズム効率
  - データの壁
- アンホブリング
  - チャットボットからエージェント・コワーカーへ
次の4年
- 補遺 OOMを駆け抜けるこの10年か、それとも破綻か

見て。モデルたちはただ学びたいだけなんだ。あなたはこれを理解しなければならない。モデルたちは、ただ学びたいだけなんだ。

イリヤ・スーツケバー（2015年頃、ダリオ・アモデイ経由）

GPT-4の能力は、多くの人に衝撃を与えた。コードやエッセイを書くことができ、難しい数学の問題を推論し、大学の試験を突破することができるAI システムである。数年前までは、これらは難攻不落の壁だと思っていた。

しかしGPT-4は、ディープラーニングにおける10年間の猛烈な進歩の延長線上にあった。その10年前、モデルは犬猫の単純な画像を識別するのがやっとだった。4年前、GPT-2は半可通な文章をつなぎ合わせるのがやっとだった。今、私たちは思いつく限りのベンチマークを急速に飽和させつつある。しかし、この劇的な進歩は、ディープラーニングのスケールアップにおける一貫した傾向の結果に過ぎない。

ずっと以前から、このことを見抜いていた人々がいた。彼らは嘲笑されたが、彼らがしたのはトレンドラインを信じることだけだった。トレンドラインは強烈で、彼らは正しかった。モデルはただ学びたいだけなのだ。

私は次のように主張する。2027年までには、モデルがAIの研究者やエンジニアの仕事をこなせるようになるだろう、と。SFを信じる必要はなく、グラフ上の直線を信じるだけでいいのだ。

https://situational-awareness.ai/wp-content/uploads/2024/06/base_scaleup-1024x790.png

過去と将来の有効計算量（物理計算量とアルゴリズム効率の両方）の大まかな見積もり。モデルをスケールアップすればするほど、モデルは一貫して賢くなり、"OOMを数える "ことによって、（近い）将来に期待されるモデルのインテリジェンスの大まかな感覚を得ることができます。(このグラフはベースモデルのスケールアップのみを示している。）

この記事で取り上げた一般的な推定に基づく、効果的な計算（物理的な計算とアルゴリズムの効率の両方）の過去と将来のスケールアップの概算。モデルをスケールアップするにつれ、モデルは一貫して賢くなり、「OOMを数える」ことで、（近い）将来に期待されるモデルのインテリジェンスの大まかな感覚を得ることができる。(このグラフはベースモデルのスケールアップのみを示している。"unobblings "は描かれていない)。

この作品では、単純に「OOMを数える」(OOM = order of magnitude、10x = 1 order of magnitude)ことにします。1)計算、2)アルゴリズム効率(「効果的な計算」の成長として考えることができるアルゴリズムの進歩)、3)「アンホブリング」(モデルがデフォルトで足かせとなっている明らかな方法を修正し、潜在的な能力を引き出し、ツールを与えることで、有用性を段階的に変化させること)の傾向を見ます。GPT-4以前の4年間と、GPT-4後の2027年末までの4年間に期待されるそれぞれの成長を追跡する。ディープラーニングが効率的な計算のすべてのOOMで一貫して向上していることを考えると、将来の進歩を予測するためにこれを使うことができる。

世間では、GPT-4のリリースから1年間、次世代モデルがオーブンに入ったままであったため、ディープラーニングは停滞し、壁にぶつかっていると宣言する人もいた。しかし、OOMをカウントすることで、私たちは実際に何を期待すべきかを垣間見ることができる。

結果は非常にシンプルだ。GPT-2から GPT-4への移行は、時々まとまりのある文章を並べることに感動的だったモデルから、高校入試のエースになるモデルへの移行であり、一度だけの進歩ではない。私たちはOOMsを極めて急速に克服しており、その数値は、4年以上かけてGPT-2から GPT-4への質的なジャンプをさらに～100,000倍の効果的なコンピュート・スケールアップが期待できることを示している。さらに、決定的なことは、それは単にチャットボットの改良を意味しないということだ。"unhobbling "利益に関する多くの明らかな低空飛行の果実を選ぶことで、チャットボットからエージェントへ、ツールからドロップイン・リモートワーカーの代替のようなものへと我々を導いてくれるはずだ。

推論は単純だが、その意味するところは注目に値する。このような別のジャンプは、私たちをAGIに、博士号や同僚として私たちのそばで働くことができる専門家と同じくらい賢いモデルに連れて行く可能性が非常に高い。おそらく最も重要なことは、これらのAI システムがAI 研究そのものを自動化することができれば、次回のテーマである強烈なフィードバック・ループが動き出すということである。

現在でも、このようなことを計算に入れている人はほとんどいない。しかし、AIに関する状況認識は、一歩下がってトレンドを見てみれば、実はそれほど難しいことではない。AIの能力に驚き続けるなら、OOMを数え始めればいい。

続き I.GPT-4からAGIへ：OOMを数える (2) https://anond.hatelabo.jp/20240605204240

Permalink | 記事への反応(1) | 20:38

■anond:20240605062945

チャット GPTは頭悪い

頭いいなら実用可能な核融合炉の作り方くらい教えてくれるだろ

それができねーので無能

Permalink | 記事への反応(0) | 06:31

それだけでも効果はあると言っていいんじゃない？

Permalink | 記事への反応(0) | 18:47

■

電話とチャットのいいとこどりの機能がほしい

おれは本気を出していない　ずっと仮の状態だ

仮の状態でおかしをたべ　仮の状態でバイトにいく

おかしたべてるやん

脳をトリップさせたいだけだろ

脳ゲーだろ

それか遺伝子ゲー

それか過去の行動と同じ行動すればいい

説明づけて　いやPCつけてるやん

ゲームしてるやん　脳汁だしたいだけだろ

Permalink | 記事への反応(0) | 16:26

■スーパーのセミ セルフレジでスキミング 被害

スーパーのセミセルフレジでスキミング被害にあったので備忘録代わりに投稿します

まず事実列挙

・まぁまぁ規模の大きいローカルチェーンのスーパー（100店舗以上展開）

・会計だけ自分でやるタイプのセミセルフレジ

・使用したのは楽天カード（3Dセキュアや第二パスワードは設定済み）

・不正使用されるも承認がおりなくて金銭的被害はなし

スキミング 現場

いつものようにクレジットカードを会計機に差し込んでIC 認証で支払おうとしたら即座に読み取りエラー

過去にもたまーに読み取りエラーが出たことはあったが差し直せば大丈夫だった

今回は3回差し直したがダメで、ここでまず違和感ポイント

・読み取りエラーが出るのが微妙に速い

・エラーの後カードを抜くと「カードを差し込んでください」の液晶表示に戻るはずが戻らなくてエラー表示のまま

仕方がないので会計機右側面にある磁気ストライプ読み取りスリットに通すと無事精算できたんだが

ここでまた違和感ポイント

・カードをシュッと通した次の瞬間にレシートが出てきた。明らかに クレカ 会社と通信してるとは思えない

おそらくだがIC読み取りで決済は出来てるがレシートを出さずエラー画面を表示するようにプログラムも改造されてる

そして磁気ストライプでスキミングしたらレシートが出てくる

作り込みが甘いが違和感に気づいても後の祭り

スキミングされてから カード再発行までの時系列

5/27　スキミングされる

5/28　モノタロウで使用され不承認

5/29-30　米国 Amazonで何度も使用されるがこちらも不承認

5/30 深夜に楽天から【重要】楽天カードから緊急のご連絡　というタイトルのメールが届く

5/31　メールに記載の楽天カード信用管理部に電話して「これこれの買い物したか？」の確認

　対応は事務的だが丁寧で親切だった。確認後カード再発行手続きの案内。

　再発行はチャットサポートから質疑応答形式で数回クリックするだけで完了

6/1　カード番号変更と新カード発行完了のメールが届く（カード到着まで1週間かかるらしい）

Permalink | 記事への反応(6) | 13:20

■anond:20240604120106

こういう男ほど、生まれて初めて女とチャットが続いたくらいで舞い上がりきってこういうことしてしまうんだよなぁ…

お前と一緒にするな

Permalink | 記事への反応(0) | 12:19

■anond:20240604111427

こういう男ほど、生まれて初めて女とチャットが続いたくらいで舞い上がりきってこういうことしてしまうんだよなぁ…

お前はまだ「失敗」をしていないんだな。

お前にとって女は架空の生き物で恋愛は空想の世界で行われることなのだろうけど、いつか現実で触れられるといいな。

Permalink | 記事への反応(1) | 12:01

2024-06-03

■anond:20240603185230

今のところ、チャット AIがある種の「ガチャ」であるってのはよーく分かる。

仕事で試しに使ってみて、望ましい結果というか、狙った出力があると射倖心みたいな感覚がある。

「うぉ〜、ちょっと入力しただけでこんな出力が！これで●●時間の効率化だぜぇ〜」っていうね。

Permalink | 記事への反応(0) | 18:55

■

これさあ、引用でもいくつか言われてるけど、

バストが80のAの女性なんて骨格や身長次第で普通にいるし、しかも昔は表記の仕方が違ったらしいからそういう女性が普通にいてもおかしくないのに

そんな貧乳のデブの女なんて存在しない！絶対に男！と決め付けている姿勢が本当に残酷だと思う。

これ以外でも、フェミニストってナチュラルに底辺女性をこの世に存在しない事にして踏んづけているのが多すぎる

https://x.com/oni_red/status/1796706777276489834
あの鬼の人
@oni_red
むかーしチャットルームで世間話してたとき、突然「みんなブラジャーのサイズは？私はAの80」と書いてきた人がいて、いやそのアンダーサイズの人は自分から言わなくないか…？というかその80ってバストのことだと思ってるだろう…というかおまえ男だろってことがあったの思い出した

Permalink | 記事への反応(0) | 17:16

■anond:20240603093821

俺一応高学歴だけど

同意する人いたらちょっと増田離れた方がいいな

匿名チャット向いてない

Permalink | 記事への反応(1) | 09:50

■推していた個人Vが大手 事務所に転生していた件

たまたま視聴した配信の主の声と喋り方に、すごく聞き馴染みがあった。

笑い方、ギャグセンス、特徴的な声質。

昔推していた個人Vのそれらによく似ていた。

まさかと思い、その配信者の名前でググった。

「転生」がサジェストされたので、それも検索キーワードに含めた。

ビンゴだった。

その個人Vは数年前に突然活動休止を宣言した。

当時はその子に何が起きたのかと心配していたが、どうやら大手事務所のVに転生するためで、こっちの心配はただの杞憂だったらしい。

今更このことを知った気持ちの割合は、裏切られたような気持ちが1、楽しくやれているようでよかったという気持ちが9。

個人Vだった頃は視聴者との距離がすごく近かった。

配信の同接数は50前後が当たり前で、本当に少ないときは20を下回っていた。

視聴者がそれくらいしかいなかったので、配信のときはチャット欄のコメント全てに反応してくれたし、こちらの名前をたくさん読んでくれたし、参加型ゲーム配信の競争率もすごく低かった。

参加型モンハン配信で何度も一緒に狩りに行ったことがすごく思い出に残っている。

あの頃はずいぶんと楽しませてもらった。

同接数が少ないと視聴者の立場からすればこのとおり嬉しいことが多いが、とはいえ配信者の立場からしたらメンタルにくることが多いんだろうなとも思う。

配信者がトークをしてもチャットログが動かない。

視聴者からのリアクションが無いので配信者の気分も盛り上がらない。

チャット欄に荒らしが現れたとき、チャットログがなかなか流れてくれないので無視できない。

当時からメンタルを病んでそうな言動がそこそこあったが、きっとこういうことが積み重なって嫌になってしまったんだろうなと思う。しらんけど。

それにスパチャもほとんど無いから配信業で飯を食っていけるわけもなかったし。（高額スパチャをしたら演技とかではなく本気で喜んでくれたことをよく覚えている）

それが大手事務所のVになった今では配信の同接数は毎回4桁。

なにかするたびにたくさんのリスナーからたくさんのリアクションをもらえる。

チャット欄は滝のように流れるので、荒らしが現れたとしてもスルーするのは簡単。

スパチャが飛び交うので配信業だけでも（多分）食べていける。

こころなしか昔より言動が明るい気もする。すごく楽しそうだ。

距離が遠くなってしまったのは少し寂しいけれど、今のほうが幸せそうなのでOKです。

どうか健康に末永く配信を続けてください。

しかし、個人Vの頃から配信内容やトークのスタイルは大きくは変わっていないはずなのに、大手事務所に所属しているか否かだけでここまで変わってしまうとは。

箱のネームバリューってやつはすごい。

Permalink | 記事への反応(0) | 01:40

「チャット」を含む日記

■神奈川県内で行われている、外国人による賃貸マンションを利用した売春について

■メール問い合わせ先を隠蔽するクレジットカード会社は邪悪すぎる

■人力検索はてなの回答がいつのまにか生成AIのチャットボットになっていた

■ユーチューブの生配信で

事例1

事例2

■タイピングが遅い

■I.GPT-4からAGIへ：OOMを数える(10)

■状況認識：今後10年の展望 -- はじめに

目次

はじめに 【このページ】

I.GPT-4からAGIへOOM（Orders of Magnitude）を数える

II.AGIから超知能へ：知性の爆発

III.課題

IIIa.兆ドルクラスタへの競争

IIIb.研究所の封鎖AGIのセキュリティ

IIIc.スーパーアライメント

IIId.自由世界は勝利しなければならない

IV.プロジェクト

V.おわりに

■I.GPT-4からAGIへ：OOMを数える (9)

3.コンピュータの使用

次の4年間

■I.GPT-4からAGIへ：OOMを数える (8)

チャットボットからエージェント兼同僚へ

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

■I.GPT-4からAGIへ：OOMを数える (1)

■スーパーのセミセルフレジでスキミング被害

まず事実列挙

・読み取りエラーが出るのが微妙に速い

・エラーの後カードを抜くと「カードを差し込んでください」の液晶表示に戻るはずが戻らなくてエラー表示のまま

・カードをシュッと通した次の瞬間にレシートが出てきた。明らかにクレカ会社と通信してるとは思えない

スキミングされてからカード再発行までの時系列

■推していた個人Vが大手事務所に転生していた件

はじめに【このページ】