2024-06-05

I.GPT-4からAGIへ:OOMを数える (3)

ディープラーニングトレンド

過去10年間のディープラーニング進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニングシステムが単純な画像識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマーククラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。

https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png

ディープラーニングシステムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィック データで見る我々の世界


私たち文字通りベンチマークを使い果たしている。 逸話として、友人のダンコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生大学生が受ける最も難しい試験匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90%だ。

より広く言えば、GPT-4は標準的高校大学適性試験ほとんど解いている。(GPT-3.5からGPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから人間の成績の上位に入るところまで、しばしば到達した)

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png

GPT-4の標準テストスコア。また、GPT-3.5からGPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間中央値よりかなり下から人間最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)

https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png

灰色2021年8月に行われた、MATHベンチマーク高校数学コンテスト難解な数学問題)の2022年6月パフォーマンスに関する専門家予測。赤い星:2022年6月までの実際の最先端パフォーマンスML研究者中央値さらに悲観的だった。

MATHベンチマーク高校数学コンテストで出題された難しい数学問題集)を考えてみよう。このベンチマーク2021年に発表されたとき、最高のモデル問題の5%しか正解できなかった。そして元の論文にはこう記されている:「さらに、このままスケーリングの傾向が続けば、単純に予算モデルパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズム進歩必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルー必要だ、そう彼らは考えたのだ。ML研究者調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内(2022年半ばまで)に、最高のモデルの精度は5%から50%に向上した。

毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去10年間のAIから学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。

現在、最も難しい未解決ベンチマークは、博士号レベル生物学化学物理学問題を集めたGPQAのようなテストである問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパス現在60%程度であり、それに対してインドメインの博士たちは80%程度である

https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png

GPQAの問題例。モデルはすでに私より優れており、おそらくすぐにエキスパート博士レベル突破するだろう...。

続き I.GPT-4からAGIへ:OOMを数える (4) https://anond.hatelabo.jp/20240605205024

  • チャットボットからエージェント兼同僚へ 今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか?私が考えるに、3つの重要な要素がある: 1."オンボーディング...

    • アンホブリング 最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。 難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に...

      • データの壁 これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なア...

        • アルゴリズムの効率化 コンピュートへの大規模な投資が注目される一方で、アルゴリズムの進歩も同様に重要な進歩の原動力であると思われる(そして、これまで劇的に過小評価され...

          • OOMを数える どうしてこうなった?ディープラーニングの魔法は、それがただ機能するということであり、あらゆる場面で否定的な意見にもかかわらず、その傾向線は驚くほど一貫して...

            • ディープラーニングのトレンド 過去10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは...

              • この4年間 私たちは今、基本的に人間のように会話できるマシンを手にしている。これが普通に思えるのは、人間の適応能力の驚くべき証であり、私たちは進歩のペースに慣れてしまっ...

                • X (twitter) で SITUATIONAL AWARENESS: The Decade Ahead https://situational-awareness.ai/ というのが回ってきて非常に示唆に富むものだったので、DeepL (無料版 API経由) で訳してみた。 レオポルド・アッシェ...

                • 2027年までにAGIが実現する可能性は極めて高い。GPT-2からGPT-4までの4年間で、私たちは〜未就学児から〜賢い高校生までの能力を手に入れた。計算能力(~0.5桁またはOOMs/年)、アルゴリズ...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん