「オープンソース」を含む日記

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

2024-05-29

■

技術なんて全部オープンソースになってしまえよ！！

そうすれば技術を盗む連中も自分のやってることの無意味さに気づく

Permalink | 記事への反応(0) | 06:44

2024-05-20

■anond:20240520133556

まずは悪名高いオープンソース AI 本拠地hugging faceとそのデータが存在する場所すべて

Permalink | 記事への反応(0) | 13:41

2024-05-19

■

全ての技術がオープンソースになって、

あらゆる経営ノウハウがインターネットで共有されれば、

寿退社、産休、育休があっても、代わりの人材が見つけられるから、

給料が下がりにくくなる

Permalink | 記事への反応(0) | 10:45

2024-05-10

■anond:20240510034330

オープンソースは中々金にならないらしいが、それでも廃れないのはこういう理由があるからだよな

お金を通さない方が作り手と使い手で気持ちが通いやすいし

何でもかんでも金で買えると思ってる奴多いけど、ボランティアというのはこういうところで侮れない訳よな

Permalink | 記事への反応(0) | 03:48

2024-04-26

■Microsoft「MS-DOS 4.0」をオープンソース化

これはいいな

Permalink | 記事への反応(1) | 16:52

2024-04-23

■頂き女子 りり ちゃんのマニュアルをオープンソースにしてほしい

GitHubにpushしてほしい

Permalink | 記事への反応(1) | 12:43

2024-04-20

■MetaのオープンソースLLMのLlama3

二日前にMetaがオープンソースの大規模言語モデルのLlama3を出した。

一つ前のモデルLlama2は色々なオープンソースモデルの基となっていたモデル。このモデル性能良いねと思って見たら、Llama2をいじったモデルだったことがよくあった。

今回も、２つのモデルが発表された。70Bと8Bモデル。70Bモデルともなると、ほぼ個人のパソコンでは動かないだろうけど、性能については、LLM のリーダーボードで最初期のGPT-4 を超えている。

LLMの最重要論文とも言われる"Attention is all you need."の著者の一人の会社が出したモデル"Command R+"が性能が良くて話題になっていた。これもオープンソースだが、今のところこのモデルにも勝っている。このレベルのモデルがオープンソースであるということはとても価値がある。

ここ一、二ヶ月でようやくGPT-4 と互角に戦えるモデルが出てきた。一時期はClaud3がGPT-4を追い抜いた程だ（OpenAI が本気を出してGPT-4を強化して追い抜き返したんだけど）。もうGPT-4が出て１年が過ぎた。研究者やリソースなどは過去に類を見ない程注ぎ込まれたと思うが、GPT-4と同じ性能のモデルはほぼ１年経たないと出てこなかった。OpenAIの凄さがわかる。GPT-4か出てきた当初はあまりの性能の良さに本当にシンギュラリティが起きたんじゃないかと驚愕したが、一年使い続けると、粗やら推論能力の低さに気が付いてくる。今年中に出るであろう、GPT-5に期待だ。