フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

■日本地図に色塗る奴って

どっかの界隈で言うところのセルフ開示だよね

Permalink | 記事への反応(0) | 10:18

■anond:20240605034859

botを実行してるだけじゃない？

フルオートで行けるでしょ、仕事の内容的に

いや、内容のチェックだけは目視いるか

セルフのガソスタみたいな感じじゃない？

Permalink | 記事への反応(0) | 03:51

2024-06-04

■anond:20240604232632

おまえが幼児だっていう自己紹介？

しかもそれをセルフ引用してきましたって告白？

Permalink | 記事への反応(0) | 23:27

■日刊嫌儲 新聞 管理人　とやら

https://twitter.com/MomenFu/status/1797915900785680649

セルフスケキヨウデグミウワメセガンギマリェ

ジェイ表記出来てた時点からほぼ百年経っても

オイコマレテナーイ無敵（病原として）の蔑称啼き喚きぞら

シュレディンガーの「違う価値観から学ぶことも大事だ」

論より証拠　隗より始めよ　いまいずこにおわす？

たかだかロンクハラライスにミエナイキコエナイ居直り逆切れ

むしろそれが答ェ…だと…？

所詮啼害界隈はオマイウノキワミ　アーーーーーーーー

Permalink | 記事への反応(0) | 22:50

■anond:20240604202032

完全に禁止してしまうと、習慣が薄れて本番でもたたなくなったりする

3日に1回くらいセルフを実行して、溜めて出すという感覚を練習した方がいいよ

Permalink | 記事への反応(0) | 20:21

■日刊嫌儲 新聞 管理人　とやら

https://twitter.com/MomenFu/status/1797044373412294866

耐え易きのはずだでいろよぉぉぉて

う～んこの先々代未満

エビデンス足り得る隙自語

いつまで御留守？いつ御戻りに？

それにつけてもまさに落書きかますビョーゲンモメンがマジホントおまいう

ジャパンの蔑称啼き喚き

結果にミエナイキコエナイ居直り逆切れ

のたうつセルフスケキヨで幾年月の界隈でござい

1926年の日本未満でヨロシサンだとでも言うのだろうか？

まずロンクハラライスより始めよ

れすらできんかったあままでぬかしおる

Permalink | 記事への反応(0) | 15:44

2024-06-03

■anond:20240602055225

セックスでイケない。セルフならクリではイケる。同じクリでも人に触られるとイケない。統計上こういう女性が大多数であることは承知してる

ここまで書いてるなら、ごく一部ガチ敏感な人もいるのは知ってるやろ？

俺の知ってる中でも、マジで一人だけだけど、乳首だけでイケるし満員電車とかで人と密着しちゃって、結果的に服の上から乳首刺激されるだけで濡れるという本人も認めてる変態がいるぞ。

あの映画館増田の真偽は知らんが、本人の告白としては「最悪ヤられてもいい覚悟の上で行った」という話なので、そんだけの覚悟があるならそもそもの抵抗感あんま無いだろうし、敏感な人としては不思議ではない。

（仮にガチだとしても最低アラフォー以上の女だと思われるしなんにせよ決して一般的ではないわけだが）

Permalink | 記事への反応(0) | 12:45

2024-06-02

■anond:20240602203706

なんでそれで結婚したんだ？

おれは嫁以外の女では本気で性的興奮することはないやで

セルフプレジャーはだいたい嫁ニーやで

Permalink | 記事への反応(0) | 21:12

■anond:20240602185432

セルフリプ

都立水商を思い出したんだった

コンドームの使い方ではなかったけど

Permalink | 記事への反応(0) | 18:55

■いうほど彼女欲しいか？

当方アラサー非正規こどおじ、恋人いた事なし、モテたことなし。もちろん童貞。

昔から彼女欲しいと思ったことがなくて、彼女出来なくて辛いとかモテなくて辛いとかが理解できない。とりあえず彼女と書いたけど別に彼氏でも同じ。

言いたいことはわからんでもないけど理解できない。

あてがえ論とか殊更わけがわからん。

更に言えばいうほどセックスしたいか？セックスする為に恋人作ろうとするのもわからんし、金払ってまでチンポ湿らせて射精しに風俗とか行ったりするのもわからん。

そもそも人肌恋しいとかいうのもわからん。

かと言って性欲自体は強い方だと自認しててセルフプレジャーもといオナニーはしこたましてるし性嫌悪とかではないと思う。

ラブコメとかは好きでよく読むけど自分がこうなりたいとかは思わない。

性欲の対象自体は男女その他を特に問わないんだけど、性指向がなんか違うのか俺は？アセクシャルもなんか違うしアロマンティックもよくわからん。一応バイでいいのかね？

普通に生きてりゃ恋人って欲しくなるもんなのか？

よくわからん。

彼女が出来なくて〜とか婚活が〜とか非モテが〜とかが話題になる度になんかモヤモヤするんだよなぁ。

ほんまよくわからん。

Permalink | 記事への反応(1) | 13:56

■女視点のセックス

ビリーアイリッシュに励まされて書く。女同士だってそんな話できる相手なぞいないのだ。

セックスでイケない。セルフならクリではイケる。同じクリでも人に触られるとイケない。統計上こういう女性が大多数であることは承知してる。でも好きなんだよね、セックスと男の人が。

この際自己分析してみて、相手に気を遣いすぎ、どう見られるかを気にしすぎてるんじゃないかと思う。長く付き合ってあれこれ試した相手でも無理だったんだよ、一番近づいたのはバックでされつつ自分でおもちゃ当てるシチュだったんだけど、何でか（今思うと本当に何で…）自分は降りて相手がイクのを優先しちゃったんだよね。混雑エレベーターじゃないんだよ！あの時の私、猛省しろ！！！