はてなキーワード: セルフとは
これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。
フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる)。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。
データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近、ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。
インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい:
モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。
さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学的問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。
AlphaGo(囲碁で世界チャンピオンを破った最初のAIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。
LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である(さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。
以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。
余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた)。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)
続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017
セックスでイケない。セルフならクリではイケる。同じクリでも人に触られるとイケない。統計上こういう女性が大多数であることは承知してる
ここまで書いてるなら、ごく一部ガチ敏感な人もいるのは知ってるやろ?
俺の知ってる中でも、マジで一人だけだけど、乳首だけでイケるし満員電車とかで人と密着しちゃって、結果的に服の上から乳首刺激されるだけで濡れるという本人も認めてる変態がいるぞ。
あの映画館増田の真偽は知らんが、本人の告白としては「最悪ヤられてもいい覚悟の上で行った」という話なので、そんだけの覚悟があるならそもそもの抵抗感あんま無いだろうし、敏感な人としては不思議ではない。
当方アラサー非正規こどおじ、恋人いた事なし、モテたことなし。もちろん童貞。
昔から彼女欲しいと思ったことがなくて、彼女出来なくて辛いとかモテなくて辛いとかが理解できない。とりあえず彼女と書いたけど別に彼氏でも同じ。
更に言えばいうほどセックスしたいか?セックスする為に恋人作ろうとするのもわからんし、金払ってまでチンポ湿らせて射精しに風俗とか行ったりするのもわからん。
かと言って性欲自体は強い方だと自認しててセルフプレジャーもといオナニーはしこたましてるし性嫌悪とかではないと思う。
ラブコメとかは好きでよく読むけど自分がこうなりたいとかは思わない。
性欲の対象自体は男女その他を特に問わないんだけど、性指向がなんか違うのか俺は?アセクシャルもなんか違うしアロマンティックもよくわからん。一応バイでいいのかね?
よくわからん。
彼女が出来なくて〜とか婚活が〜とか非モテが〜とかが話題になる度になんかモヤモヤするんだよなぁ。
ほんまよくわからん。
ビリーアイリッシュに励まされて書く。女同士だってそんな話できる相手なぞいないのだ。
セックスでイケない。セルフならクリではイケる。同じクリでも人に触られるとイケない。統計上こういう女性が大多数であることは承知してる。でも好きなんだよね、セックスと男の人が。
この際自己分析してみて、相手に気を遣いすぎ、どう見られるかを気にしすぎてるんじゃないかと思う。長く付き合ってあれこれ試した相手でも無理だったんだよ、一番近づいたのはバックでされつつ自分でおもちゃ当てるシチュだったんだけど、何でか(今思うと本当に何で…)自分は降りて相手がイクのを優先しちゃったんだよね。混雑エレベーターじゃないんだよ!あの時の私、猛省しろ!!!
そうそう。成人映画館増田の話を読んで思ったのは、知らない人に触られていきなりイケるってどういう事だよ、こいつ本当に女か?嘘くせぇ、だよ。こちらも早い段階から興味あって研究は怠ってないので、成人映画館に集客したい男が執筆しているのでなければ、実に羨ましい体質だね。