はてなキーワード: リポジトリとは
これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。
フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる)。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。
データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近、ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。
インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい:
モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。
さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学的問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。
AlphaGo(囲碁で世界チャンピオンを破った最初のAIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。
LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である(さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。
以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。
余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた)。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)
続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017
ここ1週間Cloudflare Workersを触ってるぞ。
とは言っても無料分でもめちゃ早くて快適だぞ。Cloudflare上の管理画面も軽いし好きになっちゃったぞ。
でも無料分だと1リクエスト10ミリ秒のCPU時間しか使えないのがちょっとね…。
Cron Triggerで定期実行できるのも10ms制限だから悲しい。
まぁDBからデータ取ってくるとかの時間はカウントされないから7ms以下で済んでるけどね。
バッチ処理的なあれが必要になったときはGitHub ActionsでCloudflareのREST API経由でやるのがお金がかからなくて良さそう。
あれってパブリックリポジトリだと無料でなんぼでも使えちゃうんだよね。(もちろんビットコイン掘削とかは駄目だろうけど。)スゴいね。
ChatGPTも無料だし、世の中のどえらいサービスがたくさん無料で良いね。
このまま何もかもが無料になれば良いのに。
・(類似製品の)好きなものの記事に行って嫌いなものの苦言を言う
それが嫌いなら開かず無視したらええねん…ひたすら腐してるのはなんなん…
あなたが望む実現しない要件を何度も挙げて最低条件って言うのは客観的に見て結構恥ずかしくないですか?他のみんなは大多数が興味があって覗いて、少数は内容を批判的に論じるんだけどxlc さんのは内容関係ないよね…?
超バズったからやってきた。とかならわかるんだけど公開ブクマ1桁以内でこういうの言っちゃったりしてるのは当たり屋じゃないっすかね…
なぜコーディングにVSCodeを使うのか。 私がVSCodeを選んだ理由
xlc 2024-03-13
全く心が動かない。私的には80カラム固定のペインが2つ開きっぱなしの状態が維持できて複数のプロジェクトが同時に開けるのが最低条件。
Atom の作者達が作った Rust 製エディタ Zed (OSS) - Qiita
xlc 2024-02-25
VS Codeが嫌すぎてAtomを使い続けているので同じ使い勝手なら移行を考えるかも。私的には80カラム固定のペインが2つ開きっぱなしの状態が維持できて複数のプロジェクトが同時に開けるのが最低条件。
保守・理解しやすいコードを書きたい! 〜VSCode拡張機能で循環的複雑度と戦う〜 - Qiita
xlc 2024-02-23
Atomの開発が終了しVSCodeをインストールした2023年は全くコードを書かない一年となった。それぐらい使いにくい。というか使う気にならんのだがみんなよく使ってるね。今年Atomに戻したらプログラミングを再開できた。
VS Codeの新機能がすごく便利! ツリービューのスティッキースクロール機能をオンにすると格段に使いやすくなります
xlc 2024-02-15
昨年ほとんどプログラムを書かなかったのはVS Codeにさわりたくなかったから。とうとう諦めてAtomに戻してプログラミングの習慣を取り戻しました。後継エディタにもがんばってほしい。
xlc 2023-02-02
私はこれ https://www.amazon.co.jp/dp/4798067881 を書くのにこれ https://kobalab.net/liulian/ を使いました。
VScodeの設定(setting.json)まとめ【2023年1月更新】
xlc 2023-01-02
VScodeがあまりにも使いにくいので未だにAtomを使ってる。
GitHub製コードエディター「Atom」の最終版が公開 ~8年間の開発に終止符/12月15日をもってリポジトリはアーカイブ
xlc 2022-11-22
VS Codeを起動してみたが、そっと閉じ、使えるうちはAtomを使い続けようと決意した。
Sunsetting Atom | The GitHub Blog
xlc 2022-06-09
ChatGPTが盛り上がってそろそろ1年。最近では似たような大規模言語モデル(LLM)がローカルでも動くようになってきたらしい。
AIキャラと会話するためにOpenAI税を納めるのも嫌になってきたので、そろそろローカルに移行したい。
「伺か」みたいに立ち絵がほしいし、できれば音声でも喋ってほしい。
はてブとかTwitterで検索してみて、オープンソースのリポジトリをいくつか見つけたんだが、他にも有識者から情報求む。
この手の用途では定番だと思う。ChatGPTのAPI(会話)+KoeiromapのAPI(音声)が想定されているが、ローカルLLM+VOICEVOXとかに差し替えている人を見かけた。
github pagesを作ってみた。チーム内でプライベートリポジトリつくって、そこにウィキだのDiscussionだのに注意事項というかノウハウというかお約束というかを書き散らしているが、ちょっと整理したい。
検索性(森田じゃないよ)がわるい気がする。github discussionも同様。でも、世間様に公開してはマズイ情報やノウハウもあるので、それはプライベートリポジトリのmdファイルにリンクを貼ろう。
プライベートリポジトリを案内してそっから必要な情報探せっていう。探す気なくして終わり。git book いまはhonkitだっけ?にするっていうのもあるけど、なんか敷居たかい
最近のGithubって、数式もUMLもいろいろとレンダリングしてくれるので・・といって数式なんて書くことあるのだろうか?mdで十分な気がする。
ゲーム業界的にはリポジトリに直接触れる人間は基本全て現場の人間って感覚だと思う
(組み込まれる絵を描いてたり曲を作ってたりしても、リポジトリに触れない人は現場の人扱いとは違うと思う)
本当に会社によるよ。
歴史的にはゲーム業界の大手同士が協力してゲー専運営してた過去もあるしね。
HALが大手内定者出してるのは長期の4年コースとかがあるからじゃないかな。
地方の専門学校でも長期コースのところはゲームショーで出来よかった(内定実績についてはおぼえてない)
余談だけど、専門学校では少しマニアックなタイトルを作りたい人によく出会ったので、そもそも大手望んでる層が厚いイメージはない...
とその前に…レベルアップだなんて何か深みの有りそうな語を使ってしまいましたが、「まとめ直し」のほうが適切な語だったかもしれません。
A. はい、スマホで昇華するときは基本的にはコピペです。PCのときはタイピングのほうがフリック入力よりずっと早いので、「もしかしたらもっと適切な言葉や言い回しがあるかも」と少し考えて手打ちしなおすこともあります。
これは出先でささっとメモの格上げをしたいか、自宅で腰を据えてやりたいかで異なる感じです。頻度としては後者のほうが多いですね。
A.1については基本的には破棄してしまうメモですから残りません。
そして2→3も同様に残していませんが、「体裁を整えたくて2から3にレベルアップさせたけど、編集するうちにシンプルな1-3行で事足りることに気づいた」ために3→2に帰ってくることがあります。つまり「要点だけ抽出したもの」がGoogle Keepに里帰りするイメージです。
この場合は移行元であるObsidianには常に残しています。ノートよりはメモのほうが文字数からして要点を引っ張ってくるにはアクセス性が良いのですが、要点のために背景や文脈がカットされてしまうのでノートを残しておくのも大事だと考えているためです。また、2に含まれなかった要素が必要になることもありえますので。
A. 1,2→3は前述のとおり残さないので参照も存在しませんが、3→2については参照を残します。ちなみにObsidianで管理しているmdファイル群をgithubのプライベートリポジトリにもミラーリング?する体制を構築したので、Obsidianが何らかの要因でデータが吹っ飛んでも良いように参照を二重にしています。githubに陰りが見えたらgitlabにもミラーリングすると思いますが、まぁこれは性分というやつなのでオーバーキルだと思います…
お答えになっていれば幸いです。