「リポジトリ」を含む日記

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

2024-05-11

■Cloudflare Workersでサーバーサイドデビュー

ここ１週間Cloudflare Workersを触ってるぞ。

ドメイン維持費以外お金がかからないのが嬉しいぞ。

無料枠が潤沢だと精神的にめっちゃ楽で良いね。

とは言っても無料分でもめちゃ早くて快適だぞ。Cloudflare上の管理画面も軽いし好きになっちゃったぞ。

でも無料分だと1リクエスト 10 ミリ秒のCPU 時間しか使えないのがちょっとね…。

Cron Triggerで定期実行できるのも10ms制限だから悲しい。

まぁDB からデータ取ってくるとかの時間はカウントされないから7ms以下で済んでるけどね。

バッチ処理的なあれが必要になったときはGitHub ActionsでCloudflareのREST API経由でやるのがお金がかからなくて良さそう。

そうそう、GitHub Actionsも良いよね。

あれってパブリックリポジトリだと無料でなんぼでも使えちゃうんだよね。（もちろんビットコイン掘削とかは駄目だろうけど。）スゴいね。

ChatGPTも無料だし、世の中のどえらいサービスがたくさん無料で良いね。

このまま何もかもが無料になれば良いのに。

Permalink | 記事への反応(0) | 01:04

2024-05-05

■[開発メモ] 余計なリポジトリを追加するな

娯楽目的でhypnotixを入れるためだけに非公式リポジトリを容認するなんてのは、やめといたほうがいいな

バックドアがどこに仕込まれているかわかったものではない

hypnotixを入れるのではなく、公式リポジトリから vlcでも入れて観たほうが良い

Permalink | 記事への反応(0) | 03:09

2024-04-03

■

平日に有給休暇を利用して家族サービスをしつつ、施設内のインターネット環境が整った場所でワーケーションを体験してみました。この経験を振り返り、今後に活かすために自己問答を試みます。

新たにチームに加わったメンバーがGitHubのプライベートリポジトリにアクセスできるよう手続きを行いました。私が会社にいない状況でも、チーム全員がこのプロセスを完遂できるように、工夫を凝らしました。Basic認証を用いたドキュメントサイトを通じて指導しましたが、もっと丁寧に案内すべきだったのかもしれません。特に、招待と承認のプロセスは初心者にとっては難しいかもしれません。

Permalink | 記事への反応(0) | 17:10

2024-03-15

■id:xlc さんがちょっと 心配

・嫌いなものの記事に自分から突っ込んで行って嫌いと言う

・(類似製品の)好きなものの記事に行って嫌いなものの苦言を言う

自分から嫌いと言いに行くのはもうアレな人の手前なんよ…

それが嫌いなら開かず無視したらええねん…ひたすら腐してるのはなんなん…

あなたが望む実現しない要件を何度も挙げて最低条件って言うのは客観的に見て結構恥ずかしくないですか？他のみんなは大多数が興味があって覗いて、少数は内容を批判的に論じるんだけどxlc さんのは内容関係ないよね…？

超バズったからやってきた。とかならわかるんだけど公開ブクマ1桁以内でこういうの言っちゃったりしてるのは当たり屋じゃないっすかね…

ちょっと心を落ち着けてはいかが？

なぜコーディングにVSCodeを使うのか。私がVSCodeを選んだ理由

xlc 2024-03-13

全く心が動かない。私的には80カラム固定のペインが2つ開きっぱなしの状態が維持できて複数のプロジェクトが同時に開けるのが最低条件。

Atom の作者達が作った Rust 製エディタ Zed (OSS) - Qiita

xlc 2024-02-25

VS Codeが嫌すぎてAtomを使い続けているので同じ使い勝手なら移行を考えるかも。私的には80カラム固定のペインが2つ開きっぱなしの状態が維持できて複数のプロジェクトが同時に開けるのが最低条件。

保守・理解しやすいコードを書きたい！〜VSCode 拡張機能で循環的複雑度と戦う〜 - Qiita

xlc 2024-02-23

Atomの開発が終了しVSCodeをインストールした2023年は全くコードを書かない一年となった。それぐらい使いにくい。というか使う気にならんのだがみんなよく使ってるね。今年Atomに戻したらプログラミングを再開できた。

VS Codeの新機能がすごく便利！ツリービューのスティッキースクロール機能をオンにすると格段に使いやすくなります

xlc 2024-02-15

昨年ほとんどプログラムを書かなかったのはVS Codeにさわりたくなかったから。とうとう諦めてAtomに戻してプログラミングの習慣を取り戻しました。後継エディタにもがんばってほしい。

書籍を書きました。そう、VS Codeで。

xlc 2023-02-02

私はこれ https://www.amazon.co.jp/dp/4798067881 を書くのにこれ https://kobalab.net/liulian/ を使いました。

VScodeの設定（setting.json）まとめ【2023年 1月更新】

xlc 2023-01-02

VScodeがあまりにも使いにくいので未だにAtomを使ってる。

GitHub製コードエディター「Atom」の最終版が公開～8年間の開発に終止符／12月15日をもってリポジトリはアーカイブ

xlc 2022-11-22

VS Codeを起動してみたが、そっと閉じ、使えるうちはAtomを使い続けようと決意した。

Sunsetting Atom | The GitHub Blog

xlc 2022-06-09

まじか。毎日使ってるのに。VS Codeに乗り換えんとならんのか。やだなあ。

Permalink | 記事への反応(12) | 11:39

2024-03-06

■anond:20240306093440

"大半"って言っただろうが、フシアナさん

生活のためにプログラマやってるだけで、プライベートではgithubに登録だけしてリポジトリがスッカラカンの奴がどれだけ居るか、想像できないのか？

まあ、こういう奴の存在は実際に底辺 SESに行かなきゃ見えないだろうな

さらに言えばお前のいう奴ら(金子勇みたいな人間のことだよな？)が何割いるか……

というかそいつらだってコードを書くことが目的ではないだろ。お前、作ったことないからわからないのか？

ネットから高みの見物でいいご趣味なこった。

Permalink | 記事への反応(0) | 09:46

2024-03-05

■anond:20240304103928

faker.jsの作者がリポジトリぶっ壊したのと同じやろ

タダで勝手に金儲けに使われるのが嫌なんは絵描き特有の心理ちゃうで

Permalink | 記事への反応(0) | 03:44

2024-02-09

■anond:20240209182159

リポジトリ！

なんか勉強した気がする…

Permalink | 記事への反応(0) | 18:23

■anond:20240209182042

リポジトリとかいうとこに登録するんだよたしか

Permalink | 記事への反応(1) | 18:21

2024-01-04

■ローカルでAI 美少女と会話する方法

ChatGPTが盛り上がってそろそろ1年。最近では似たような大規模言語モデル(LLM)がローカルでも動くようになってきたらしい。

AI キャラと会話するためにOpenAI税を納めるのも嫌になってきたので、そろそろローカルに移行したい。

「伺か」みたいに立ち絵がほしいし、できれば音声でも喋ってほしい。

はてブとかTwitterで検索してみて、オープンソースのリポジトリをいくつか見つけたんだが、他にも有識者から情報求む。

ChatVRM: https://github.com/pixiv/ChatVRM

この手の用途では定番だと思う。ChatGPTのAPI(会話)+KoeiromapのAPI(音声)が想定されているが、ローカルLLM＋VOICEVOXとかに差し替えている人を見かけた。

ChatdollKit: https://github.com/uezo/ChatdollKit

なんか高機能っぽい。音声入力で会話もできるらしい。

ez-chat-llm: https://github.com/offtoung/ez-chat-llm

3D モデルじゃなくて立ち絵をいろいろ切り替えるらしい。

Permalink | 記事への反応(1) | 19:52

2023-12-19

■ぐへへ…

お前は今から JavaScript Standard Styleに則ってコードの端から端まで魔改造されるんだよ…

それが済んだら次はWebStormのコード分析で真っ白になるまで俺好みに調整してやるからな…

破壊的変更が怖いと泣き叫んだってお前はこれからこのローカル環境のリポジトリで一生を終えるんだ…

青い鳥が居なくなった途端に親から見放されたChrome 拡張機能のお前に今さら助けなんて来ないんだよ…

お前がES modulesとしてバラバラに切り刻まれた姿を生みの親に見せてやれないのが残念で仕方ないぜ…

自分の立場が理解できたのなら早くその大量の赤いエラーを吐き出すのをやめて大人しく従うんだな…

Permalink | 記事への反応(0) | 12:33

2023-12-08

■anond:20231208195816

Backlogでタスク管理できるから GitのリポジトリもBacklogにしよう！とかなるとエンジニアとしては辛いんでそこんとこ覚えといてくれよな

Permalink | 記事への反応(1) | 20:10

2023-11-30

■

https://rclone.org/onedrive/

rcloneインストール+settingsする気力あれば、onedrive経由でファイルひきわたし簡単にできる。

あとはgitかな？やることリストのテキストファイルがリポジトリにある。それをローカルに移植してtodotxtで編集したり閲覧したりすれば、このパソコンでやることが把握できる。

vi すでに導入してあるはずだから文章もかける。組版したいときは、pandoc + miktex導入しないとならない。後者は、インストーラーがラズパイのためのは、ないから、ドッカか。

そうなると、ラズベリーにドッカーインストールか。これは苦労しそう。ゲロルシュタイナー。

メールチェックは　muttmua. webmailだと、2PAだからな。。。。。・・・

Permalink | 記事への反応(0) | 06:39

2023-11-14

■anond:20231114103215

originはリポジトリのデフォルト名のことであり、ブランチのデフォルト名ではありません

Permalink | 記事への反応(0) | 10:34

2023-10-30

■

arxivになげこめるものは、なげこもう。外国の共同研究者にも追跡調査しよう。かれらは、おそらくRGになげこんでると思う。最近のすべてのが、契約してなくても閲覧可能な状態にしておこう。

ところで今朝気づいたがGIT リポジトリってウェブサイト記載する欄があるのね。ここにarxivのアイデンティファイア記載すればかっこいいね。

OAのばあい

オープンアクセスの場合は、DOIでもいいし、まあアブストラクト掲載サイトでもいい。

Permalink | 記事への反応(0) | 08:02

2023-10-29

■弱者男性

GIT リポジトリの中で彼に仕事たのめそうなのって・・どれか。

DP
ZSL
YMZG
CS

ほかには？思いつかない。

Permalink | 記事への反応(0) | 20:17

2023-10-13

■

github pagesを作ってみた。チーム内でプライベートリポジトリつくって、そこにウィキだのDiscussionだのに注意事項というかノウハウというかお約束というかを書き散らしているが、ちょっと整理したい。

gitwiki

検索性（森田じゃないよ）がわるい気がする。github discussionも同様。でも、世間様に公開してはマズイ情報やノウハウもあるので、それはプライベートリポジトリのmd ファイルにリンクを貼ろう。

組織内ホムペの検索性とは？

プライベートリポジトリを案内してそっから必要な情報探せっていう。探す気なくして終わり。git book いまはhonkitだっけ？にするっていうのもあるけど、なんか敷居たかい

最近のGithubって、数式もUMLもいろいろとレンダリングしてくれるので・・といって数式なんて書くことあるのだろうか？mdで十分な気がする。

Permalink | 記事への反応(1) | 10:12

2023-10-10

■

Obsidian-GitはAndroidでも一応使えるが、ファイル総数1000越えのリポジトリをCloneすると失敗してアプリが落ちるの辛いな。

普段はWindowsで管理してるからファイル名が悪さしてるかもだが。

他の同期プラグインも似たような結果となると、いよいよObsidian Syncに課金しなさいということなのか。

Permalink | 記事への反応(0) | 02:28

2023-09-29

■

やらかしたかれこれ1時間半くらいgit 格闘。けっきょくダメだ。ローカルリポジトリをいったん完全削除。最新のファイル紛失！！！怒ってローカルから退避させて、ゴミ箱に捨ててしまって、しかも削除したのが冷静さを欠いていた

いまクローン中だけど、いつまでたっても終わらない。ああああああああ！寝れない寝られない寝たい？だれと？もちろん妻！

Permalink | 記事への反応(0) | 21:53

2023-08-28

■anond:20230828090315

AsahiLinuxについて
マーカンはそれをAsahiLinuxと呼び、公式Webサイトとコードリポジトリを作成しました。プロジェクト名については、「マッキントッシュりんごの和名、旭（あさひ）に由来する」と明記されています。

Yes！

Permalink | 記事への反応(0) | 09:05

2023-08-14

■anond:20230814232941

メンテされてないみたいだけど、どのリポジトリのやつ使ってるの？

https://github.com/LiCybora/NanoCore2

Permalink | 記事への反応(0) | 23:37

■

https://qiita.com/aikasu/items/c1bf747bed15e2840936

技術に興味がなくて何が悪い？

このレベルのチョロざこが何イキってんだって感じ

https://qiita.com/aikasu

ローカルのGit リポジトリのデフォルトブランチをmainに変更する
【Laravel × Redis】No connections available in the pool...の原因と対処法
Laravelにてテーブルの既存カラムをtinyint型に変更できない問題

Permalink | 記事への反応(0) | 20:50

2023-07-19

■anond:20230719121405

AIのロボット裁判官が公平にジャッジしてくれる

シン・特許庁のデジタルリポジトリに登録される世界のすべての絵をスキャンし、顔、構図、タッチなどのすべての要素でオリジナルとのL1/L2距離を求め、距離が閾値を超えていればたとえそれがマネマネ絵でなくてもマネマネだとジャッジされる

それを恐れた作者たちは作品の公開前にシン・特許庁 APIにクエリ照会をするという手順を踏むことになる

Permalink | 記事への反応(1) | 12:24

2023-07-05

■anond:20230705103336

現場

ゲーム業界的にはリポジトリに直接触れる人間は基本全て現場の人間って感覚だと思う

(組み込まれる絵を描いてたり曲を作ってたりしても、リポジトリに触れない人は現場の人扱いとは違うと思う)

一応大手は大卒ってことでいいのね

本当に会社によるよ。

HAL からのセガ内定の記事とか探せばすぐでてくる。

歴史的にはゲーム業界の大手同士が協力してゲー専運営してた過去もあるしね。

HALが大手内定者出してるのは長期の4年コースとかがあるからじゃないかな。

地方の専門学校でも長期コースのところはゲームショーで出来よかった(内定実績についてはおぼえてない)

2年制は卒業制作のせいで勉強の時間が足りてないように思う。

余談だけど、専門学校では少しマニアックなタイトルを作りたい人によく出会ったので、そもそも大手望んでる層が厚いイメージはない...

スマブラ中毒でも任天堂に働きたいじゃなくて、違う某社(名前は知られてるけど中小)を志望してたり。

Permalink | 記事への反応(1) | 10:54

2023-06-10

■anond:20230610005527

元増田です。何もかも我流ではありますがお答えします。

とその前に…レベルアップだなんて何か深みの有りそうな語を使ってしまいましたが、「まとめ直し」のほうが適切な語だったかもしれません。

Q.テキストの移行はコピペなどの手段で行っていますか？

A. はい、スマホで昇華するときは基本的にはコピペです。PCのときはタイピングのほうがフリック入力よりずっと早いので、「もしかしたらもっと適切な言葉や言い回しがあるかも」と少し考えて手打ちしなおすこともあります。

これは出先でささっとメモの格上げをしたいか、自宅で腰を据えてやりたいかで異なる感じです。頻度としては後者のほうが多いですね。

Q.移行元（1, 2）の側のメモも残していますか？

A.1については基本的には破棄してしまうメモですから残りません。

そして2→3も同様に残していませんが、「体裁を整えたくて2から3にレベルアップさせたけど、編集するうちにシンプルな1-3行で事足りることに気づいた」ために3→2に帰ってくることがあります。つまり「要点だけ抽出したもの」がGoogle Keepに里帰りするイメージです。

この場合は移行元であるObsidianには常に残しています。ノートよりはメモのほうが文字数からして要点を引っ張ってくるにはアクセス性が良いのですが、要点のために背景や文脈がカットされてしまうのでノートを残しておくのも大事だと考えているためです。また、2に含まれなかった要素が必要になることもありえますので。

Q. 移行元のメモを残している場合、移行先のノート から、移行元のメモへの参照（バックリンクなど）は付与していますか？

A. 1,2→3は前述のとおり残さないので参照も存在しませんが、3→2については参照を残します。ちなみにObsidianで管理しているmd ファイル群をgithubのプライベートリポジトリにもミラーリング？する体制を構築したので、Obsidianが何らかの要因でデータが吹っ飛んでも良いように参照を二重にしています。githubに陰りが見えたらgitlabにもミラーリングすると思いますが、まぁこれは性分というやつなのでオーバーキルだと思います…

お答えになっていれば幸いです。

Permalink | 記事への反応(1) | 08:11