「スタック」を含む日記

はてなキーワード: スタックとは

2024-07-25

■

バイインはスタックの5%にしろって私何回も言ったよね

Permalink | 記事への反応(0) | 10:05

2024-06-27

■競プロも機械学習もやってないやつの コード

競プロと機械学習系のクソコード・クソジャークっぷりが取り立たされてるけど、クソコード・クソジャークっぷりは何も競プロ erと機械学習 erの専売特許ではない。

自分が経験したやつを以下に列挙する。

組み込み系er（C言語）のクソコード・クソジャークっぷり

ファイル管理がめちゃくちゃ。tlsというファイルに、ユーザの設定画面用のコード（html, css, javascrpt）があるみたいなのがザラ。
「ジョブ管理用のリングバッファが壊れている」「データのログ取得の日時がでたらめ」と報告しても、「壊れてない」「それは仕様」の一点張り。しょうがないので担当外の俺が修正しても、「なんの修正ですか？」「壊れてないので無駄な修正なのですが・・・」などとのたまう。しょうがないのでどう壊れているかを本人の眼の前で1日かけて実演してみせ、このせいでクレームが来ているということを言って聞かせて納得させ、ようやく修正が反映される。こういうのが1回や2回ではない。
コードはsvnで管理していると言いつつも、有名無実化。ファイルのコピペで管理している。「製品のバージョンごとに修正するのが大変なのでこれを期にGitHubなど使いませんか？」と言っても長々と言い訳してそのまま運用され、修正コードの反映が1日がかりのおお仕事になる。
いわゆる黒魔術的なポインタ操作を好んで使う。ポインタの命名規則もptr_とかつけるわけでもない。「珍しくptr_をつけてると思ったらポインタのポインタだった」みたいなのがザラ。
グローバル変数を好んで使う。スタック容量の削減的な意味合いもあるが、とにかく引数を使うことを「関数が長くなるから」と言って嫌う。
early returnを嫌い、「returnは常に一つ」を徹底する。なぜ・・・

フロントエンド erのクソコード・クソジャークっぷり

party parrotやミームを多用する
- チャットがrainbow party parrotだらけで目がチカチカする
- コードレビューや社内用スライドでネットミームやparty parrotネタをぶち込んで空気を激寒にする
型や命名やファイル構成に異様にこだわる
- 型定義ファイルのみのPRでコメントが「読みやすくしました（party parrotがぐるぐる回っている）」ばっかり
- ファイルと同階層にテストファイルを作るか、テストコード用のフォルダを作るかを延々と議論して1日消費する。ファイルと同階層に作ってるんだからそうしろ。
ダークモード信奉者で、ダークモード実装の優先度を最優先に押し上げてくる
モダンな開発環境・開発手法が大好きで、アジャイルとかを提案するのはいいが、クソ忙しいのに実装を後回しにして開発手法提案のスライドばかり作っている。しかも大企業にしか許されない10％ルールとかを推し進めてくる。
「リーダブルコード」が大好き。あっそ。

インフラ erのクソコード・クソジャークっぷり

まじで変更を嫌う。N+1 問題を指摘しても「今動いてるし、問題も噴出してないから問題なし」
他部署にヒアリングを行い、改善を聞いて、言い訳を並べて何も変更せず、という茶番を行い顰蹙を買う

VBA erのクソコード・クソジャークっぷり

エクセルの業務改善と称したVBAを大量生産するが、その人しか触れないようなものの大量生産をしておりそれに生きがいとアイデンティティを感じており、社内的地位も確立している。
VBAを作るネタを常に探しており、他部署に顔を出しまくってはヒアリングし、作ってと頼んでないのに勝手に作って「こんなの作りました！」と売り込んでくる。苦笑しながら受け取って実際は使わない。
呼んでもないのに他部署の社内勉強会に顔を出す。好きあらばVBA語り。

Permalink | 記事への反応(2) | 03:18

2024-06-18

■anond:20240618181231

はいまず結果が不確定なことやるときは、バイインをスタックの5%でやりましょーねー

うまく行ったら続ける、ダメだったら戦術を変えましょーねー

Permalink | 記事への反応(1) | 18:15

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (5)

アルゴリズムの効率化

コンピュートへの大規模な投資が注目される一方で、アルゴリズムの進歩も同様に重要な進歩の原動力であると思われる（そして、これまで劇的に過小評価されてきた）。

アルゴリズムの進歩がどれほど大きな意味を持つかを理解するために、MATHベンチマーク（高校生の競技用数学）において、わずか2年間で～50%の精度を達成するために必要な価格が下がったことを示す次の図を考えてみてください。(比較のために、数学が特に好きではないコンピュータサイエンスの博士課程の学生が40%のスコアを出したので、これはすでにかなり良いことです)。推論効率は2年足らずで3OOMs-1,000倍近く向上した。

https://situational-awareness.ai/wp-content/uploads/2024/06/math_inference_cost-1024x819.png

MATHのパフォーマンスを〜50%にするために必要な推論コストの概算。

これは推論効率だけの数字だが（公開データから推論するのが難しいトレーニング効率の向上と一致するかどうかはわからない）、アルゴリズムの進歩は非常に大きく、また実際に起こっている。

この記事では、アルゴリズムの進歩を2種類に分けて説明します。まず、「パラダイム内」でのアルゴリズムの改良を取り上げることにします。例えば、より優れたアルゴリズムによって、同じパフォーマンスを達成しながら、トレーニングの計算量を10倍減らすことができるかもしれません。その結果、有効計算量は10倍（1OOM）になります。(後ほど「アンホブリング」を取り上げますが、これはベースモデルの能力を解き放つ「パラダイム拡張/アプリケーション拡張」的なアルゴリズムの進歩と考えることができます)。

一歩下がって長期的な傾向を見ると、私たちはかなり一貫した割合で新しいアルゴリズムの改良を発見しているようです。しかし、長期的なトレンドラインは予測可能であり、グラフ上の直線である。トレンドラインを信じよう。

アルゴリズム研究がほとんど公開されており、10年前にさかのぼるデータがある）ImageNetでは、2012年から 2021年までの9年間で、計算効率が一貫して約0.5OOM/年向上しています。

https://situational-awareness.ai/wp-content/uploads/2024/06/pareto_frontiers_imagenet_epoch-1024x349.png

アルゴリズムの進歩を測定することができます。同じ性能のモデルを訓練するために必要な計算量は、2012年と比較して2021年にはどれくらい少なくなっているのでしょうか？その結果、アルゴリズムの効率は年間0.5 OOMs/年程度向上していることがわかります。出典Erdil and Besiroglu 2022.

これは非常に大きなことです。つまり、4年後には、～100倍少ない計算量で同じ性能を達成できるということです（同時に、同じ計算量ではるかに高い性能も達成できます！）。

残念ながら、研究室はこれに関する内部データを公表していないため、過去4年間のフロンティアLLMのアルゴリズムの進歩を測定することは難しい。EpochAIは、言語モデリングに関するImageNetの結果を再現した新しい研究を行っており、2012年から 2023年までのLLMのアルゴリズム効率のトレンドは、同様に～0.5OOM/年であると推定しています。(しかし、これはエラーバーが広く、また、主要なラボがアルゴリズム効率の公表を停止しているため、最近の上昇を捕捉していません）。

https://situational-awareness.ai/wp-content/uploads/2024/06/llm_efficiency_epoch-1-1024x711.png

Epoch AIによる言語モデリングにおけるアルゴリズム効率の推定。この試算によると、私たちは8年間で～4OOMの効率向上を達成したことになります。

より直接的に過去4年間を見ると、GPT-2から GPT-3は基本的に単純なスケールアップでした（論文によると）が、GPT-3以降、公に知られ、公に干渉可能な多くの利益がありました：

我々はAPIコストから利益を推測することができる：
- GPT-4がリリースされたときのコストは、性能の絶対的な向上にもかかわらず、GPT-3とほぼ同じだった。(スケーリング法則に基づく素朴で単純化しすぎた見積もりをしてみると、GPT-3から GPT-4への実質的な計算量増加のおよそ半分がアルゴリズムの改善によるものであることがわかります)。
- 1年前のGPT-4のリリース以来、GPT-4レベルのモデルのOpenAIの価格は、GPT-4oのリリースでさらに6倍/4倍(入力/出力)に下がりました。

最近リリースされたGemini 1.5 Flashは、"GPT-3.75レベル "とGPT-4レベルの間の性能を提供する一方で、オリジナルのGPT-4よりも85倍/57倍（入力/出力）安い（驚異的な利益！）。

チンチラ・スケーリング法則は、3倍以上（0.5 OOMs以上）の効率向上をもたらす。
Gemini 1.5 Proは、MoE（Mixture of Experts）をアーキテクチャの変更点として強調し、大幅な計算効率の向上（Gemini 1.0 Ultraを凌駕し、計算量は「大幅に少ない」）を主張している。他の論文でも、MoEによるコンピュートの大幅な倍増が主張されている。
アーキテクチャ、データ、トレーニングスタックなどについては、常に多くの調整と改善が行われている。

公開されている情報を総合すると、GPT-2から GPT-4へのジャンプには、1-2 OOMのアルゴリズム効率向上が含まれていたことになります。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute_algos-1024x866.png

GPT-4に続く4年間はこの傾向が続くと予想され、2027年までに平均0.5OOMs/年の計算効率、つまり GPT-4と比較して～2OOMsの向上が見込まれます。計算効率の向上は、低空飛行の果実を摘み取るようになるにつれて難しくなる一方、新たなアルゴリズムの改良を見出すためのAI ラボの資金と人材への投資は急速に増加しています。 (少なくとも、公開されている推論コストの効率化は、まったく減速していないようだ)。ハイエンドでは、より根本的な、トランスフォーマーのようなブレークスルーが起こり、さらに大きな利益が得られる可能性さえある。

これらをまとめると、2027年末までには（GPT-4と比較して）1～3OOMのアルゴリズム効率向上が期待できることになります。

続き I.GPT-4からAGIへ：OOMを数える(6) https://anond.hatelabo.jp/20240605205754

Permalink | 記事への反応(1) | 20:54

2024-06-03

■anond:20240603182623

おすすめは…

1) プログラミング言語

2) オペレーティングシステム

3) 通信プロトコルスタック

このあたりかな

これが難しいなら…

4) デバイスドライバ

5) Webブラウザ

6) シェル

あたりもおすすめかなー

Permalink | 記事への反応(1) | 18:33

2024-05-28

■『（ある程度は読めるが）喋れない、聞けない』から、『TOEIC　815点（

『（ある程度は読めるが）喋れない、聞けない』から、『TOEIC　815点（リスニング420点）まで、5時間ｘ10か月＝1500時間』

大学受験で英語が得意科目だったのははるか昔。喋れない、聞けないから脱却の必要があり、10ヶ月の猛勉強で、さほど苦労なく英語で世間話ができて、ニュースやTEDなら比較的楽に聞けるようになった。日常的に字幕なしの海外のYOUTUBEを見ているし、世界一人気があるというポッドキャスト『The Joe Rogan Experience』も、まだら状の理解ながら、テキストなしで楽しめるようになった。

僕の勉強量と成果のバランスが良いのかどうか、自信はない。勉強時間も、平均したら、一日5 時間を大きくは超えないとは思うが、サボり気味だった期間もあり不正確である。

それだけの時間をかけたら、そりゃ、それぐらいにはなるわな、と思う方もいるだろう。

が、『TOEIC　815点』は日常生活においても楽しめる世界が圧倒的に広がるということ以外に、履歴書にも書けて転職やボランティアにも有利らしい。

日本にいるまま、リスニングとスピーキングの力を伸ばしたいと考えている人に役立つかもしれないので、書いてみる。

（X)ただ、ネイティブと話す時間を増やせばいいのだ！

と、当初考えて、オンライン英会話で、ネイティブとのレッスンを受けまくった。

そのうち、ブロークンで、適当に、喋れることを喋るだけなら、問題はなくなった。

が、文法はむちゃくちゃだし、細かな表現はできない、聞けない。会話がちゃんと噛み合わない。リスニングの能力も、上がった気がしなかった

（◯）カランメソッドで、文法的に正しい英語を喋る訓練をしよう！

と思い、カランメソッドを始めた。ちゃんと学習しようとすると、1回のレッスン時間は、25分にしか過ぎないけど、復習に1時間半かかる。合計2時間。

毎日かなりのフレーズや文を暗記しなければならず大変ではあったものの、効果を直感したので、毎日２時間をカランメソッドに注ぎ込んだ。

（ｘ）アプリ『ELSA』さえやっておけば、発音はばっちしのはず！

「正確に発音できないと、いつまでたっても聞き取れない」とあちこちに書いてあるし、発音が悪いと、簡単な単語が伝えられなくて、会話がたびたびスタックしてしまう。発音を矯正したくて、評判のアプリ『ELSA』を毎日やった。が、ある程度進むと、何度発音しなおしてもOKにならなかったり、文としての発音が難しすぎたりして、限界を感じた。

（◯）発音矯正のアメリカ人講師について正しい発音を習った。

　オンライン教室のインストラクターに教えて貰って、発音矯正の得意な先生に発音を習うことにした。毎日、25分のレッスンを受けた。目から鱗の連続だった。正しい発音の仕方（口の形、舌の位置、息の出し方など）を徹底的に教えて貰った。先生は言う、「正しい発音の仕方を、まず、知ること。知ったとしても、できるできないは、別問題。口の周りの筋肉を思ったように動かすには、毎日の練習を何ヶ月も続ける必要がある。勉強ではなく、スポーツのトレーニングと同じと思え！」

　半年ぐらい毎日レッスンを受け、今は、中断して、『ELSA』だけ毎日続けている。（ELSAによる僕の発音は90点）

　発音矯正のレッスンは、ネイティブのように喋りたい人が受けるもの、と思っていたが、大きな勘違いだった。正しい発音の仕方をまず学ぶこと。それが大事で、できなくても知ってさえいれば、毎日、ほかのレッスンで英語を喋るときに、そのように発音しようと努力するようになる。

　まず、正しい発音の仕方の基礎を徹底的に学ぶことが、大事だなと痛感した。

（◯）Netflixのドラマを全文英文表示させて理解しながら見る

　のも、リスニングとスピーイングのよい勉強になった。まあ、とにかく、ドラマは、ノンフィクションやニュースや教材と違って、わからない。子供同士の話しなんか皆目わからず、ほんとに英語かと思いたくなる。でも、字幕なしでドラマを楽しむのは、最上級の難易度。なので、無理せず、英文字幕を表示させて、一文一文、解読理解していく。今は、便利なアプリがあって、英文表示をさせつつ、キーボード操作で簡単に進めたり戻せたりできるので、能率的に勉強ができる。英語のイディオムやスラングの勉強に最適。

（ｘ）重要単語の本の単語や、単語アプリの単語をまるまま覚える

　のは、なかなか難しい。いくら単語のセレクトが能率的でも、無味乾燥な勉強になるので、苦痛だし、案外能率が悪い。

（◯）ドラマやオンラインレッスンで習った単語熟語をアプリWordHolicに入れていき、毎日、聞き流す

　ドラマから取った単語や熟語は、そのドラマのシーンとセットで頭に残るので、覚えやすい。その単語が、頻出単語なのかどうかはわからない不安が少しあるけど、覚えやすさが勝る。スマホのWordHolicに、現時点で新しく知った単語・熟語を2500語ぐらい蓄積していて、車の運転などのときに、流しっぱなしにしている（日本語→英語の順）。ボキャブラリー・ビルディングには、アプリWordHolicに次作するのが、一番の方法と思う。