「swe」を含む日記

はてなキーワード: sweとは

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

2024-04-15

■anond:20240415084839

そのアメリカの話だし

学歴コンプ炸裂してるのは君では？

アメリカでデータサイエンティストで高等教育受けてないなんて通常ありえないよ

トップテックのSWEでCSの学位持ってない人もほとんどいないし

Permalink | 記事への反応(2) | 08:57

2024-04-14

■anond:20240414125453

味噌汁にクソを入れるかミソを入れるかはどうでも良くないよ

デザインパターンというのは言語やフレームワークを超えて使うものだよ

GAFAのSWE 面接で言語やフレームワークなんか聞かれないよ

好きな言語で答えてくださいって言われる

あっちも別にその言語が得意とも全然限らない

俺は知ってるんだよ

2回落ちたから笑

Permalink | 記事への反応(1) | 13:05

2024-04-01

■anond:20240401101416

Sales Engineerは日本でいうプリセールスです

ソフトウェアの設計やコーディングをする人はSWE（Software Engineer）と言います

Systems Engineerというのも無くはないけど一般的ではないし日本のSE（システムエンジニア）とは違います

Permalink | 記事への反応(0) | 10:17

2024-03-09

■anond:20240309230934

まあ日本のメーカーの研究所にいるエンジニアとGoogleのSWEでは残念ながら差があるよねえ

Permalink | 記事への反応(0) | 23:41

2024-03-04

■anond:20240304112959

偏屈なジジイプログラマーがよくそういった主張をしているけど、今の若い世代の優秀なSWEは大体陽キャでコミュニケーションを通じて知識を習得しているんやでという話。

Permalink | 記事への反応(1) | 11:31

2024-02-27

■anond:20240227225534

前職でWeb制作出身のCEOがSWEに期限厳守させて大失敗したのを思い出した。

自分はソフトウェア開発の専門家だと思いこんでいるみたいで更にたちが悪かった。（Web制作をソフトウェアの開発と良いでよいのかは微妙なところだと思う）

Permalink | 記事への反応(0) | 23:23

2024-02-07

■anond:20240207222720

いやあ、SWEはコミュ力が重要視されるからまず面接で落ちる（自分は重度の吃音症）し、機械学習エンジニアは修士卒以上じゃないと厳しい（自分は学部卒）だから詰んでるんだよな。

AtCoder jobsに助けを求めたが、職業紹介を断られた。理由は不明。

Permalink | 記事への反応(1) | 22:35

2024-02-03

■anond:20240203144535

ワイ20代 SWE、ReactとGoとAWS しか知らん。

Permalink | 記事への反応(0) | 14:52

2023-12-25

■anond:20231225225807

別に SwE しか仕事がないわけじゃないから…

Permalink | 記事への反応(1) | 23:02

2023-12-23

■ここに居る奴らって本当にエンジニアとして働いているんか？

ワイは事業会社でSWEとして働いているけど、営業からの無茶な要望なんて来たことがないぞ。

そもそも要件を決めるのはPdMだしな。

Permalink | 記事への反応(3) | 08:37

2023-12-21

■anond:20231221193720

ワイは事業会社でSWEとして働いているけど、どの会社でも大体Macやぞ。

理由は分からん。

Permalink | 記事への反応(0) | 19:44

2023-11-26

■anond:20231126011012

Kinda odd you said SO is '公式の焼き直し'. You rarely see questions/answers that could be answered by the official documents on SO, in English anyways. That usually happens when you search in Japanese. As you worked for one of GAFA in the states, I believe you are proficient in English. I don't know anybody who searches in Japanese except for special occasion like Japanese specific law or something when it comes to programming. I'm not convinced you were a SWE at GAFA. I'd be happy to be proved wrong though. Go ahead.