「ML」を含む日記 RSS

はてなキーワード: MLとは

2024-06-06

タイピングが遅い

「ChatGPTのLLMのサービス開発に取り組みたい」

「Reactを使ったモダンな開発をやっていきたい」

ML最先端研究に取り組みたい」

みたいなキラキラしたこと言って入社してきた技術新人、どいつもこいつもタイピングが遅い

VimEmacsVSCodeとかそういう派閥争いする前にそもそもタイピングが遅い

画面共有してもらって見ながら指示してるんだけどタイピング遅すぎてめちゃくちゃ生産性低い

当然ながらキーボードショートカット全然使わなくて

カーソル移動はマウスだしコピペマウスなのでくっそ遅い

普段からチャットしてないかSlackとかも全然返信来なくて

書き込み中のままかなり時間経過してちょろっと文章だけ送られてくる

世界一スピードとか求めては無いけど流石に遅すぎる

例えるならサッカー選手で足がクッソ遅いみたいな

どこのポジションでも無理だよ

anond:20240606004548

糖質増田ML失敗増田と発達増田と170未達増田が同一人物って匿名でも解るの、一種の才能なんだよな

2024-06-05

I.GPT-4からAGIへ:OOMを数える (8)

チャットボットからエージェント兼同僚へ

今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか?私が考えるに、3つの重要な要素がある:

1."オンボーディング問題 "の解決

GPT-4は、多くの人の仕事の大部分をこなせるだけの生の賢さを持っているが、それは5分前に現れたばかりの賢い新入社員のようなものだ:関連するコンテキストを持っておらず、会社ドキュメントSlack履歴を読んだり、チームのメンバーと会話したり、会社内部のコードベース理解するのに時間を費やしたりしていない。賢い新入社員は、着任して5分後にはそれほど役に立たないが、1ヶ月後にはかなり役に立つ!例えば、非常に長いコンテクストを通じて、新しい人間の同僚を雇うようにモデルを「オンボード」することは可能なはずだ。これだけでも、大きなアンロックになるだろう。

2.テスト時間計算オーバーハング(より長いホライズン問題に対する推論/エラー訂正/システムII)

今のところ、モデル基本的に短いタスクしかこなせない。しかし、これでは非常に限界がある。5分どころか、数時間、数日、数週間、数ヶ月かかるのだ。

難しい問題について5分間しか考えることができない科学者は、科学的なブレークスルーを起こすことはできない。ソフトウェアエンジニアは、より大きな仕事を与えられ、計画を立て、コードベース技術ツールの関連部分を理解し、さまざまなモジュールを書いて段階的にテストし、エラーデバッグし、可能性のある解決策を検索し、最終的には数週間の仕事集大成である大規模なプル・リクエストを提出する。などなど。

要するに、テスト時間計算オーバーハングが大きいのだ。GPT-4の各トークンは、問題を考えるときの内部モノローグ言葉だと考えてください。各GPT-4トークンは非常に賢いのですが、現在のところ、思考連鎖のために~数百トークンのオーダーしか効果的に使うことができません(あたか問題プロジェクトに数分しか内部独白思考を費やせないかのように)。

もし数百万トークンを使って、本当に難しい問題や大きなプロジェクトについて考え、取り組むことができるとしたらどうだろう?

トークンの数 私が何かに取り組むのに相当する時間...
100s 数分 ChatGPT (私たちはここにいる)
1000s 30分 +1 OOMsテスト時間計算
10,000 回 半日+2 OOMs
100,000ドル1週間 +3 OOMs
数百万回 複数+4 OOMs

人間が〜100トークン/分で考え、40時間/週働くと仮定して、「モデルが考える時間」をトークンで換算すると、与えられた問題/プロジェクトにおける人間時間になる。

仮に「トークンあたり」の知能が同じだったとしても、頭のいい人が問題に費やす時間が数分なのか数ヶ月なのかの違いになる。あなたのことは知らないが、私が数ヶ月でできることと数分でできることは、はるかに、はるかに、はるかに多い。もしモデルに「数分ではなく、数カ月に相当する時間、何かを考え、取り組むことができる」という能力を与えることができれば、その能力は飛躍的に向上するだろう。ここには膨大なオーバーハングがある。

今のところ、モデルにはまだこれができない。最近のロング・コンテキスト進歩をもってしても、このロング・コンテキストほとんどはトークンの消費にしか機能せず、トークン生産には機能しない。しばらくすると、このモデルはレールから外れたり、行き詰まったりする。しばらくの間、離れて単独問題プロジェクトに取り組むことはまだできない。

しかし、テスト時間計算を解除することは、単に比較的小さな「ホブリングしない」アルゴリズム勝利問題かもしれない。おそらく、少量のRLは、モデルエラー訂正(「うーん、これは正しくないようだ、再確認してみよう」)を学習したり、計画を立てたり、可能性のある解を探索したりするのに役立つだろう。ある意味モデルはすでに生の能力ほとんどを持っており、それをまとめるために、さらにいくつかのスキル学習する必要があるだけなのだ

要するに、私たちモデルに、困難で見通しの長いプロジェクトを推論させるシステムIIのアウターループのようなものを教えればいいのだ。

この外側のループを教えることに成功すれば、2、3段落の短いチャットボットの答えの代わりに、モデル問題を考え、ツールを使い、異なるアプローチを試し、研究を行い、仕事修正し、他の人と調整し、大きなプロジェクトを一人で完成させるような、何百万もの言葉ストリームあなたが読むよりも早く入ってくる)を想像してみてほしい。

他のML領域におけるテスト時間と訓練時間トレードオフ

続き I.GPT-4からAGIへ:OOMを数える(9) https://anond.hatelabo.jp/20240605210357

I.GPT-4からAGIへ:OOMを数える (3)

ディープラーニングトレンド

過去10年間のディープラーニング進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニングシステムが単純な画像識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマーククラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。

https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png

ディープラーニングシステムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィック データで見る我々の世界


私たち文字通りベンチマークを使い果たしている。 逸話として、友人のダンコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生大学生が受ける最も難しい試験匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90%だ。

より広く言えば、GPT-4は標準的高校大学適性試験ほとんど解いている。(GPT-3.5からGPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから人間の成績の上位に入るところまで、しばしば到達した)

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png

GPT-4の標準テストスコア。また、GPT-3.5からGPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間中央値よりかなり下から人間最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)

https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png

灰色2021年8月に行われた、MATHベンチマーク高校数学コンテスト難解な数学問題)の2022年6月パフォーマンスに関する専門家予測。赤い星:2022年6月までの実際の最先端パフォーマンスML研究者中央値さらに悲観的だった。

MATHベンチマーク高校数学コンテストで出題された難しい数学問題集)を考えてみよう。このベンチマーク2021年に発表されたとき、最高のモデル問題の5%しか正解できなかった。そして元の論文にはこう記されている:「さらに、このままスケーリングの傾向が続けば、単純に予算モデルパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズム進歩必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルー必要だ、そう彼らは考えたのだ。ML研究者調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内(2022年半ばまで)に、最高のモデルの精度は5%から50%に向上した。

毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去10年間のAIから学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。

現在、最も難しい未解決ベンチマークは、博士号レベル生物学化学物理学問題を集めたGPQAのようなテストである問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパス現在60%程度であり、それに対してインドメインの博士たちは80%程度である

https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png

GPQAの問題例。モデルはすでに私より優れており、おそらくすぐにエキスパート博士レベル突破するだろう...。

続き I.GPT-4からAGIへ:OOMを数える (4) https://anond.hatelabo.jp/20240605205024

糖質増田ML失敗増田と発達増田と170未達増田が同一人物って匿名でも解るの、一種の才能なんだよな

anond:20240605122318

ANNってML世界では普通Artificial Neural Networkの略でNNと同義だが

とりあえず浅く知ってるの出してるのが透けてるんだよ君

anond:20240605120909

それはあるんだがML関連では確定できない曖昧なのを扱うのが得意なのであって

評価方法もかなり複雑になるのでこうやったらこう出ると言うのを求めてくる人間相手にする事自体が間違い

anond:20240605120531

から「どういう入力にどういう出力をするか」を確定したいならNNのMLは向いてないよ

anond:20240605115657

NNやMLというか、推薦システムの話ね

ユーザーがある特定アイテムクリックしたという情報があったときに、そのアイテム属性に関連するアイテムを推薦してほしいわけね

で、具体的にはコンテンツベース推薦を使ってて、アイテムを100次元ベクトル圧縮してANN検索してるから、実際に抽出してみるまでは「どういう入力にどういう出力をするか」ってのがわからない

なぜなら教師なし学習から

anond:20240605115023

この間もあなたにこれ言ってキレられたけど

入力Aに対して出力Bが得られる例はない?

あなたのとこNNのMLわかってなくない?

これがやりたいなら40年前のエキスパートシステムやるべきじゃん

anond:20240605113008

エンジニアじゃないAI語って人様を煽ってる君はMLの基礎の基礎さえ知らんけど

統計的推定理論の基本もわかってなさそう

有効推定量って意味わかる?

anond:20240605112743

俺がエンジニアから勝ちなんじゃなくて

エンジニアじゃないAI語って人様を煽ってる君はMLの基礎の基礎さえ知らんけど

煽った相手の俺はエンジニアからちゃんとやってるので勝負にもならないって話

さいならー

anond:20240605104210

AIの中にMLが含まれてるんとちゃう

ML使わないAIもあるやろ

anond:20240605103414

そうだけどそもそもそれを言ったら普段AIなんか言わんよ

MLっていう

合わせてるだけ

2024-05-15

anond:20240515181622

1人1日3リットルとか言われてますが、1週間備蓄ちょっと無理ですね。

リットル6個入のを2ケースと、10年保存500mlペットボトル12本はあるのですが10年保存のはもう期限切れです(笑)

あとはマンションの貯水タンクの水を生活用水として準備しておくくらいですかね。

不安になって置く場所考えず水のケース買いしそうです。

2024-04-30

キリアンのヴレヴ クシュ アヴェク モワがアリュールに似ているというレビューがあった

自分記憶から同意しつつ

久しぶりにアリュールを量り売りで購入しつけてみた

トワレとオードパルファムそれぞれ

お腹にヴレヴ クシュ アヴェク モワ、左腕にアリュールのトワレ、右腕にアリュールのEDP

トワレのほうが似てると感じる

つけた瞬間の感じが柑橘系と白い花の甘さで良い

EDPは甘い方が強くてまろやか 癖が少ない気がして物足りないと思った

しかしつけて1時間、トワレはすっかり飛んでしまった

EDPは残ってる

で、お腹プッシュしたヴレヴは相変わらず濃厚に香る

ヴレヴ クシュ アヴェク モワのこの重いパウダリーが好きで、似ている香水コスパの良いものがあればと探してた

アリュールはまあ似てる、どっちも好きだと思う、mlあたり単価ならえーと

アリュール100で2万ちょっと、ヴレヴは50で4万だから、まあ4分の一なわけだ

アリュールトワレの軽さもEDPのまろやかさも、日常使いと思えばむしろメリット

でもなあ

ヴレヴの、あのどっしり重いパウダリーが好きなんだよなあ

臭いバサンくさい香りと言われても

もったりとして包み込まれるような安心感が変え難い

ということで、アリュールボトルに手を出すよりは、ヴレヴ クシュ アヴェク モワを消費する方向かな

2024-04-02

anond:20240402085343

ルー大柴だけど多分MLじゃないよ

k-means clusteringでもない

日本語やったことないから知らんけど

2024-04-01

anond:20240401154909

俺の中というかMLやってる全員がパイプラインといったらデータとってくる部分だと認識してるしランダムフォレストなんか関係ないよ

言わなかったけどNLPとNNにxgboostあたりのフォレストは2年くらいがっつりやっとるんや

anond:20240401153832

NLPで近似最近傍法というのは例えば何のグループを出してるの?近似最近傍法自体は単にMLだけどなぜそれがNLPなの?

ログイン ユーザー登録
ようこそ ゲスト さん