はてなキーワード: コリンとは
過去10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマークをクラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。
https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png
ディープラーニング・システムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィック データで見る我々の世界
私たちは文字通りベンチマークを使い果たしている。 逸話として、友人のダンとコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生や大学生が受ける最も難しい試験に匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90%だ。
より広く言えば、GPT-4は標準的な高校や大学の適性試験をほとんど解いている。(GPT-3.5からGPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから、人間の成績の上位に入るところまで、しばしば到達した)
https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png
GPT-4の標準テストのスコア。また、GPT-3.5からGPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間の中央値よりかなり下から人間の最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)
https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png
灰色:2021年8月に行われた、MATHベンチマーク(高校数学コンテストの難解な数学問題)の2022年6月のパフォーマンスに関する専門家の予測。赤い星:2022年6月までの実際の最先端のパフォーマンス。ML研究者の中央値はさらに悲観的だった。
MATHベンチマーク(高校の数学コンテストで出題された難しい数学の問題集)を考えてみよう。このベンチマークが2021年に発表されたとき、最高のモデルは問題の5%しか正解できなかった。そして元の論文にはこう記されている:「さらに、このままスケーリングの傾向が続けば、単純に予算とモデルのパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズムの進歩が必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルーが必要だ、そう彼らは考えたのだ。ML研究者の調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内(2022年半ばまで)に、最高のモデルの精度は5%から50%に向上した。
毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去10年間のAIから学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。
現在、最も難しい未解決のベンチマークは、博士号レベルの生物学、化学、物理学の問題を集めたGPQAのようなテストである。問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパスは現在60%程度であり、それに対してインドメインの博士たちは80%程度である。
https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png
続き I.GPT-4からAGIへ:OOMを数える (4) https://anond.hatelabo.jp/20240605205024
S+ アンパンマン(勇気100倍) ブラックノーズ ゴロンゴラ(陸&海)
S アンパンマン(ドーリィ蘇生) スーパーカビダンダン ジャイアントだだんだん メタルグリンガ バイキンヘンテエネルギーメカ(戦闘形態)
S- ニャニイ(覚醒) アンパンマン(ヤミラの剣およびサンシャイン) アンパンマン(元気300倍) ジャイアントベアリングロボ ムウマ
A+ 元気100倍アンパンマン(りんごぼうや) スーパーダダンダンモグリンスリー ズダダンダン ヨゴスゾウ バイキンシャボンダダンダン 鋼鉄ばいきんまん スーパーダストデーモン チェンジバードロボ スーパーモグリン1号
A 黒雪姫 マジョーラ ブラック大魔王 氷の女王 ブラックココリン 黒バラ女王 化石の魔王 こおりおに(バナナ島) どくむしロボ ガラゴン ジャイアントモグリン 巨大鉄骨ホラーマン
A- ばいきんまん(大魔法) ウッドラー ばいきん大魔王(メコイス) ドロンコ魔王 バイキン大魔王(バイキン星の王) ランプの巨人 砂の魔王 モグリンゆうれい船
B+ ブラックロールパンナ(ロールとローラ) ハロウィンマン 闇の女王
B アンパンマン(元気100倍) ロールパンナ 鉄骨ばいきんまん スーパーモグリン2号
B- バイキン黒騎士 すなおとこ(虹のピラミッド) にじおばけ いわおとこ こおりおに なだれおに くらやみまん
C+ グリンガ 鉄骨ホラーマン 怪傑ナガネギマン あかちゃんまん ファイヤーモグリン
C へどろまん おばけいか ヌラ クータン ゴミラ モグリンガー2号 たぬきおに
C- ベロリだだんだん やみだんだん だだんだん ジャイアントばいきんまん(2000年) おむすびまん ニセパンマン アンパンマン 辛さ100倍カレーパンマン ゴロンゴロ もぐりん
D+ ジャイアントばいきんまん(2008年) 鉄火のマキちゃん 忍者のニャンジャ かつぶしまん
D バイキンUFO バイコング しょくぱんまん カレーパンマン アップルパイアンパンマン かぜこんこん アングリラ アンコラ ストーンマン でかこ母さん ゴールドかまめしどん
D- フランケンロボ もみじ王子 さくらもちねえさん サラダ姫 カエルリュウ
E やきそばパンマン ハンバーガーキッド ニガウリマン ザーマス・ボンド ひのたまこぞう ドキンUFO
E- アンパンマン(勇気3倍) かんづめカンたろう メロンパンナ こむすびまん かみなりピカタン
F+ SLマン ばいきんまん(バイキン光線の拳銃) つきのしらたま 栗のかまめしどん
F カップラーメンマン クリームパンダ アリンコキッド ハニー ショウ・ロン・ポー トリオ・デ・グー クリ・キン・トン てんどん母さん カッパのカピー ちゃわんむしまろ しかくおに さんかくまん
F- ばいきんまん(ハンマー) ドーナツマン ちびぞう ちょうちんへいじ アンパンマン(顔が〇〇〇で力が出ないver)
G ムシバキンマン たいふうぼうや らーめんてんし みるくぼうや ちくりん だいこんやくしゃ もくちゃん
G- アンパンマン(元気3倍) かぜこぞう ミミ先生 レアチーズ チーズ ドキンちゃん ドーリィ
H+ ばいきんまん てんどんまん カツドンマン かまめしどん キャベツマン りんごぼうや
前半では美術を知的にとらえようとした。後半は生物学がテーマ。
平安文学のマイブームが続き、続いて神林長平とヴォネガットを読み始める。
英国の貴族や執事、メイドがテーマ。なぜか田中啓文も読みだす。疲れたので脱力系を。
シオドア・スタージョン「一角獣・多角獣」
奇妙な味シリーズがしばらく続く。たまに古いSFが読みたくなる。
ブラウン神父シリーズは途中で飽きる。「聊斎志異」を読みだす。
冊数が少ないのは、中島敦全集がぶ厚いからだ。ページ数では一冊で実質三冊ほど読んでいる勘定だ。
ひたすら中国の古典を読む。物語としては読みやすいが、脚注について調べていると意外と時間がとられる。
アーネスト・サトウを除いて中国文学が続く。明治維新が一日単位で記録されていると見落としていた事実が多いとわかるし、刻一刻と情勢が変わっていったのも感じられる。。
やっと森薫を読み始める。ハルタコミックス(旧fellows!)ばっかり。
コロナで回数は少なめ。
「パディントン」
「イェスタディ」
「JUNK HEAD」★★
生物学、脳科学、歴史、SF、海外文学が多い傾向は昨年から変わっていない。