過去 10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマークをクラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。

https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png

ディープラーニング・システムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィックデータで見る我々の世界

私たちは文字通りベンチマークを使い果たしている。逸話として、友人のダンとコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生や大学生が受ける最も難しい試験に匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90％だ。

より広く言えば、GPT-4は標準的な高校や大学の適性試験をほとんど解いている。(GPT-3.5から GPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから、人間の成績の上位に入るところまで、しばしば到達した)

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png

GPT-4の標準テストのスコア。また、GPT-3.5から GPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間の中央値よりかなり下から人間の最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)

https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png

灰色：2021年 8月に行われた、MATHベンチマーク（高校数学コンテストの難解な数学問題）の2022年 6月のパフォーマンスに関する専門家の予測。赤い星：2022年 6月までの実際の最先端のパフォーマンス。ML 研究者の中央値はさらに悲観的だった。

MATHベンチマーク（高校の数学コンテストで出題された難しい数学の問題集）を考えてみよう。このベンチマークが2021年に発表されたとき、最高のモデルは問題の5％しか正解できなかった。そして元の論文にはこう記されている：「さらに、このままスケーリングの傾向が続けば、単純に予算とモデルのパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズムの進歩が必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルーが必要だ、そう彼らは考えたのだ。ML 研究者の調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内（2022年半ばまで）に、最高のモデルの精度は5％から50％に向上した。

毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去 10年間のAI から学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。

現在、最も難しい未解決のベンチマークは、博士号レベルの生物学、化学、物理学の問題を集めたGPQAのようなテストである。問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパスは現在60％程度であり、それに対してインドメインの博士たちは80％程度である。

https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png

GPQAの問題例。モデルはすでに私より優れており、おそらくすぐにエキスパート・博士レベルを突破するだろう...。

続き I.GPT-4からAGIへ：OOMを数える (4) https://anond.hatelabo.jp/20240605205024

Permalink | 記事への反応(1) | 20:47

■anond:20240605201219

私は認めませんし、あなたも証明できていません。証明する意思はありますか？

Permalink | 記事への反応(1) | 20:15

■anond:20240605201011

つまり、あなたは自ら証明する能力がないことを認めるわけですね？

Permalink | 記事への反応(0) | 20:14

■anond:20240605200802

女性が下方婚しないという事実は統計的に明らかなので証明するまでもありません。

Permalink | 記事への反応(2) | 20:10

■anond:20240605091903

論点としては以下かな

すでに婚活市場にマチアプや結婚相談所が溢れているのに、そこに官製アプリを追加することの意味
- サービスとしての新規性は無い
  - 結婚相談所であればすでに独身証明や年収証明が義務づけられている
  - アプリでも年収証明や独身証明などを提出できる真面目なサービスはある（ユーブライドやゼクシィ縁結びなど）
- 手間がかかると登録者の母数が増えない
既存のサービスを使っていないカジュアル層に広げることで質を下げてしまう問題
- 婚活にお金を払えない人（低年収層）やお金を払うつもりのない人（やる気のない人）が集まることによるマッチングの質の低下
官製アプリであることによる機動性の無さ・制約
- アプリでも相談所でもプロフィールの作り方や写真の撮り方、メッセージのやりとりに工夫が必要なのだけど、そのサポートがなさそう
- アプリや相談所のシステムには存在する機能が、政治的な制約で落とされる可能性がある

ただ、メリットとしては、これまで婚活市場に参入してこなかった人が「官製アプリ」ということで登録してくる可能性があるので、そういう「婚活初心者」を狙って、すでにアプリや結婚相談所で活動している人が、その写真とプロフィールを持ち込んで参入するのはアリかもね。

Permalink | 記事への反応(2) | 18:37

■他人の時間を大切にしてよね

日本もすごく共働きが増えて、共働き子育てを推奨してる雰囲気もあるんだけども、自分もその中にいる一人。

でもさ、推奨するんなら、専業主婦(夫)にあたる人はいないんだという前提で社会をまわしてほしいんだよね。

特に公共系ね。

なんで平日日中に出向かないとできないような手続きばっかりなわけ？

学校とかさ、保護者会。いいよ、必要なんでしょ。行ってみたらすでに配られている資料を読み上げるだけ。無意味だから今すぐやめろ。口頭じゃないと無理なら動画配信でもいいし。最低限、「資料と内容は同じだから参加は任意」くらい言え。始まる最初に、今日の趣旨と、終了時間と、内容について話せ。そこは基本だろ。

あと最近、車を買い替えたんだけど。同じマンションの同じ駐車場を使い続けるだけの話なのに、車庫証明を取るために警察に行き、納税証明をとるために税事務所に行き、印鑑証明をとるために役所に行き。しかも、こっちは数年に一度しかないものだから記入ミスとかが起きると数回行く羽目にもなる。手続き以前に、そもそもこの手続き全体は必要なのか？いらんだろ？どうしても必要ならそっちが来い。あんたらは平日昼間に何日も休めるところに勤めてるのか？？そっちは毎日同じことを繰り返しているんだろうが、こっちは数年に1度なんだよ。細かい慣習知っているわけないだろ。

この話で思い出したが、世の中いろいろあるDX。会社の中でも人事や総務が頑張ってやってる。それはやればいい。でもナントカクラウドを導入してこっちは逆に時間がかかっているんだよ。上に書いたが、こっちはまれにしか触らないんだよそのシステム。そのたびごとに100ページとかのマニュアルを引っ張り出して、それでもわからないとかエラーがでるとか。馬鹿なんじゃないのかこの設計。昔のほうが早かったよ。

ただの打ち合わせにいちいち呼び出す客先もそうだ。君らは1時間の会議と思ってるんだろうが、こっちは行き来するから3時間かかるんだよ。

他人の時間を大切にしよう。DXのとか言う前にそもそも要らんものはやめよう。毎日繰り返しているものは洗練させよう。頼むよ。

Permalink | 記事への反応(2) | 17:53

■印鑑証明とか残高証明とか

すげえ雑というか、簡単に偽造できそう

Permalink | 記事への反応(0) | 15:25

■anond:20240605141543

昔から真面目な婚活用（独身証明とか必要なやつ）と売買春目当てとサクラしかいない所に分けられてたぞ

Permalink | 記事への反応(0) | 14:24

■

ガイジって罵っておいて、都合が悪いと即消す器の小さすぎるムーブいいよいいよｗ

自分がガイジだって自分で証明していってるねｗ

Permalink | 記事への反応(0) | 08:41

■anond:20240605082751

チョムスキーって「政治分野でおかしなこと言うけど言語学では神」って評価だけど日本語話者として見るとUG論も直感的にありえんってなって、じゃあもう言ってることが議論のきっかけになったかどうかは別にして内容は全部デタラメだろとしか思えなくなってくる

UG論者は英語至上主義的態度取って「UG論は科学的に証明された真実だし〇〇人の〇〇は馬鹿すぎるから早く潰さないと」とか言ってくるし最悪

Permalink | 記事への反応(1) | 08:32

■anond:20240605081602

存在しないことを証明するのは不可能なのでそっちが存在することを証明しろ

はい論破

Permalink | 記事への反応(2) | 08:20

■anond:20240605080748

存在しないと証明はされていない

はい論破

Permalink | 記事への反応(2) | 08:16

■anond:20240605055627

はああ？

いや、あいつ年間スターランキングTOP5だよ？

セルフブクマで証明してもらったんだけど、

ブクマ数でもそんな感じなの？

うへー口がうまいわけだ

Permalink | 記事への反応(0) | 06:02

■anond:20240605054508

証明する方法はないけど、俺は割と載るんだな、これが。だから夜勤増田の類はあのビミョーにそれっぽく道徳的そうなコメを書くけど☆付かないような連中なんだろうなぁと思ってる。

Permalink | 記事への反応(0) | 05:48

2024-06-04

■「試し割りはトリック」と言ってる奴ら、格闘技のことを何も分かってない

格闘技とは「技」つまりは「技術」だ。

努力だの、肉体だの、心だの、そういったものは全て技術のための手段であり、目的は格闘のための技術でしかない。

そして格闘のための技術もまた、人間を破壊する、もしくは破壊されないようにする、ひいては「壊される前に壊す」という目的のための手段である。

試し割りが結果として、「何年もかけて鍛えなくても、コツさえ掴めば素人でも人間を壊せる」ということを証明しているなら、それは空手という技術の価値を証明していることに他ならない。

空手は別に「毎日頑張って鍛錬をして、物凄く頑張っているから凄い」というものではない。

そんな「ラジオ体操スタンプシート１００枚埋めたぜ！」のような所に空手の目指すものはない。

空手の目指す究極とは「ついさっきコツを教わったばかりのチビが、大男をいとも簡単にやっつける」にある。

肉体という格差、鍛錬の時間、そういったものを如何に容易にひっくり返せるのかという部分にこそ技術の価値は宿るわけだ。

試し割りというある種の手品が見せているのは、「空手家はこんなに頑張って鍛えているから頑張っているんだぞ」ではないのだ。

試し割りという姑息なトリックの目指すものは、「物を壊すのに必要なテクニックについて俺達は日夜勉強しているんだ」という研究成果の発表なのである。

１０枚２０枚の瓦を一度に叩き割るのは、師範代が腕立てをしまくってムキムキになったことを自慢しているのではなく、「瓦の数が増えた所で、空手にとってはちょっとした応用問題にすぎないぜ（ただしある程度の鍛錬は要するものとする）」というパフォーマンスなのだ。

武闘家が宣伝しているのはいつだって「技術」なのだ。

俺達の身につけた「技術」はこんなに凄いんだ。俺達のやってきた勉強は正しかったんだ。そう言いたいのである。

Permalink | 記事への反応(0) | 21:12

■

　　　　民事訴訟法８２条１項は、裁判所は、救助の決定をしなければならない、と定めているが、お前がそう書いたことはどうでもいい。問題は、民事訴訟法の体系にこれを設定するための

　　証明はされているかどうかが問題である。同法８２条１項本文を読むだけでは、その性質を判定することは困難である。なぜなら、８２条１項本文はさして驚愕に値するような規定ではない

　　からである。８２条１項および２項は、民事訴訟の本案判決に至るまでの経過的な規定であって、数学で言えば、補題である。補題は定理と違い、驚愕的である必要があるかどうか分から

　　ない。なぜなら補題程度であれば、国際数学の半分が人が解ける問題でも出て来るからである。補題の設定証明が著しく難しいならば、国際数学の易問すら誰も解けないことになる。従って

　　民訴法８２条１項２項はあまり魅力的な規定ではない。法８２条１項２項には精神があるとされるが、民訴法の目的は、民事手続きの簡易迅速な処理であるとされている。しかし、民事

　　手続の簡易迅速な処理という法目的と精神からは、８２条１項２項の規定は出て来ないので、８２条１項２項の背景には、憲法２５条の福祉国家の精神があるのではないかと推測されて

　　いる。民事訴訟法といえども、法目的だけから出来ているわけではなく、憲法の条文の精神に由来するものもある可能性がある。

　　第82条　

訴訟の準備及び追行に必要な費用を支払う資力がない者又はその支払により生活に著しい支障を生ずる者に対しては、裁判所は、申立てにより、訴訟上の救助の決定をすることができる。ただし、勝訴の見込みがないとはいえないときに限る。

訴訟上の救助の決定は、審級ごとにする。

Permalink | 記事への反応(1) | 20:32

■

　　　　客観的事物的、物理的に言って、そのような秩序内容のものではないことが１つ。　ありもしないもの、　存在していない事実を言っても仕方がない。

　　　　次に、希望しているものを予想している場合には、作り上げる必要がある。　（最高裁大法廷判決昭和３５年１月１９日行政集６５巻２号１３４４頁参照）

　　　　　　　ヒトの大腸を電波指令によって動かすプログラムを光電波でヒトの大脳の表面に送信し大脳を操作し自動的に大脳から腸に指令を出し排便を促進する発明

　　　　　　Colと、ωアッバスターというファンクターを使用して強制する。

　　　　　　　二次凸多面体に代数的構造を埋め込む研究　　　Gelfant-Zelvinski　Iwan-Syvelman　Mikhail-Kapranov　による研究

　　　　　考えていないし実行していない。　存在していないものの例・・・　　お前に対する興味　　　　証明は簡単で、お前のいるところにトラメガを撃ち込んでいる時点でものが存在していないし

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　技術的に作ったり、あるようにすることができないことが明らか

Permalink | 記事への反応(0) | 19:25

■https://anond.hatelabo.jp/20240604161751

　　　　あの問題はなんか、claimの１番目の証明は、疎明でもいいというか、対称性の原理から明らかであるといったような簡素なものであったが、claim 2は、かなり専門的な議論をしていくと、

　　　円周角の定理から結論が言える、といったような論法で、そのclaim 2　の特徴として、　専門的でくそ真面目な印象を受けた。この２つの議論をしても、なんか、パスカルの定理が出て来るときは

　　　　普通に出て来るのではなく、ジグザグになんか変な風に適用されるので、やたら派手と言うか過激で嫌な感じがしたのですが、超対称性でもなんでも、技術的に言っていることに飛躍が

　　あるっちゅんですかね、そんなのは出来ねえから嫌だな、という印象を受けます。　直角三角形を近所にある点を中心に一回転させたら、　斜辺を使った正方形もできるし、ついでにもう一つの

　　　大きな正方形もでいるっていうのは、話だけを聞いたら分かるが、なんでそんなことが発生するのかと言っても、分からない。　不変量とか不変式の問題は、最初は、ケイリーという数学者が研究した

　　らしいですが、あ、それからなんか、分からなくても自分がやった奴を組み合わせていけば本質は分かるような気がするが。

　　　　超対称性って何かというと、概念だけ聞いたら、　対称性が２つ重なっているっていうんですが、　なんか、Highterなので、　１つはつまんない対称性で、それもやっぱり超対称性が出現する

　　ときはやっぱり難しい出て来方をする

　　　　国際数学の問題は、１～６の全部が難しいように見えますが、　１，２，４，５は東大生でも手がつくもので、３，６は、途中で脳梗塞になって全部はできないというような感想。

Permalink | 記事への反応(0) | 18:05

■anond:20240604163204

仕事の難易度だけで男女の難易度を決めてるヤツがガイジだってのは自らの論で証明してくれたようだな。

Permalink | 記事への反応(0) | 16:44

■

　　　　国際数学の一番評価されている問題は、　円ωに鋭角三角形が内接していて、　ωに直線　L　が接しており、　三角形の辺を軸に、Lを対象移動したときにできる直線で形成される

　　三角形の外接円がωに接することを示せ、という問題である。

　　　　問題の感想として、　直角三角形と鈍角三角形の場合には、成立しないことに興味を持ったが、　　鋭角というのは英語で確か　acute-triangleといったのではないかと思う。

　　実定法学の場合だとこれはまた、

　　　　　　　　THEOREM　５．５　　鋭角三角形のときは、ωとλは接する。　ただし、鈍角および直角の場合はこの限りではない。

　　というように書けると思う。

　　　　　証明の手順は、　　幾何学の教科書に書いている専門的な知識を、全部使用し、なおかつ、パスカルの定理を登場させることによりするので、非常にハイレベルで難しい。

　　　幾何学は２０００年前のエジプトの古代人が戦争中に地面に棒で書いて熱中していたものに端を発するのであるが、上の問題は、幾何の教科書の専門知識を全部用いて、有名な定理を

　技術的に用いるので、幾何の教科書を勉強していないととてもではないが到達しない。

Permalink | 記事への反応(3) | 16:17

■anond:20240604142919

増田のアホは、他人をバカにすれば自分が賢いと証明できると思っているし

エロ動画見てるアホは、自分の趣味でない動画を駆逐すれば、自分の趣味の動画が増えると思っている。

なんだろうな。根が同じなんだよな。

お前は自分の趣味の動画にイイネすべきだろ？

Permalink | 記事への反応(0) | 14:32

■anond:20240604114926

ごめんどこがどう戯言なのか読み取れなかったのでもっと詳しく

天下のアメリカ様が、
「大量破壊兵器は持ってないし作ってない！実物もないし作った証拠もない！」ってあらゆる外交手段を通じて証明したイラクに対して、
「いいや必ず持っているはずだ！証拠が見つからないのが証拠だ！」って言いがかりつけて戦争始めるようなのが実際なんだから、
「戦争は外交手段の一つかつ外交の最終手段」なんて平和ボケの戯言だよね…。

Permalink | 記事への反応(1) | 11:52

■anond:20240604113633

天下のアメリカ様が、

「大量破壊兵器は持ってないし作ってない！実物もないし作った証拠もない！」ってあらゆる外交手段を通じて証明したイラクに対して、

「いいや必ず持っているはずだ！証拠が見つからないのが証拠だ！」って言いがかりつけて戦争始めるようなのが実際なんだから、

「戦争は外交手段の一つかつ外交の最終手段」なんて平和ボケの戯言だよね…。

Permalink | 記事への反応(2) | 11:49