はてなキーワード: 証明とは
過去10年間のディープラーニングの進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニング・システムが単純な画像を識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマークをクラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。
https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png
ディープラーニング・システムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィック データで見る我々の世界
私たちは文字通りベンチマークを使い果たしている。 逸話として、友人のダンとコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生や大学生が受ける最も難しい試験に匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90%だ。
より広く言えば、GPT-4は標準的な高校や大学の適性試験をほとんど解いている。(GPT-3.5からGPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから、人間の成績の上位に入るところまで、しばしば到達した)
https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png
GPT-4の標準テストのスコア。また、GPT-3.5からGPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間の中央値よりかなり下から人間の最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)
https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png
灰色:2021年8月に行われた、MATHベンチマーク(高校数学コンテストの難解な数学問題)の2022年6月のパフォーマンスに関する専門家の予測。赤い星:2022年6月までの実際の最先端のパフォーマンス。ML研究者の中央値はさらに悲観的だった。
MATHベンチマーク(高校の数学コンテストで出題された難しい数学の問題集)を考えてみよう。このベンチマークが2021年に発表されたとき、最高のモデルは問題の5%しか正解できなかった。そして元の論文にはこう記されている:「さらに、このままスケーリングの傾向が続けば、単純に予算とモデルのパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズムの進歩が必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルーが必要だ、そう彼らは考えたのだ。ML研究者の調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内(2022年半ばまで)に、最高のモデルの精度は5%から50%に向上した。
毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去10年間のAIから学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。
現在、最も難しい未解決のベンチマークは、博士号レベルの生物学、化学、物理学の問題を集めたGPQAのようなテストである。問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパスは現在60%程度であり、それに対してインドメインの博士たちは80%程度である。
https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png
続き I.GPT-4からAGIへ:OOMを数える (4) https://anond.hatelabo.jp/20240605205024
論点としては以下かな
ただ、メリットとしては、これまで婚活市場に参入してこなかった人が「官製アプリ」ということで登録してくる可能性があるので、そういう「婚活初心者」を狙って、すでにアプリや結婚相談所で活動している人が、その写真とプロフィールを持ち込んで参入するのはアリかもね。
日本もすごく共働きが増えて、共働き子育てを推奨してる雰囲気もあるんだけども、自分もその中にいる一人。
でもさ、推奨するんなら、専業主婦(夫)にあたる人はいないんだという前提で社会をまわしてほしいんだよね。
なんで平日日中に出向かないとできないような手続きばっかりなわけ?
学校とかさ、保護者会。いいよ、必要なんでしょ。行ってみたらすでに配られている資料を読み上げるだけ。無意味だから今すぐやめろ。口頭じゃないと無理なら動画配信でもいいし。最低限、「資料と内容は同じだから参加は任意」くらい言え。始まる最初に、今日の趣旨と、終了時間と、内容について話せ。そこは基本だろ。
あと最近、車を買い替えたんだけど。同じマンションの同じ駐車場を使い続けるだけの話なのに、車庫証明を取るために警察に行き、納税証明をとるために税事務所に行き、印鑑証明をとるために役所に行き。しかも、こっちは数年に一度しかないものだから記入ミスとかが起きると数回行く羽目にもなる。手続き以前に、そもそもこの手続き全体は必要なのか?いらんだろ?どうしても必要ならそっちが来い。あんたらは平日昼間に何日も休めるところに勤めてるのか??そっちは毎日同じことを繰り返しているんだろうが、こっちは数年に1度なんだよ。細かい慣習知っているわけないだろ。
この話で思い出したが、世の中いろいろあるDX。会社の中でも人事や総務が頑張ってやってる。それはやればいい。でもナントカクラウドを導入してこっちは逆に時間がかかっているんだよ。上に書いたが、こっちはまれにしか触らないんだよそのシステム。そのたびごとに100ページとかのマニュアルを引っ張り出して、それでもわからないとかエラーがでるとか。馬鹿なんじゃないのかこの設計。昔のほうが早かったよ。
ただの打ち合わせにいちいち呼び出す客先もそうだ。君らは1時間の会議と思ってるんだろうが、こっちは行き来するから3時間かかるんだよ。
他人の時間を大切にしよう。DXのとか言う前にそもそも要らんものはやめよう。毎日繰り返しているものは洗練させよう。頼むよ。
努力だの、肉体だの、心だの、そういったものは全て技術のための手段であり、目的は格闘のための技術でしかない。
そして格闘のための技術もまた、人間を破壊する、もしくは破壊されないようにする、ひいては「壊される前に壊す」という目的のための手段である。
試し割りが結果として、「何年もかけて鍛えなくても、コツさえ掴めば素人でも人間を壊せる」ということを証明しているなら、それは空手という技術の価値を証明していることに他ならない。
空手は別に「毎日頑張って鍛錬をして、物凄く頑張っているから凄い」というものではない。
そんな「ラジオ体操スタンプシート100枚埋めたぜ!」のような所に空手の目指すものはない。
空手の目指す究極とは「ついさっきコツを教わったばかりのチビが、大男をいとも簡単にやっつける」にある。
肉体という格差、鍛錬の時間、そういったものを如何に容易にひっくり返せるのかという部分にこそ技術の価値は宿るわけだ。
試し割りというある種の手品が見せているのは、「空手家はこんなに頑張って鍛えているから頑張っているんだぞ」ではないのだ。
試し割りという姑息なトリックの目指すものは、「物を壊すのに必要なテクニックについて俺達は日夜勉強しているんだ」という研究成果の発表なのである。
10枚20枚の瓦を一度に叩き割るのは、師範代が腕立てをしまくってムキムキになったことを自慢しているのではなく、「瓦の数が増えた所で、空手にとってはちょっとした応用問題にすぎないぜ(ただしある程度の鍛錬は要するものとする)」というパフォーマンスなのだ。
民事訴訟法82条1項は、裁判所は、救助の決定をしなければならない、と定めているが、お前がそう書いたことはどうでもいい。問題は、民事訴訟法の体系にこれを設定するための
証明はされているかどうかが問題である。同法82条1項本文を読むだけでは、その性質を判定することは困難である。なぜなら、82条1項本文はさして驚愕に値するような規定ではない
からである。82条1項および2項は、民事訴訟の本案判決に至るまでの経過的な規定であって、数学で言えば、補題である。補題は定理と違い、驚愕的である必要があるかどうか分から
ない。なぜなら補題程度であれば、国際数学の半分が人が解ける問題でも出て来るからである。補題の設定証明が著しく難しいならば、国際数学の易問すら誰も解けないことになる。従って
民訴法82条1項2項はあまり魅力的な規定ではない。法82条1項2項には精神があるとされるが、民訴法の目的は、民事手続きの簡易迅速な処理であるとされている。しかし、民事
手続の簡易迅速な処理という法目的と精神からは、82条1項2項の規定は出て来ないので、82条1項2項の背景には、憲法25条の福祉国家の精神があるのではないかと推測されて
いる。民事訴訟法といえども、法目的だけから出来ているわけではなく、憲法の条文の精神に由来するものもある可能性がある。
第82条
訴訟の準備及び追行に必要な費用を支払う資力がない者又はその支払により生活に著しい支障を生ずる者に対しては、裁判所は、申立てにより、訴訟上の救助の決定をすることができる。ただし、勝訴の見込みがないとはいえないときに限る。
訴訟上の救助の決定は、審級ごとにする。
客観的事物的、物理的に言って、そのような秩序内容のものではないことが1つ。 ありもしないもの、 存在していない事実を言っても仕方がない。
次に、希望しているものを予想している場合には、作り上げる必要がある。 (最高裁大法廷判決昭和35年1月19日行政集65巻2号1344頁参照)
ヒトの大腸を電波指令によって動かすプログラムを光電波でヒトの大脳の表面に送信し大脳を操作し自動的に大脳から腸に指令を出し排便を促進する発明
Colと、ωアッバスターというファンクターを使用して強制する。
二次凸多面体に代数的構造を埋め込む研究 Gelfant-Zelvinski Iwan-Syvelman Mikhail-Kapranov による研究
考えていないし実行していない。 存在していないものの例・・・ お前に対する興味 証明は簡単で、お前のいるところにトラメガを撃ち込んでいる時点でものが存在していないし
技術的に作ったり、あるようにすることができないことが明らか
あの問題はなんか、claimの1番目の証明は、疎明でもいいというか、対称性の原理から明らかであるといったような簡素なものであったが、claim 2は、かなり専門的な議論をしていくと、
円周角の定理から結論が言える、といったような論法で、そのclaim 2 の特徴として、 専門的でくそ真面目な印象を受けた。この2つの議論をしても、なんか、パスカルの定理が出て来るときは
普通に出て来るのではなく、ジグザグになんか変な風に適用されるので、やたら派手と言うか過激で嫌な感じがしたのですが、超対称性でもなんでも、技術的に言っていることに飛躍が
あるっちゅんですかね、そんなのは出来ねえから嫌だな、という印象を受けます。 直角三角形を近所にある点を中心に一回転させたら、 斜辺を使った正方形もできるし、ついでにもう一つの
大きな正方形もでいるっていうのは、話だけを聞いたら分かるが、なんでそんなことが発生するのかと言っても、分からない。 不変量とか不変式の問題は、最初は、ケイリーという数学者が研究した
らしいですが、あ、それからなんか、分からなくても自分がやった奴を組み合わせていけば本質は分かるような気がするが。
超対称性って何かというと、概念だけ聞いたら、 対称性が2つ重なっているっていうんですが、 なんか、Highterなので、 1つはつまんない対称性で、それもやっぱり超対称性が出現する
ときはやっぱり難しい出て来方をする
国際数学の問題は、1~6の全部が難しいように見えますが、 1,2,4,5は東大生でも手がつくもので、3,6は、途中で脳梗塞になって全部はできないというような感想。
国際数学の一番評価されている問題は、 円ωに鋭角三角形が内接していて、 ωに直線 L が接しており、 三角形の辺を軸に、Lを対象移動したときにできる直線で形成される
問題の感想として、 直角三角形と鈍角三角形の場合には、成立しないことに興味を持ったが、 鋭角というのは英語で確か acute-triangleといったのではないかと思う。
THEOREM 5.5 鋭角三角形のときは、ωとλは接する。 ただし、鈍角および直角の場合はこの限りではない。
というように書けると思う。
証明の手順は、 幾何学の教科書に書いている専門的な知識を、全部使用し、なおかつ、パスカルの定理を登場させることによりするので、非常にハイレベルで難しい。
幾何学は2000年前のエジプトの古代人が戦争中に地面に棒で書いて熱中していたものに端を発するのであるが、上の問題は、幾何の教科書の専門知識を全部用いて、有名な定理を
増田のアホは、他人をバカにすれば自分が賢いと証明できると思っているし
エロ動画見てるアホは、自分の趣味でない動画を駆逐すれば、自分の趣味の動画が増えると思っている。
なんだろうな。根が同じなんだよな。