AIの性能って正しく測れてるのかね

はてな匿名ダイアリー

2024-06-22

■AIの性能って正しく測れてるのかね

GPT3.5とGPT4とでは歴然の差があるとは感じる

関数としての柔軟性があきらかに違う、と思う

でもGPT4とClaude 3 Sonnetとでどれくらい差があるのか、よくわからん

○○の出力は得意だね、賢いね、とか

結局恣意的に見てるだけなんじゃねって気がするし

日本語だけで調べても分からねえよな実際

俺は読む書く聞く話すが日本語しかできない日本人だから

英語や中国語ヒンディー語スペイン語とかの他の言語で賢いの？どーなの？って尺度では体感的には分からない

実際は何某かのスコアを使って定量的な性能評価をしてます、なんだろうけど

どこまで信用できるんですかね

賢い賢くないってそのスコアで測れるんですかね

数学とか統計もドシロウトなので分からないけれど

AIっていう非常に複雑な対象を、何々スコアっていう単純なものさしで本当に測れているのか？

人間だってペーパーテストの点数や知能テストで「賢さ」が分かるかっていうとそうではないじゃん

いまだに地頭なんていうよーわからん概念を信仰してたりするじゃない、人間はね

と、いうふうなことがAIにも言えるんじゃないのと思う

LLMが競い合う折れ線グラフみたいなやつも、あれを出して、○○が××を上回りました、って主張するけど本当にそうなのかね？

歌川広重並に疑わしいよね

Permalink | 記事への反応(0) | 08:44

記事への反応 -

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん