2024-06-22

AIの性能って正しく測れてるのかね

GPT3.5とGPT4とでは歴然の差があるとは感じる

関数としての柔軟性があきらかに違う、と思う

でもGPT4とClaude 3 Sonnetとでどれくらい差があるのか、よくわからん

○○の出力は得意だね、賢いね、とか

結局恣意的に見てるだけなんじゃねって気がするし

日本語だけで調べても分からねえよな実際

俺は読む書く聞く話すが日本語しかできない日本人から

英語中国語ヒンディー語スペイン語とかの他の言語で賢いの?どーなの?って尺度では体感的には分からない

実際は何某かのスコアを使って定量的な性能評価をしてます、なんだろうけど

どこまで信用できるんですかね

賢い賢くないってそのスコアで測れるんですかね

数学とか統計ドシロウトなので分からないけれど

AIっていう非常に複雑な対象を、何々スコアっていう単純なものさしで本当に測れているのか?

人間だってペーパーテストの点数や知能テストで「賢さ」が分かるかっていうとそうではないじゃん

いまだに地頭なんていうよーわからん概念信仰してたりするじゃない、人間はね

と、いうふうなことがAIにも言えるんじゃないのと思う

LLMが競い合う折れ線グラフみたいなやつも、あれを出して、○○が××を上回りました、って主張するけど本当にそうなのかね?

歌川広重並に疑わしいよね

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん