GPT3.5とGPT4とでは歴然の差があるとは感じる
でもGPT4とClaude 3 Sonnetとでどれくらい差があるのか、よくわからん
○○の出力は得意だね、賢いね、とか
結局恣意的に見てるだけなんじゃねって気がするし
英語や中国語ヒンディー語スペイン語とかの他の言語で賢いの?どーなの?って尺度では体感的には分からない
実際は何某かのスコアを使って定量的な性能評価をしてます、なんだろうけど
どこまで信用できるんですかね
賢い賢くないってそのスコアで測れるんですかね
AIっていう非常に複雑な対象を、何々スコアっていう単純なものさしで本当に測れているのか?
人間だってペーパーテストの点数や知能テストで「賢さ」が分かるかっていうとそうではないじゃん
いまだに地頭なんていうよーわからん概念を信仰してたりするじゃない、人間はね
と、いうふうなことがAIにも言えるんじゃないのと思う
LLMが競い合う折れ線グラフみたいなやつも、あれを出して、○○が××を上回りました、って主張するけど本当にそうなのかね?
歌川広重並に疑わしいよね