GPT-4の性能が分からない

はてな匿名ダイアリー

2024-08-20

■GPT-4の性能が分からない

GPT-4oのほうじゃなくてGPT-4のほう。

GPT-4の性能がどれぐらいかって、みんな分かるものだろうか。

自分はリリースされて少し経ってから試して、当時「ああ、色々汲んでくれるな。」と感じたものだった。

が、自分の中でChatGPTといわずLLMの使用があまり定着せず、GPT-4自体もあまり試さず仕舞いになってしまった。

そして、GPT-4の性能がどれくらいかという自分の中での感覚値は今もないままだ。

感覚値が無いからときに美化がされる。GPT-4の時点でこれぐらいはできてたんじゃないかと。

GPT-3.5 Turboもそう。もう触れないが、GPT-4oに置き換わる前に触って「リリース当時のGPT-3はこんなものじゃなかった。」と思ったものだった。

2023年は「GPT-4越え」という誇大広告をよく見た。2023年の時点だと超えたのは無かったと思う。

だが、2024年、Claude3 Opusが出て、GPT-4oが出て、Claude3.5 Sonnetが出て、Gemini 1.5 Pro Expが出て、GPT-4oが更新されて、少しづつだが上限が更新されていった。

巷でもちゃんとGPT-4を越えたものが出た、という言説が広まっていたと思う。実際GPT-4と比べて難点も感じつつも使用感は良かった。

しかし、無印のGPT-4って2024年に出たモデル達と比べてそんなに劣るものなのだろうか。

LLMの性格もあるので比較が少ししづらいというのもあるが、そこまで差があるものか？と思う。

でも、そう思うのはひとえにGPT-4についての感覚値が自分の中に無いからなんだろう。

最近はClaude3.5 SonnetかClaude3 Opus(有料アカウント)、GPT-4o(無料アカウント)を使っている。GPT-4には触れられていない。

感覚値を得ようと並列して使っているが感覚値は全然得られていない。

どれを使うかは気分で使い分けているので、もし一つだけだったとしても、まあなんとかはなるんだろう。

いや、Opusに怒られるのが好きなので、どれか一つに絞るのならOpusにしそう。業務向きなのは間違いなくSonnetのほうやGPT-4oのほうだが。

Permalink | 記事への反応(1) | 22:57

記事への反応 -

anond:20240820225700
ワイは基本はGPT-4o使って制限に達したときだけCopilot使うやで。でも仕事は逆にCopilot優先で使うやで。
- anond:20240820235156
  コパイロット君無能すぎない？
- anond:20240820235156
  Copilot…そういえばあったな。 Bing AIの頃重かったのとUIが色々崩れてたのが気になって、あとMSアカウント一度ログアウトしてしまって、それで離れていたけど、今触ったら前より軽くな...

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん