2024-08-20

GPT-4の性能が分からない

GPT-4oのほうじゃなくてGPT-4のほう。

GPT-4の性能がどれぐらいかって、みんな分かるものだろうか。

自分リリースされて少し経ってから試して、当時「ああ、色々汲んでくれるな。」と感じたものだった。

が、自分の中でChatGPTといわずLLMの使用があまり定着せず、GPT-4自体もあまり試さず仕舞いになってしまった。

そして、GPT-4の性能がどれくらいかという自分の中での感覚値は今もないままだ。

感覚値が無いかときに美化がされる。GPT-4の時点でこれぐらいはできてたんじゃないかと。

GPT-3.5 Turboもそう。もう触れないが、GPT-4oに置き換わる前に触って「リリース当時のGPT-3はこんなものじゃなかった。」と思ったものだった。

2023年は「GPT-4越え」という誇大広告をよく見た。2023年の時点だと超えたのは無かったと思う。

だが、2024年、Claude3 Opusが出て、GPT-4oが出て、Claude3.5 Sonnetが出て、Gemini 1.5 Pro Expが出て、GPT-4oが更新されて、少しづつだが上限が更新されていった。

巷でもちゃんGPT-4を越えたものが出た、という言説が広まっていたと思う。実際GPT-4と比べて難点も感じつつも使用感は良かった。

しかし、無印GPT-4って2024年に出たモデル達と比べてそんなに劣るものなのだろうか。

LLMの性格もあるので比較が少ししづらいというのもあるが、そこまで差があるものか?と思う。

でも、そう思うのはひとえにGPT-4についての感覚値が自分の中に無いからなんだろう。

最近はClaude3.5 SonnetかClaude3 Opus(有料アカウント)、GPT-4o(無料アカウント)を使っている。GPT-4には触れられていない。

感覚値を得ようと並列して使っているが感覚値は全然得られていない。

どれを使うかは気分で使い分けているので、もし一つだけだったとしても、まあなんとかはなるんだろう。

いや、Opusに怒られるのが好きなので、どれか一つに絞るのならOpusにしそう。業務向きなのは間違いなくSonnetのほうやGPT-4oのほうだが。

  • ワイは基本はGPT-4o使って制限に達したときだけCopilot使うやで。 でも仕事は逆にCopilot優先で使うやで。

    • コパイロット君無能すぎない?

    • Copilot…そういえばあったな。 Bing AIの頃重かったのとUIが色々崩れてたのが気になって、あとMSアカウント一度ログアウトしてしまって、それで離れていたけど、今触ったら前より軽くな...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん