2024-09-10

LLMをガッツリ使いこなしている人だけが知っていること

GPT-4oの入力コンテキスト殆ど嘘だということ。

例えば、DRMクラックした本とかを読ませて「なんて書いてある?」みたいなことを聞いてみると分かるのだが、後半については殆ど無視される。128Kトークンという巨大な入力コンテキストウィンドウを持っていることになっているが、これは殆ど嘘、ごまかしであり、出力を高速化するために「渡されたものの前のほうだけ読んで適当に回答する」ということをやってくる。でもこれについて問題視している人をほとんど見たことがないので、とっくにみんな生成AIには飽きていて使ってないんだと思う。

現実的対策としては、RAGをがんばるか、あるいはテキストを分割して適切なサイズにしてから渡していって最後にその結果を統合するか。それか「OpenAIさんはそのレベルで信用できないことをやってくる」ということを前提にそもそも使わないか

  • うすうすなんか全部読んでなくね?とは感じてた

  • 全部読んでないというか、抽象化能力がない。 人間がテキストを3000文字読んでも内容を覚えていられるのは、テキストを覚えているわけではなく、テキストから得られる意味を覚えてい...

    • つーか、人だって本一冊読んで適切にそれを踏まえた回答なんかほぼ無理だろ 一部抜粋しただけの共通テストの国語で何点取れるよ

    • 人間だって、言われたことに脊髄反射した回答しか返ってこない奴のほうが多い。 3手先(自分の回答、相手の反応、それに対する自分の返し)を読んだ回答ができればそこそこ優秀(...

      • え、その位ある程度想定するのが会話の基本なんじゃないの? 相手から何が帰ってくるかも想定しないで、どうやって話しかけられるんだよ

        • 増田の周りにはそこそこ以上に優秀な人しかいないんだろう

          • はえー、どうやってコミュニケーション成立してるんやと思うけど 自分が参加したくはないなあ…

            • 会話だけで理解しあえてると思ってる方が幻想かもしれない 文書に残してすら誤解は生じる

              • 理解し合えてるという話はどっからきたの? そんな話は全然してないんだけど なるほど、このレベルで読解できないなら、テキストでも不安だろうね あなたは

                • あなたの世界では理解し合えてないことをコミュニケーションが成立していると言うのか?

                  • 「どうやってコミュニケーション成立してるんやと思う」 どう成立しているのかわからないと言っている 成立していると書いてない

                    • 理解し合えていることはコミュニケーションの前提条件なのだから、 どうコミュニケーションが成立しているか問うことは、どう理解し合えているか問うことと同じだよね。

  • 結局コレって課金してるヘビーユーザーに対してすら 処理できると言ってる容量分の仕事してくれないということなのかな? 課金しないフリーライダーなんでそんなもん(あてにならな...

  • マジレスすると入力文に対して誤差の小さい回答をしてるだけだから後半の文章はテキトーになる(重みはそこまで置いてない)。章分けするなりして細かく聞くしかない

  • 128Kトークンは128K文字ではないのだからそれはそうやんというのとトークン切りをしていることは既にRedditでは常識で、脱獄にはPoeが良く使われるからPoeを使ったらいいよ。Poeであれば200...

  • Google検索で「あなたの検索ワードの結果は約50000件あります!」 20ページめ位でもう終わりですって言ってくるくせに

  • 計算リソースを削減したいOpenAIの努力の結晶というところか プログラムの生成とかでも中略多用してくるし、色々面倒やね 有料版はそのへん緩和してほしいなぁ

  • そら安直に128000単語読ませても全部覚えてる訳ない そういうケースならチャプターごとに再帰的に要約させると良いとopenai公式のプロンプトエンジニアリングガイドに書いてあるよ https:...

  • 使いこなせてないっすね

  • 最近できるの事の輪郭が見えてきてすこし飽きてきた

  • この文にはいくつかの誤解や不正確な記述があります。それらを順に指摘します。 1. **GPT-4の入力コンテキストに関する誤解**: 文中で「128Kトークンという巨大な入力コンテキストウィ...

  • 巨大なテーブル読み込ませて最後に三行だけ重要データを入れてたらきちんとそれに反応した ただし洞察としてカスだった つまりそういうの含めクオリティがカスなので皆使わなくな...

  • これ、生成AIの中身を理解していない人がこういうことをよく言う 128kトークン入れて後半が無視されるのはアテンションが前半の方で固定化されてしまってるから そもそも128kトークン...

    • 読み込める量は無限じゃないんですか? https://gigazine.net/news/20240415-google-llm-infini-attention/

    • 文字列逆順にしてぶち込んだらどうなんのこれ トークナイザ? を通した後でさ

  • これ実際そうで大量のコンテキストを入力すると後半のことは結構無視される。 他のLLMもそう。人間も大量に何か言われたら最初のことしか覚えてないのに似てる。 コンテキストウイン...

  • これ実際そうで大量のコンテキストを入力すると後半のことは結構無視される。 他のLLMもそう。人間も大量に何か言われたら最初のことしか覚えてないのに似てる。 コンテキストウイン...

  • 以前より長文理解ではChatGPTが明確に弱いって言われてるし、GPT-4oでも改善されていないことを知っている。特に後半部分でかなりの部分を理解していない。 長文を処理する用途では個人...

  • 先進国→すぐれたソフトウェアを作り出す 永遠の縄文時代日本→先進国様が開発してくださったソフトウェアを使いこなしてドヤる

    • これは下請け根性が抜けないブルーカラー層の僻みですわ

  • 人間と一緒だね、手抜きなんて

  • 前提となるデータを多めに読み込ませるようなケースだと、途中から前提を無視するよね。 前提情報は細かいとこまで指示するような使い方を私はしてるので、4oの方が4よりも精度下が...

  • GPT-builder の knowledge-dataとして参照させてください。全体を一括処理するような場合を除けば 10万token あったとしても問題ないはず。API で公式サービスに対抗するのは大変なのでゴニョゴ...

  • まぁガッツリ使ったわけじゃないけどさー GPT-4oやらClaude3やらでプログラムコード書いてもらうのやってみたらさー、あいつらFORTAN77で書けつーてるのに、どうみてもFORTRAN95かそれより新...

  • 人間も必要になったら目次を目安にパラパラめくって読むだろ 最初のほうに目次があるのはバカでもわかるからな

  • ワイも同じことされたら前書きだけ読んで適当に答えるやで…😟

  • AIのことは全くわからないんだけど、AIに元増田みたいな文章を出力させることは可能なの?

  • 主が曖昧な書き方をしているせいで、リプが混乱している。ほとんどの反応はWebバージョンのChatGPT-4oとGPT-4oの最大トークン数の違いさえ理解していないと思われる。Webバージョンの話な...

    • なにいってんだこいつ

      • ほんとだよなww Webなんか使ってる低レベルユーザーが増田にいるわけがない

      • 現状では詳しそうに見せかけたサイトでさえ、きちんとChatGPTとGPTの書き分けが出来ているところは少ないので初学者が勘違いしてしまうのも無理はないと思う。 正確に記せば、Web版のCha...

  • 今のところ、LLMは自分の得意分野をやってもらうためのツールではなく、自分が知らない分野を完璧には理解してないかもしれないちょっと詳しい人に聞いている、くらいの温度感が丁...

    • 自分が正誤の判断できる分野でやらんとゴミが出来るだけだろ

      • おまえは若い頃、会社の先輩が言ったことをゴミだと思ってたのか? あるいはなんでも完璧な回答をくれる完全人間だと思ってたのか? 知らない分野に関して聞くときの、今のLLMとの...

  • ワイは増田で長文が流れてきてもそもそも読まないやで。

  • 論文読ませたら、先行研究を論文本体の結論としてまとめてて、こりゃ使えんわとなった。 冒頭にあるからね、先行研究

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん