「単語」を含む日記 RSS

はてなキーワード: 単語とは

2024-06-06

anond:20240606175009

大げさにお見合いって単語使って書いたけど官製チアプや単発イベントを超えるレベル出会いへの予算を裂く事自体お見合いババアお節介みたいなものと思ってる

やめてくれと

つべ動画広告で某男性アイドル映画を見かけて

テーマ曲タイトルに「ピュア」の単語が入ってるのを認識した瞬間

「少なくともそのうちの一人は全くピュアじゃない事をしでかしたのにそういう題の曲歌うんだ!?

と驚いた

anond:20240606132616

突然ですが、タイポリセミア現象とうい言葉をご存知でかす?

タイポリセミア現象とは、文章中の単語文字をいつくか並べ替えても、その文章問題なく読めるという現象のとこです。

2024-06-05

I.GPT-4からAGIへ:OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピングデータでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティアモデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークン学習された。LLMのトレーニング使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータ使用していることになる)。さらに、コードのようなより特殊領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubリポジトリは、数兆トークン推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズム改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近公表されていない。

インサイダー強気であることに加え、サンプル効率はるかに向上させたモデルトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学教科書からどのように学ぶかを考えてみてほしい:

モデルトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニング一般的パターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルもの機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在フロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベル計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo囲碁世界チャンピオンを破った最初AIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要研究課題であるさらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。

以上のことからデータの制約は、今後数年間のAI進歩予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデル能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端技術公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者オープンソースプロジェクトフロンティアと容易に競合できた)。現在では、主要なアルゴリズムアイデアますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソース競争するのがより難しくなるだろう。それは確かに物事面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)

続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017

I.GPT-4からAGIへ:OOMを数える (2)

この4年間

私たちは今、基本的人間のように会話できるマシンを手にしている。これが普通に思えるのは、人間適応能力の驚くべき証であり、私たち進歩のペースに慣れてしまったのだ。しかし、ここ数年の進歩を振り返ってみる価値はある。

GPT-2からGPT-4へ

GPT-4までのわずか4年間(!)で、私たちがどれほど進歩たかを思い出してほしい。

GPT-2(2019年)~未就学児:"わあ、もっともらしい文章をいくつかつなげられるようになった"アンデス山脈ユニコーンについての半まとまり物語という、とてもさくらんぼのような例文が生成され、当時は信じられないほど印象的だった。しかGPT-2は、つまずくことなく5まで数えるのがやっとだった。記事を要約するときは、記事からランダムに3つの文章選択するよりもかろうじて上回った。

当時、GPT-2が印象的だった例をいくつか挙げてみよう。左:GPT-2は極めて基本的な読解問題ではまあまあの結果を出している。右:選び抜かれたサンプル(10回試したうちのベスト)では、GPT-2は南北戦争についてある程度関連性のあることを述べた、半ば首尾一貫した段落を書くことができる。

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt2_examples-1024x493.png

当時、GPT-2について人々が印象に残った例をいくつか挙げます。左: GPT-2は極めて基本的な読解問題でまあまあの仕事をする。右: 厳選されたサンプル(10回試したうちのベスト)では、GPT-2は南北戦争について少し関連性のあることを言う、半ば首尾一貫したパラグラフを書くことができる。

AI能力人間の知能を比較するのは難しく、欠陥もあるが、たとえそれが非常に不完全なものであったとしても、ここでその例えを考えることは有益だと思う。GPT-2は、その言語能力と、時折半まとまり段落を生成したり、時折単純な事実質問に正しく答えたりする能力で衝撃を与えた。未就学児にとっては感動的だっただろう。

GPT-3(2020年)~小学生:"ワオ、いくつかの例だけで、簡単な便利なタスクができるんだ。"複数段落一貫性を持たせることができるようになり、文法修正したり、ごく基本的計算ができるようになった。例えば、GPT-3はSEOマーケティング用の簡単コピーを生成することができた。

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt3_examples-1.png

GPT-3について、当時の人々が印象に残った例をいくつか挙げてみよう。上:簡単な指示の後、GPT-3は新しい文の中で作られた単語を使うことができる。左下:GPT-3は豊かなストーリーテリングを行ったり来たりできる。右下:GPT-3は非常に簡単コードを生成できる。

GPT-3はSEOマーケティング用の簡単コピーを生成することができた。上:簡単な指示の後、GPT-3は新しい文章の中で作られた単語を使うことができる。左下:GPT-3は豊かなストーリーテリングを行ったり来たりできる。右下:GPT-3は非常に簡単コードを生成できる。

繰り返しになるが、この比較は不完全であるしかし、GPT-3が人々に感銘を与えたのは、おそらく小学生にとって印象的だったことだろう。基本的な詩を書いたり、より豊かで首尾一貫した物語を語ったり、初歩的なコーディングを始めたり、簡単な指示やデモンストレーションからかなり確実に学習したり、などなど。

GPT-4(2023年)~賢い高校生:「かなり洗練されたコードを書くことができ、デバッグを繰り返し、複雑なテーマについて知的で洗練された文章を書くことができ、難しい高校生競技数学を推論することができ、どんなテストでも大多数の高校生に勝っている。コードから数学フェルミ推定まで、考え、推論することができる。GPT-4は、コードを書く手伝いから草稿の修正まで、今や私の日常業務に役立っている。

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_examples-3.png

GPT-4がリリースされた当時、人々がGPT-4に感銘を受けた点をいくつか紹介しよう。上:GPT-4は非常に複雑なコードを書くことができ(中央プロット作成)、非自明数学問題を推論することができる。左下:AP数学問題を解く。右下:かなり複雑なコーディング問題を解いている。GPT-4の能力に関する調査からの興味深い抜粋こちら。

AP試験からSATに至るまで、GPT-4は大多数の高校生よりも良いスコアを出している。

もちろん、GPT-4でもまだ多少ばらつきがある。ある課題では賢い高校生よりはるかに優れているが、別の課題ではまだできないこともある。とはいえ、これらの限界ほとんどは、後で詳しく説明するように、モデルがまだ不自由であることが明らかなことに起因していると私は考えがちだ。たとえモデルがまだ人為的な制約を受けていたとしても、生のインテリジェンスは(ほとんど)そこにある。

https://situational-awareness.ai/wp-content/uploads/2024/06/timeline-1024x354.png

わずか4年間の進歩あなたはこのラインのどこにいるのだろうか?

続き I.GPT-4からAGIへ:OOMを数える (3) https://anond.hatelabo.jp/20240605204704

anond:20240605164633

パンティという呼び名ダメだろうな

手垢つきすぎたか

 

この呼称については有名なブログエントリ下着名称に見る性の非対称性」がある

そこでも

パンティという語が、いつ、どこで創られたか定かではないが、おもにポルノ界隈で用いられてきたことを鑑みるに、男が、己の願望を満たすことを、ただそれだけを目的として、女性がどう感じるかには一切お構いなしに、この単語選択してきたとみて間違いないだろう。

とか

>(略)

パンティという言葉に付随する恥ずかしさ、それは男の、一方的で、自己中心的な、非対称的であることを疑いもしない、無神経な願望の押し付けからくる恥ずかしさである

とか書かれちゃってる

 

もともとは英語にある由緒正しい(?)言葉なんだが、

ポルノじみた消費をしてきた年月が長いので

股間を覆う下着を男女用ともパンティ呼びしたいのなら、3世代ぐらいは「男のショーツのみパンティと呼ぶ」期間を設けてイメージを薄める戦略必要かもな

anond:20240605161212

一冊でも読めばわかるけど、

言葉を操る能力モーツァルト作曲力並みに高いんだよね

 

何だったか冒頭で玻璃の美しさを例えたか玻璃に例えただかした文章読んでしびれたわ

人が唸らされるしかない文章を全ページで繰り出してくる

かといって小難しい単語を使うわけでもないから読みやす

 

でも内容自体はこじらせまくったヒステリックメンヘラ

たまに男にこういう奴いない?

めちゃくちゃ攻撃的な女叩きを、(本人は冷静なニヒルを気取っているらしいつもりの)歪んだうすら笑いで早口でまくしたてる男

三島由紀夫の内容はまさにアレなんだけど、文章だけはひたすら美しい

anond:20240605062236

俺が先に提示した会話ログはこれな

以下の文章を読んで、ユーザが行うべき行動を提示してください。なお、固有名詞には下線が表示され、クリックすることでUIアクションが行えるものします。

与えられた文章においてユーザが行うべき行動は、「ドロンパ」という単語の下線をクリックすることです。これにより、「ドロンパ」に関する情報を得ることができる可能性があります

それに対する返しがこれ

「今の書き方で前提情報が全くない相手に、何をすればいいのかわかるのか」

を聞いてこいと言ったの

「以下の文章を読んで、ユーザが行うべき行動を提示してください。なお、固有名詞には下線が表示され、クリックすることでUIアクションが行えるものします。」が「今の書き方で前提情報が全くない相手に、何をすればいいのかわかるのか」とどう違う? 同じだろ。夜勤増田はこれが違うって言ってんの。完全にあたおか。

anond:20240605053006

単語どころか真正から論破されてるじゃんw

よくこれ貼れたなw

anond:20240605053006

「知らんけど」ってどういうこと?

読んだ限り

単語の所を押すだけ」

「それオフにしてる人には見えないよ」

「知能が足らない(配慮できてない)」

って流れだから単語を拾ってるんじゃなくて、

あなた配慮のたらなさを煽ってるんじゃないのかな

というか、このやりとり、

から見ても単語だけとりあげてるのはあなたみえるんだけど…

anond:20240605052152

知らんけどこの辺とか? anond:20240605002152 単語拾って「お前だ」言ってるだけだよこいつ

例えばこの「それ」の指す内容が「単語だけ拾ってる[実例]」だと分からないと言い出したりとか

これ、どうやって読んだらいいんだ?

このそれ?

anond:20240605052317

「例えばこの「それ」の指す内容が「単語だけ拾ってる[実例]」だと分からないと言い出したりとか」

最初から最後まで意味不明で草

日本語つむげてないじゃんw

anond:20240605052317

全部というなら一つでいいから例をあげて

根拠も示さず「全部」というのは卑怯だと思うよ

夜勤増田単語だけ拾ってる根拠? そんなのはちょっとログ見れば全部それじゃん。例えばこの「それ」の指す内容が「単語だけ拾ってる[実例]」だと分からないと言い出したりとか、こいつはそんなことばっか言ってるし。

anond:20240605051902

夜勤増田単語だけ拾ってる根拠? そんなのはちょっとログ見れば全部それじゃん。例えばこの「それ」の指す内容が「単語だけ拾ってる[実例]」だと分からないと言い出したりとか、こいつはそんなことばっか言ってるし。

anond:20240605051421

お前の頭が壊れてるってだけじゃん

おまえが見えてることと、書かれてる文章がちがうんなら

おかしいのはおまえの頭だってことでしょ

「こっちからは「単語だけ拾ってる」を三回反芻したせいで「単語だけ拾ってるのはお前!w」に化けちゃってるという風に見えてる」

anond:20240605051019

こっちからは「単語だけ拾ってる」を三回反芻したせいで「単語だけ拾ってるのはお前!w」に化けちゃってるという風に見えてる

夜勤増田の反発したい意思は読み取れるけど、言語的には狂ってるとしか

anond:20240605050822

単語だけ拾って返してる」に

単語だけ拾ってるのはお前だろ」ってレスついてて

反論には見えない」って言ってるの

普通にあたまおかしい人じゃね?

anond:20240605050528

あたおかではないでしょ

夜勤増田はさっきから見てて分かるように、単語拾って反発はするけど高校国語レベル文章が読めてないだろ。」

って書いたから、反論されただけでしょ?

anond:20240605050305

これ書いた奴はあたおかだろっていう話→

単語だけ拾ってると思われて草

単語だけ拾ってるのはおまえだろw

なんで前後文章無視してるのかとおもったら、単語しか理解してなかったのかw

おまえw

anond:20240605045208

更に横で混乱させたら悪いんだけど、

単語だけ拾ってると思われて草」って書いてるのは夜勤増田

「口がうまいってのは、単語だけ拾って会話してちゃ成立しなくて」って書いてるのが、このツリーで話してた増田でしょ

2つレスがついてて片方が夜勤増田煽りから自分区別ついたんだけど、

発達障害増田には難しいかもね

anond:20240605043603

心情という言葉を使うなら、心情「まで」じゃなくて心情「しか」だと思うなぁ。何となく感情だけ読み取って、後は単語を拾って罵倒してるだけにしか見えん。

anond:20240605043006

単語だけ拾ってると思われて草

単語だけ拾ってるのはおまえだろw

なんで前後文章無視してるのかとおもったら、単語しか理解してなかったのかw

おまえw

anond:20240605043006

口がうまいってのは、単語だけ拾って会話してちゃ成立しなくて

相手の心情まで読み取って誘導してるって意味で書いたんだが

おまえの解像度の低さからすると単語だけ拾えればうまく立ち回れると思っちゃうんだろうな

二次元人を見たかのような違和感がすごいわ

単語だけ拾ってる奴があんな風に人を転がせるわけないだろ

馬鹿に思われるからその思考を押しつけてくるな

anond:20240605042355

夜勤増田はさっきから見てて分かるように、単語拾って反発はするけど高校国語レベル文章が読めてないだろ。だけど口が回るだろ、だから会話に支障ある頭の割に口達者つったわけ

ログイン ユーザー登録
ようこそ ゲスト さん