「コンテキスト」を含む日記

2024-07-20

■GPT-4の料金

モデル名	リリース日	コンテキストウィンドウ	入力料金(100万トークン)	出力料金(100万トークン)	MMLUスコア
GPT-3.5-Turbo	2022年 3月	16K	$0.5 (約¥74)	$1.5 (約¥220)	70%
GPT-4	2023年 3月	32K	$30 (約¥4,400)	$60 (約¥8,800)	86.4%
GPT-4 Turbo	2023年 11月	128K	$10 (約¥1,500)	$30 (約¥4,400)	70%
GPT-4 omni	2024年 5月	128K	$5 (約¥735)	$15 (約¥2,205)	88.7%
GPT-4o mini	2024年 7月	128K	$0.15 (約¥22)	$0.60 (約¥88)	82%

オムニ→オミニ　駄洒落か。

Multi-task Language Understanding on MMLU

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

Permalink | 記事への反応(0) | 16:03

2024-07-17

■シンギュラリティ

田増

"It's a true world"という文を含むコピペがあった気がするのですが、内容を思い出せません。

Claude 3.5 Sonnet

申し訳ありませんが、"It's a true world"という文を含む特定のコピペについて、私の知識ベースに確実な情報がありません。このようなフレーズは様々なコンテキストで使用される可能性があり、特定のミームやコピペを一意に特定することは難しいです。

ただし、このフレーズに似た表現や関連する可能性のある内容について、いくつかの可能性を挙げることはできます：

"It's a cruel world" (残酷な世界だ) という一般的なフレーズの変形かもしれません。
歌詞や詩の一部である可能性があります。
映画やテレビ番組のセリフかもしれません。
インターネット上のミームやジョークの一部である可能性もあります。

もし思い出せる他の詳細（コンテキスト、出典、関連する他の文章など）があれば、それを教えていただけると、より具体的な情報を提供できるかもしれません。また、このフレーズに関連して何か特定の情報を探しているのであれば、その点についても教えていただければと思います。

田増

コピペは「初カキコ…ども…」で始まった気がします。

Claude 3.5 Sonnet

ああ、そうですね。今おっしゃった情報で、有名な「初カキコ…ども…」コピペを思い出しました。これは日本のインターネット文化、特に 2ちゃんねる（現5ちゃんねる）発祥の有名なコピペです。

正確な全文は以下のようになります：

初カキコ…ども…
初カキコ…ども…
フォーマルなあいさつですが、初カキコ…ども…
ちょっと緊張していますが、初カキコ…ども…
これが初カキコになりますが、初カキコ…ども…
2年間このスレを見守ってきましたが、初カキコ…ども…
今日という日を迎えてしまいました。
人生史上最高の日ともいえる今日、初カキコ…ども…
でも不安です。初カキコに対する反応が怖いです。
それでも勇気を振り絞って、初カキコ…ども…
みなさん、初カキコを温かく見守ってください。
では、今から本題に入ります。
It's a true world.
以上、初カキコでした。

このコピペは、掲示板に初めて書き込む人（初カキコ）の緊張や不安、そして形式的な挨拶を極端に誇張して表現しています。最後の "It's a true world." という英語のフレーズは、突然の唐突さと意味の不明瞭さゆえに、このコピペの面白さをさらに増しています。

Permalink | 記事への反応(1) | 15:51

2024-07-15

■

コンテキストウインドウが小さすぎるし注意力も低すぎる

Permalink | 記事への反応(0) | 11:44

■

AI絵も精度上がってきたな

後はコンテキストをどれだけ組み立てられるようになるかだな

一枚絵の中に10個ぐらい整合性のあるストーリーを詰め込めるようになったらいよいよだな

Permalink | 記事への反応(2) | 11:13

2024-07-11

■anond:20240711113545

追加でAIに聞いてみた。これにも疑問は残るけど。。。

ご指摘ありがとうございます。確かに、通常葬儀社が解剖を行うことはありません。この点について、以下のように補足説明させていただきます：

1. 葬儀社は解剖を行っていません。解剖は医療専門家や法医学者によって行われます。

2. ジョン・オルーニー氏が言及しているのは、遺体の防腐処理（エンバーミング）の過程で観察されたことです。

3. エンバーミングは、葬儀の準備として遺体を保存するために行われる処置です。この過程で血液を抜き、防腐剤を注入します。

4. この処置中に、通常では見られない異常な血栓が動脈や静脈で発見されたということです。

5. 特に検死後の遺体では、内臓が取り出されて戻されているため、エンバーミングの際に体腔を開けて処置することがあります。その際に異常が発見されたようです。

6. オルーニー氏は、これらの異常所見を適切な機関に報告しようとしたが、取り合ってもらえなかったと主張しています。

このコンテキストを考慮すると、葬儀社が解剖を行っているわけではなく、通常の業務の中で異常を発見したということになります。ご質問いただき、ありがとうございました。この点について明確にできてよかったです。

Permalink | 記事への反応(1) | 11:48

2024-07-07

■ベンダー ロックって言ってもな

要件満たすため・社内政治的な理由でピンポイントで別のところ使う＋併用はあっても、

ネットワーク製品以外はほぼ選択肢無くね？感

AI ちゃんがゼロ トラスト セキュリティについて答えてくれました

ゼロトラストセキュリティは、「信頼せず、常に検証する」という原則に基づいています。主な特徴として、常時の認証と承認、最小権限アクセス、アクセスの継続的な監視があります。以下の技術やソリューションを組み合わせることで、包括的なゼロトラストセキュリティモデルを構築できます。

ID 管理とアクセス 制御：

1. Microsoft Entra ID（旧Azure AD）：

統合されたID 管理とアクセス制御を実現します。ユーザーとデバイスの認証、シングルサインオン（SSO）、多要素認証（MFA）を提供し、セキュリティを強化します。
クラウドおよびオンプレミスのアプリケーションに対して一元的なID 管理を提供し、セキュリティポリシーの一貫性を保ちます。
Microsoft Defender for Identityと統合されており、異常なアクティビティや潜在的な脅威をリアルタイムで検出し、対応することができます。

2. Microsoft Entra 条件付きアクセス：

ユーザーのアイデンティティとアクセスリクエストのコンテキスト（場所、デバイスの状態など）に基づいてアクセスを制御します。
Microsoft Entra IDと統合されており、シングルサインオン（SSO）や多要素認証（MFA）と連携してセキュリティを強化します。

3. 多要素認証（MFA）：

Microsoft Authenticator：MicrosoftのMFAアプリで、Microsoft Entra IDと連携して使用できます。ユーザーはスマートフォンを使って追加の認証を行い、セキュリティを強化します。
他のMFAオプションとして、ハードウェアトークンやSMS 認証も利用可能です。

ネットワーク セキュリティ：

1. マイクロセグメンテーション：

Cisco Secure Workload：ネットワークを細かく分割し、各セグメント間の通信を制限することで、攻撃の拡散を防ぎます。アプリケーションの動作を可視化し、ポリシーを自動化してセキュリティを強化します。

2. ゼロトラストネットワークアクセス（ZTNA）：

Cisco Viptela SD-WAN with ZTNA機能：ネットワークレベルでのアクセス制御を強化し、アプリケーションをインターネットから隠蔽することで攻撃対象を減少させます。ユーザーのアイデンティティやデバイスのセキュリティ状態をリアルタイムで検証し、動的なアクセス制御を実現します。

3. ソフトウェア定義ネットワーク（SDN）：

Cisco ACI（Application Centric Infrastructure）：SDNソリューションとして、ネットワークの柔軟性とスケーラビリティを提供します。ポリシーベースの管理を通じて、ネットワーク全体のセキュリティを強化し、アプリケーションの要件に応じたネットワーク設定を自動化します。

エンドポイント セキュリティ：

1. デバイス管理：

Microsoft Intune：デバイス管理とセキュリティポリシーの適用を行います。モバイルデバイス管理（MDM）とモバイルアプリケーション管理（MAM）をサポートし、企業データの保護を実現します。
Microsoft Endpoint Configuration Manager（旧MECM）：オンプレミスのデバイス管理をサポートし、Intuneと連携してハイブリッド環境を管理します。ソフトウェアの配布、パッチ管理、資産管理などを行います。

2. エンドポイント検出と対応（EDR）：

Microsoft Defender for Endpoint：エンドポイントの保護と脅威の検出を提供するEDR ソリューションです。Windows、macOS、Linux、Android、iOSなどのマルチプラットフォームをサポートし、AIを活用して高度な脅威を検出します。

データ 保護：

1. 暗号化：

BitLocker：Microsoftのフルディスク暗号化ソリューションで、Windows デバイスのデータを保護します。TPM（Trusted Platform Module）を使用して暗号化キーを保護します。
Azure Encryption：Microsoft Azureのデータ暗号化サービスで、クラウド上のデータを保護します。Azure Key Vaultを使用してキー管理を行います。

2. データ漏洩防止（DLP）：

Microsoft Purview Information Protection：機密情報の分類、ラベリング、保護を行うDLP ソリューションです。

セキュリティ 監視と分析：

1. セキュリティ情報およびイベント管理（SIEM）：

Azure Sentinel：MicrosoftのクラウドネイティブなSIEM ソリューションで、Azure 環境と連携して脅威を検出します。機械学習を活用して異常検知を行い、セキュリティインシデントの迅速な対応を支援します。

2. ID 保護：

Microsoft Defender for Identity：オンプレミスのActive DirectoryとMicrosoft Entra IDの両方を保護するセキュリティソリューションです。

Permalink | 記事への反応(3) | 12:15

2024-06-30

■anond:20240630103038

はいはい、逐次通訳、逐次通訳

同時通訳もあったけど、フツーの会議や商談では逐次通訳で充分だから逐次通訳だよ

でもワイは何かひとつ極めるなら英語を推したいね

(SI・コンサルのSEや情シスが出来る程度には、広く浅い知識があることは前提)

その国の商習慣や文化などのコンテキストを完璧に理解してとなると、非常に難しい
ガチエリート(北京外国語大とかアイビーリーグの出身者)だけでなく、
新興国のお金困っているエリートでも、そのレベルで外国語理解するのはコスパ合わないって投げるからね
(日本の弁護士資格に国籍要件はないが外国人は非常に少ない)

英語ではなく、中国語でもスペイン語でもよくて、話者が多いものならなんでもいいが、
日本と各国の関係とITの状況を考えるとやっぱ英語になろうかなぁと思うよ
まぁ超人は英語も中国もスペイン語も全部！とかでいいんだろうけど、
常人は、英語(米国)をやる、必要に応じて、必要な部分だけ他の国が現実的なんじゃないか？

Permalink | 記事への反応(1) | 10:37

■anond:20240630100008

つかレアと言われても、ワイの英語介護している人、普通に同時逐次通訳でしたけども？

でないと会議も商談もできんでしょうよ

https://anond.hatelabo.jp/20220629200029#

文章の単純な文章翻訳とかならAIに取られてしまうだろうけど(時間を掛ければコンテキストも調べられるし)、

上記レベルの英語理解と同時逐次通訳(音声)はまだまだいけると思うよ

https://anond.hatelabo.jp/20240630074704#

あと、そもそも純粋に技術のみでアサインして高給得てるのは極々少数です。それは GAFAM で働いてる連中ですらそう

リモワでグローバルになり、新興国の語学お化けのエリートとも戦わないといけないにも関わらず、技術だけで勝てる自信があるなら技術だけで戦えばいいし、

『勝てるかは知らんが、○○やっているのが楽しい！！！』ならそれもめちゃくちゃ大切だと思う

お金だけ貰らえればやり甲斐なんてどうでもいい！！！！って意外とならないもんだし、人間って結局好きなことやりたいことしかしないから

でもそれなりの給与を望むなら、『自分が勝てるところ』、『コスパ的にエリートは来ないところ』は基本でしょうよ

別に徹底的に国内で戦うのもいいと思うぞ

英語ではなく『太鼓叩き』の技術を駆使して金持っている人に取り入って、自分絶対優位な環境を作るってのもありだと思う

まぁなんにせよ、『IT(広く浅いスキル) 』❌『英語なり、処世術なり別の技能』が鉄板だと思いますわね

Permalink | 記事への反応(2) | 10:28

■anond:20240630095038

一応ネイティブ並みという看板で仕事してて仕事 100％英語0％日本語だが

同時通訳なんてそれでも出来ないけどあなたできる？

あれは生まれつきの完全バイリンガルでもかなりトレーニングしないと無理やで

「アメリカの商習慣や文化などのコンテキストを完璧に理解してSI・コンサルのSEや情シスが出来て同時通訳ができる」なんてGoogleで数千万稼いでるエンジニアよりレアだけども

Permalink | 記事への反応(1) | 10:00

■anond:20240630081843

クラウドは枠であって、具体的な技術名でも無いし、AzureもAWSもサービス名じゃよ

昨日も謎の増田が訳のわからないことを言っていたが、実際のITというのはここだけやっておけば良いといのはなく、横断的なものなのよ

すべてのシステムはネットワークの上に乗っかるから、ネットワークの理解はそれなりに必要だし、

サーバー類のハード面に関してはマネーで殴ればいいとしても、個々の端末に関してはハード面の知識を無視できない、システム利用以前に端末制御って意味でもね

そしてシステムのプログラムの・・・っていろいろ無限にある中でのひとつが、通信キャリアレベルの投資しないなら、もう基盤はこれで良くね？のAzure(＆Entra ID) やAWSだよ

Microsoft も AWSもとんでもない規模のお金を投資してデータセンター投資してるからね

ヤベーエンジニアは常人が到達できないコアスキルありつつ、このへんも当たり前に理解してるわけ　

だから ITはこれだけ極めればいいってのはないのよ

もちろん、いまどこの企業もAAD(Entra ID) ＋Intune＋M365Appsに移行してるので、ざっくり、この辺のことやるは応援したいし、仕事無限にあると思うよ

ただいつかは知らんがいずれ移行が終わってこれに関する仕事が無くなるので、

やっぱ、英語だと思うよ。専門分野を翻訳、ビジネス会議の同時逐次通訳(音声)が出来るレベルを目指して、その専門分野には IT を選ぼう

同時逐次通訳(音声)が出来るレベル、その国の商習慣や文化などのコンテキストを完璧に理解してるなら、

コアスキルなくて、SIやコンサルや情シスにような浅く広い知識でもまだまだ充分戦える(翻訳の素養はそのくらいで充分)

Permalink | 記事への反応(1) | 08:56

■anond:20240630010611

これ煽りとか冗談じゃなくてマジで英語

なんとなく英語で会議に参加出来るレベルでも日本ではエリートなので、マジで英語

専門分野を翻訳、同時逐次通訳(音声)が出来るレベルを目指して、その専門分野にITを選べばまず食いっぱぐれないと思うよ

IT系の技能で一人でも飯が食えるやつで

なんとなく英語で会議に参加出来るレベルまでなら、頭の良い人、勉強が得意な人、語学に関する感のいい人だったら、

真面目に取り組んだら出来てしまうのだろうけど、

その国の商習慣や文化などのコンテキストを完璧に理解してとなると、非常に難しい

ガチエリート(北京外国語大とかアイビーリーグの出身者)だけでなく、

新興国のお金困っているエリートでも、そのレベルで外国語理解するのはコスパ合わないって投げるからね

(日本の弁護士資格に国籍要件はないが外国人は非常に少ない)

文章の単純な文章翻訳とかならAIに取られてしまうだろうけど(時間を掛ければコンテキストも調べられるし)、

上記レベルの英語理解と同時逐次通訳(音声)はまだまだいけると思うよ

Permalink | 記事への反応(1) | 07:47

2024-06-25

■

llmに法律業務任せられると思ってんなら夢見すぎ

あいつらコンテキスト長くすればするほど注意散漫になるからな

Permalink | 記事への反応(1) | 12:29

2024-06-23

■

https://x.com/overlast/status/1804615344960778608

このツイートが目に入った。

まず大本のSatoさんのツイートから「私はスーツ短髪でないと、ベストを尽くしておらず、受かる気がないと思ってる」と思わせるには十分なツイートにみえた。

Nishioさんがリプライで、大本のSatoさんのツイートについて疑問をぶつけていた。私も合理的な理由があるのか気になった。Satoさんは実績のある人だから面白い発見があると思った。

最後にSatoさんの本リプライで回答があると思ったら、これはなんか回答になってなくないか？と思ってガッカリしたので日記に書いた。

そもそも、何に対する言及なんだろう？発端はどれだろう？と探ってたら時系列的にこれかな。

https://x.com/SGee30418056/status/1804167831296315799

（この件の話じゃなかったら勘違いで終わるので恥ずかしい。twitterはこういうの追いにくくてなぁ。）

で、これもまた長文でアピアランスとかそういう単語を知らない私にはわかりにくかった。めちゃくちゃ端折ると「場にふさわしいドレスコードを選ぶぐらいのこともやらないのは残念だ」という感じだろうか。

でもそれはどうなんだろう。もちろんチャラそうな見た目だったら印象は悪くなるし、私も嫌な顔して投票しないと思う。

けど、私には街頭演説の動画でみた安野さんの服装は「ビジネスカジュアル」の範囲に見える。

https://x.com/annotakahiro24/status/1804436815081795927

要するに私は「この服装で票が奪われるぐらい影響あるの？」って思った。でも発端の人はそこに引っかかる。Satoさんも引っかかったのだろう。

コンテキストが少しわかったところで戻って大本のSatoさんのツイートを改めてみたが、結局よくわからなかった。

例えば何かを観戦しているところに「こうすればいいのに」と言うレベルの内容に見えてしまって残念に思った。twitterはそういう場だからするのは別によくて、私が勝手に見て勝手に思っただけだが。

「こうすればみんな投票するのになー」って言うだけならタダで、そんな保証もないわけだしなぁ。

Permalink | 記事への反応(1) | 09:50

2024-06-22

■自称 フェミニストって何？

フェミニストを自称するとその神性が喪失し堕落するみたいな話なの？

それともいい奴は死んだ奴らさ的意味で、本当のフェミニストは自称しないフェミニストだけなの？

どっちにしてもエコチェンでコンテキストを高めてると界隈にしか伝わらない用語になり言ってるお前のほうが狂って見えるからやめとけ。

Permalink | 記事への反応(2) | 13:08

2024-06-21

■anond:20240621114312

さらに、既存仕様書との整合もチェックして、矛盾が発生していたら教えてくれる。

ここが一番難易度高いな

コンテキストウインドウが人間より圧倒的に狭いのと、「これを実行したらどうなるのか？」の推論能力が無いから、指摘できるとしたら文字上のことぐらいかな

Permalink | 記事への反応(0) | 11:48

2024-06-16

■ハゲの代名詞の変遷が知りたい

アラフォーだけど俺が小学生のときはＪリーグ流行ってたからハゲといえばアルシンド、ときどきザビエルって感じだった

それ以外のハゲの代名詞を知らない

単なるハゲとしか言われない気がする

学生ならではの代名詞になるんだろうか

共通のコンテキストがあるときだけ通じ合う代名詞なのか？

Permalink | 記事への反応(1) | 23:04

2024-06-08

■anond:20240608093126

「ゲージュツなんだから意味がわからなくて当たり前」というならな

それこそ淫夢動画だってその場の思い付きとしょうもない身内ノリばっかりで、外部の人間には意味不明だろ

「どうしてこの動画がそんなに草生えるのか」なんて、文脈と過去の積み重ねをちゃんと踏まえた、ネット全体からすりゃごく一部の物好き以外にはわかんねーんだよ

（だいたい「草」の由来からしてそういうコンテキスト込みなわけで）

そんなものはふたばみたいに身内ノリやジャーゴンが幅を利かせるタコツボムラ社会であれば、所詮どこにでも見られる光景でしかない

タコツボエコチェンなんていくらでもあるのに、現代アートだけがむやみに孤高面したって笑わせるだけだわ

だから結局、トリエンナーレや不自由展みたいな文化ムラが文化ムラたり得ている要素って、作品や社会派・党派性まみれのメッセージそれ自体じゃないんだよね

体のいい税金の使い道ができて、ついでに客寄せもできてニコニコの自治体
投機のついでにみかじめ料払ってメセナ面気取れる資本家
そいつらの金チューチューして好き勝手遊んでる活動家モドキ
そして入場料払ってまで夢の国でおハイソ気取りたい養分ワナビちゃん

単にこいつらの利害関係共犯関係で成り立った、いたって資本主義的な営為でしかなくて（ここは元増田もある程度自覚的ではあるが）

「何が芸術か」なんて、実際のところ誰も考えちゃいねーんじゃねーのか

Permalink | 記事への反応(1) | 10:44

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (8)

チャット ボット から エージェント兼同僚へ

今後数年間の野心的なアンホブリングはどのようなものになるのでしょうか？私が考えるに、3つの重要な要素がある：

1."オンボーディング問題 "の解決

GPT-4は、多くの人の仕事の大部分をこなせるだけの生の賢さを持っているが、それは5分前に現れたばかりの賢い新入社員のようなものだ：関連するコンテキストを持っておらず、会社のドキュメントやSlackの履歴を読んだり、チームのメンバーと会話したり、会社内部のコードベースを理解するのに時間を費やしたりしていない。賢い新入社員は、着任して5分後にはそれほど役に立たないが、1ヶ月後にはかなり役に立つ！例えば、非常に長いコンテクストを通じて、新しい人間の同僚を雇うようにモデルを「オンボード」することは可能なはずだ。これだけでも、大きなアンロックになるだろう。

2.テスト時間の計算オーバーハング（より長いホライズンの問題に対する推論／エラー訂正／システムII）

今のところ、モデルは基本的に短いタスクしかこなせない。しかし、これでは非常に限界がある。5分どころか、数時間、数日、数週間、数ヶ月かかるのだ。

難しい問題について5分間しか考えることができない科学者は、科学的なブレークスルーを起こすことはできない。ソフトウェア・エンジニアは、より大きな仕事を与えられ、計画を立て、コードベースや技術ツールの関連部分を理解し、さまざまなモジュールを書いて段階的にテストし、エラーをデバッグし、可能性のある解決策を検索し、最終的には数週間の仕事の集大成である大規模なプル・リクエストを提出する。などなど。

要するに、テスト時間の計算オーバーハングが大きいのだ。GPT-4の各トークンは、問題を考えるときの内部モノローグの言葉だと考えてください。各GPT-4トークンは非常に賢いのですが、現在のところ、思考の連鎖のために～数百トークンのオーダーしか効果的に使うことができません（あたかも問題やプロジェクトに数分しか内部独白／思考を費やせないかのように）。

もし数百万トークンを使って、本当に難しい問題や大きなプロジェクトについて考え、取り組むことができるとしたらどうだろう？

トークンの数	私が何かに取り組むのに相当する時間...
100s	数分	ChatGPT (私たちはここにいる)
1000s	30分	+1 OOMsテスト時間計算
10,000 回	半日	+2 OOMs
100,000ドル	1週間	+3 OOMs
数百万回	複数月	+4 OOMs

人間が〜100トークン/分で考え、40時間/週働くと仮定して、「モデルが考える時間」をトークンで換算すると、与えられた問題/プロジェクトにおける人間の時間になる。

仮に「トークンあたり」の知能が同じだったとしても、頭のいい人が問題に費やす時間が数分なのか数ヶ月なのかの違いになる。あなたのことは知らないが、私が数ヶ月でできることと数分でできることは、はるかに、はるかに、はるかに多い。もしモデルに「数分ではなく、数カ月に相当する時間、何かを考え、取り組むことができる」という能力を与えることができれば、その能力は飛躍的に向上するだろう。ここには膨大なオーバーハングがある。

今のところ、モデルにはまだこれができない。最近のロング・コンテキストの進歩をもってしても、このロング・コンテキストのほとんどはトークンの消費にしか機能せず、トークンの生産には機能しない。しばらくすると、このモデルはレールから外れたり、行き詰まったりする。しばらくの間、離れて単独で問題やプロジェクトに取り組むことはまだできない。

しかし、テスト時間の計算を解除することは、単に比較的小さな「ホブリングしない」アルゴリズムの勝利の問題かもしれない。おそらく、少量のRLは、モデルがエラー訂正（「うーん、これは正しくないようだ、再確認してみよう」）を学習したり、計画を立てたり、可能性のある解を探索したりするのに役立つだろう。ある意味、モデルはすでに生の能力のほとんどを持っており、それをまとめるために、さらにいくつかのスキルを学習する必要があるだけなのだ。

要するに、私たちはモデルに、困難で見通しの長いプロジェクトを推論させるシステムIIのアウターループのようなものを教えればいいのだ。

この外側のループを教えることに成功すれば、2、3段落の短いチャットボットの答えの代わりに、モデルが問題を考え、ツールを使い、異なるアプローチを試し、研究を行い、仕事を修正し、他の人と調整し、大きなプロジェクトを一人で完成させるような、何百万もの言葉のストリーム（あなたが読むよりも早く入ってくる）を想像してみてほしい。

他のML 領域におけるテスト時間と訓練時間のトレードオフ

続き I.GPT-4からAGIへ：OOMを数える(9) https://anond.hatelabo.jp/20240605210357

Permalink | 記事への反応(1) | 21:02

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

2024-06-03

■バックグラウンド、コンテキスト込みで見て涙でちゃうやつ

ちょろごんずのラプソディPV　きょうあに事件って意味でも作中イメージした歌詞って意味でも作中キャラが仲良くしてたりするって意味でも

前川みくの恋カバー

Permalink | 記事への反応(0) | 23:15

2024-05-31

■anond:20240531125841

GPT！　GPT！

歌詞を身体表現やジェスチャーに置き換えることで、直接的なテキストの引用を避けることができます。しかし、以下の点に注意が必要です：
1. **表現の類似性**：元の歌詞が強く連想されるような表現や振り付けは、著作権の保護対象となる場合があります。特にオリジナルの歌詞の意図や内容をそのまま伝えるような場合は注意が必要です。
2. **パフォーマンスの場**：商業的な場や公の場でのパフォーマンスは、著作権の監視が厳しくなります。非商業的な場や教育目的の場合は緩和されることがありますが、完全に免除されるわけではありません。
3. **コンテキストの重要性**：具体的な文脈や使用方法によって、著作権侵害の判断は変わります。オリジナルのコンテンツを尊重し、適切なクレジットを提供することも重要です。
このように、歌詞を身体表現やジェスチャーに置き換えることは著作権の問題を完全に回避する方法ではなく、特定の状況によっては依然としてリスクが存在します。具体的なケースについては、専門家に相談することをお勧めします。

Permalink | 記事への反応(1) | 12:59

2024-05-27

■anond:20240527054821

慶應のステレオタイプは知らないが、IT用語を変に誤解して横文字だらけになるビジネスパーソンっぽさを感じる

「僕たちトッププレイヤーはね、コンテキストを読んでストラテジーをオプトマイズしていくんです！」みたいな

Permalink | 記事への反応(1) | 05:50

2024-05-26

■anond:20240526222638

・Web 検索を凌ぐ可能性：

AI が「人類の英知の集積」を凌駕することは難しいかもしれませんが、AI は膨大なデータを処理し、パターンや関係性を識別する能力において優れています。Web 検索は、人間の知識を補完し、アクセス可能な情報の量を大幅に増やすツールとしてAIと共存できます。AI は、人間の専門知識と組み合わせることで、情報検索と知識獲得のプロセスを強化し、効率化することができます。

・要約技術の加速：

要約技術は、大量の情報から主要なポイントを抽出するのに役立ちますが、批判的思考や読解力の代わりになるものではありません。これらの技術は、ユーザーが情報にアクセスし、理解するのを支援することを目的としています。ユーザーが要約に頼りすぎないように、AI システムは、要約された情報のソースを提供し、ユーザーに完全なコンテキストを提供する必要があります。このアプローチにより、ユーザーは要約技術を利用しながらも、批判的思考と読解力を養うことができます。

・このプロンプトを使えば精度が良くなる：

「精度」という用語は、AI システムのコンテキストでは、特定のタスクを実行する能力や、期待される結果を生成する能力を指すことが多いです。AI モデルは、特定のプロンプトや入力に対して訓練され、特定の形式やスタイルの出力を生成するように最適化されている場合があります。しかし、AI が本当に優れているのは、新しい状況やコンテキストに適応し、学習し、進化する能力です。AI システムは、ユーザーからのフィードバックに基づいて継続的に学習および改善し、時間の経過とともに精度を高めることができます。

・AI が人間よりも賢くなる：

AI が人間を凌駕するという考えは、SF やメディアでよく描かれていますが、現実には、AI は人間の知能とは異なる種類の知能を持っています。AI は、特定のタスクや計算において優れているかもしれませんが、人間の創造性、直観、感情、倫理的判断などの複雑な特性を兼ね備えているわけではありません。AI の「賢さ」は、それをどのように設計し、使用するかによって決まります。AI の開発者は、AI が人間の能力を強化し、人間の経験を向上させるツールとして機能するように努めるべきです。