「クロー」を含む日記 RSS

はてなキーワード: クローとは

2024-07-13

いやキミはむしろ勉強したほうがいいです。何が検索避けの作法だよ、一事が万事過ぎ

AIちゃん過激ファンアートと「検索避け」の無意味性:現代検索エンジンを欺くことはできない』

過激ファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果なのだろうか?

記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的問題について考察する。

 

1. 検索エンジンの仕組み:賢い司書のように情報を整理する

想像してみてください。あなた重要機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットアップロードしたとします。

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

 

 

2. 「検索避け」の限界:洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

検索エンジンキーワード検索を超え、画像認識文脈理解などの技術活用して、関連する情報をつなぎ合わせて、目的情報を見つけ出します。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります

また、Twitterのような公開プラットフォームに隠したい情報アップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定コンテンツ検索エンジンから隠すための直接的な手段は限られています

例えば、Twitterのようなプラットフォームでは、個々のユーザーrobots.txtの設定やnoindexタグを利用してコンテンツクローリング制御することはできません。

公開プラットフォーム上のコンテンツは、基本的検索エンジンによってインデックスされ、公開情報として扱われます

 

 

3. 画像検索AI検索進化:隠れた情報も浮かび上がる

近年、画像認識AI検索技術は飛躍的に進化しており、「検索避け」の効果さら限定的になっています

特にCNNを用いた画像検索技術は、深層学習活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識さらにはテキストの読み取りまで行えるため、

作品名キャラクター名、一部デザインを変更したとしても、関連する過激ファンアート検索結果に表示されることがあります

一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます

GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念文章全体の意味を把握し、

関連する情報効率的抽出します。

その結果、過激ファンアート投稿する際に、意図的作品名キャラクター名を避けたとしても、これらのAI検索技術により作品特定されやすくなっています

 

 

4. 情報公開倫理的責任:慎重な判断と適切な対策

上記のように、現代検索エンジンは高度な技術を駆使して情報収集分析しており、「検索避け」のような単純な対策では効果が期待できません。

情報公開を行う際には、以下の点に注意する必要があります

 

 

5. 結論情報公開倫理責任ある行動

現代検索エンジンは、過激ファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定コンテンツ露出抑制し、

過激ファンアート一般ユーザーに表示されないよう努めています

 

しかし、これらの技術存在するからといって、過激ファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターシャドウバン完璧ではなく、不適切コンテンツを完全にブロックすることはできません。

公開されるコンテンツが法的な規制社会的な倫理に適合しているかどうかが重要であり、著作権侵害名誉毀損不快感を与える可能性のあるコンテンツは、

社会的な責任と法的な責任を伴います

 

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます

検索避け」のような限定的対策コンテンツフィルター依存するのではなく、倫理的問題情報管理重要性を理解した上で、適切な判断を行うことが不可欠です。

例えば、過激ファンアートを公開する際には、その作品特定コミュニティ内でのみ共有されるようにクロープラットフォームを利用する、

またはアクセス制限するなどの措置を講じることが考えられます

 

適切な情報管理セキュリティ対策を施し、インターネット上での安全コンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制社会的な倫理尊重し、責任ある行動を取ることが求められます

倫理的問題情報管理重要性を理解し、適切な判断を行うことが、情報公開倫理責任ある行動の核心です。

2024-07-02

スリープ」ができるヨーヨーって戦前から存在してたんだな

もともと上下に動くだけのヨーヨーがあって、それがハイパーヨーヨーとかで「スリープ(空転)」ができるようになった…というイメージだったけど、英語版Wikipediaによると、フィリピンからアメリカ移住したペドロフローレス1928年に「ヨーヨー」という名前で売り出したのが現代的なヨーヨー最初だという。

フローレスヨーヨーは、糸を軸に固定するのではなく、糸の先端に輪っかを作ってそれを軸に通すような構造で、それにより「スリープ(空転)」ができるようになっていた。ただしフローレス自身はその機構発明者ではなく、おそらくフィリピンで生まれた工夫なのだと思われる。

フローレスヨーヨーアメリカで大流行し、その流行の波が日本にもやってきた。それを受けて1933年昭和8年)に『ヨーヨー競技と遊び方』という書籍出版された。日本ヨーヨー競技研究会というところが出したものらしい。

そこで紹介されている技は以下のとおり。


いま「ルーピントリック」と言われるようなものは、この時点でこれだけ出ていたんだな。歴史を感じるね。

2024-06-22

AIちゃん過激ファンアートと「検索避け」の無意味性:現代検索エンジンを欺くことはできない』

過激ファンアートを「検索避け(伏せ字などを含む)」と呼ばれる手法で公開するケースがある。しかし、この方法は本当に効果なのだろうか?

記事では、検索エンジンの仕組みと「検索避け」の限界について解説し、情報公開における倫理的問題について考察する。

 

1. 検索エンジンの仕組み:賢い司書のように情報を整理する

想像してみてください。あなた重要機密文書を持っており、ファイル名と文書内の固有名詞を少し変えてインターネットアップロードしたとします。

ファイル名と固有名詞が少し変わっても、内容が変わらなければ、文書は依然として機密文書のままです。

インターネットは、世界中情報が集まる巨大な図書館と見なすことができ、検索エンジンはその図書館の賢い司書のような役割を果たします。

この「司書」は、本のタイトルだけでなく、内容や文脈理解し、関連する情報を結びつけて、私たちが探しているものを見つけ出します。

 

 

2. 「検索避け」の限界:洗練された技術の前では無力

したがって、名前を変更するだけでは検索エンジンを欺くことはできません。

検索エンジンキーワード検索を超え、画像認識文脈理解などの技術活用して、関連する情報をつなぎ合わせて、目的情報を見つけ出します。

情報を守りたい場合は、名前を変更するだけでなく、アクセス制限などの強固な保護策を講じる必要があります

また、Twitterのような公開プラットフォームに隠したい情報アップロードすることは、矛盾した行為です。

一般的に、公開プラットフォームにおいては、特定コンテンツ検索エンジンから隠すための直接的な手段は限られています

例えば、Twitterのようなプラットフォームでは、個々のユーザーrobots.txtの設定やnoindexタグを利用してコンテンツクローリング制御することはできません。

公開プラットフォーム上のコンテンツは、基本的検索エンジンによってインデックスされ、公開情報として扱われます

 

 

3. 画像検索AI検索進化:隠れた情報も浮かび上がる

近年、画像認識AI検索技術は飛躍的に進化しており、「検索避け」の効果さら限定的になっています

特にCNNを用いた画像検索技術は、深層学習活用して、画像内の細かな特徴まで識別することが可能です。

これにより、画像内のオブジェクトやシーンの認識さらにはテキストの読み取りまで行えるため、

作品名キャラクター名、一部デザインを変更したとしても、関連する過激ファンアート検索結果に表示されることがあります

一方で、AI検索では、Transformerアーキテクチャが主流となっており、文章全体を一度に処理することで、文脈を高度に理解することができます

GoogleのBERTやMicrosoftのTuringモデルなどの進化したAI検索モデルは、単なるキーワード検索を超え、単語の組み合わせが表す複雑な概念文章全体の意味を把握し、

関連する情報効率的抽出します。

その結果、過激ファンアート投稿する際に、意図的作品名キャラクター名を避けたとしても、これらのAI検索技術により作品特定されやすくなっています

 

 

4. 情報公開倫理的責任:慎重な判断と適切な対策

上記のように、現代検索エンジンは高度な技術を駆使して情報収集分析しており、「検索避け」のような単純な対策では効果が期待できません。

情報公開を行う際には、以下の点に注意する必要があります

 

 

5. 結論情報公開倫理責任ある行動

現代検索エンジンは、過激ファンアートを検出する一方で、高度なコンテンツフィルターを備えており、

社会倫理に反する画像を検出し、検索結果から除外する能力も持っています

多くの公開プラットフォームでは、シャドウバンという手法を用いて特定コンテンツ露出抑制し、

過激ファンアート一般ユーザーに表示されないよう努めています

 

しかし、これらの技術存在するからといって、過激ファンアートを無対策で公開することが許容されるわけではありません。

コンテンツフィルターシャドウバン完璧ではなく、不適切コンテンツを完全にブロックすることはできません。

公開されるコンテンツが法的な規制社会的な倫理に適合しているかどうかが重要であり、著作権侵害名誉毀損不快感を与える可能性のあるコンテンツは、

社会的な責任と法的な責任を伴います

 

情報公開を行う際には、その影響を常に意識し、責任ある行動を取ることが求められます

検索避け」のような限定的対策コンテンツフィルター依存するのではなく、倫理的問題情報管理重要性を理解した上で、適切な判断を行うことが不可欠です。

例えば、過激ファンアートを公開する際には、その作品特定コミュニティ内でのみ共有されるようにクロープラットフォームを利用する、

またはアクセス制限するなどの措置を講じることが考えられます

 

適切な情報管理セキュリティ対策を施し、インターネット上での安全コンテンツ共有に努めることが重要です。

情報公開の際には、法的な規制社会的な倫理尊重し、責任ある行動を取ることが求められます

倫理的問題情報管理重要性を理解し、適切な判断を行うことが、情報公開倫理責任ある行動の核心です。

 

 

参考にしてください

anond:20240607001500 anond:20240603171311 anond:20240702074550 anond:20240702093233 anond:20240702094052 anond:20240702094322

2024-06-18

プロジェクトX、出演NGなのでは。あるいは富士通半導体の敗北の歴史

富士通忖度してるとか言ってるけど、あれ、普通に取材NGだったんじゃないかな。

当時の経緯を知ってると「私の名前は出さないでください」ってなったとしても不思議じゃないと思う。そうなれば当然NHK富士通も触れないし、本人が拒否したんですなんて発表するわけもないし(例え親族が声を上げたとしても)

コンピュータって、富士通半導体最後打ち上げ花火だったんだよ。

当時の話

京の開発が進み、実際に生産されるころは、経営方針として富士通半導体撤退をするかどうかで揉めていたころだった。

コンピュータは、富士通自社工場で作った最後スパコンであると同時に、国のトップ開発のHPCにおいて、富士通が単体で作り上げた初めてのHPCでもあった。

これは、富士通が優れている、というよりも、逃げ遅れたと表現してもよいかもしれない。HPCプロジェクトからは、NEC東芝が次々と撤退していたのだ。

当時半導体の重い投資に堪えられなくなった電機各社とその銀行団は、自社から半導体部門、少なくとも工場を切り離したがっていた。まさに、それどころではなかったのだ。

しか富士通はまだ撤退決断せず、他社とは一線と画した対応をしていた。

ようにみえた。

富士通撤退戦を開始

コンピュータCPUは、45nmのプロセスで作ると言うことで言っていたためか、富士通はなんとか自社で開発した。けれど、京に乗せたプロセッサ最後になった。次のプロセスは開発されていない。

https://news.mynavi.jp/techplus/article/architecture-467/

さらに、当時、45nmのプロセスは安定して無い状況で無理矢理作ったと言う話もあったはずだ。これは京コンピュータ以降はTSMC委託することが決まっていたため、既に投資が絞られていたためでもある。

(後にTSMC版の進んだプロセス製造されたSPARCを使ったミニコンピュータが何個か作られたのだが、ノード辺りの性能が30%以上アップしたと言う。これはプロセスが細分化された以上の性能向上であった)


富士通が、自社の半導体部門富士通セミコンとして切り離したのが2008年。京コンピュータ用のプロセッサ生産したのが2010年三重工場であった。

その三重工場2013年さらに別会社として切り離され、現在は完全に売却されて富士通に残ってない。

また、同じく半導体工場としては福島県の會津富士通があったんだが、その時の工場撤退エピソードは、今でも大企業黒字でも簡単工場撤退させる事例として有名になった。かなり悲惨事態だったと言える。

そうして重荷になっていたとされる工場を切り離しファブレスに近い業態にしたのは、富士通半導体を残すためだったと思われる。

しかし、そうした建前などなかったかのように2014年にはシステムLSI/SoCの開発部隊分社化を決定。それが現在のソシオネクストであるPanasonicLSI部隊と合弁した会社で、分離した当時、富士通設立当初40%の株式を保持していたが、現在は完全に売却してしまった。

現在富士通半導体部門はFeRAMや光回路用の超特殊ものを除いて完全売却で撤退している。


なお、その後、ルネサステクノロジ(※富士通は合弁に参加していない)が組込向け半導体でほぼ世界首位と同率2位まで上り詰め、国内半導体必要性が新たに叫ばれTSMC国内半導体工場建設。Rapidusという日米政府が関わる半導体企業ができる流れになっている。もし将来、RapidusがプロジェクトXになるときには、大手電機産業からリストラされた技術者達の奮起という文脈が語られそうな気がする。閑話休題

2012年。京が世界一を取ってその後、富士通半導体の敗北が確定した年

件の方がご退任をされたと言う2012年は、半導体さらなる切り離し、売却などの決断と、次期スパコン(つまり富岳)がSPARCを捨ててARMになるという決断が行われた年であったと考えられる。(発表は後になる)

半導体を専門にされてずっとやってきた方には堪えられないもだったのではないかと拝察する。仮に、思い出したくもないし、宣伝にも使われたくないと判断されても仕方がないことでは無いかと思う。(もちろん 出演NGされたと言うのはワイの妄想なので注意)


その後、富士通SPARCを使ったUNIXサーバーを作り続けてはいたが、大きくアーキテクチャ改善する開発は行われないまま(保守設計は続けられていたが)メインフレームとともに撤退が発表された。これはやむを得ないことだろう。

また、ARM化された富岳は、確かに能面や利用面、汎用性では高い成果を出したが、富士通ビジネス的にはさっぱりだったと思われる。


アーキテクチャARMに切り替えた理由は、ビジネス面でもあった。高性能タイプARMを作ることによって、旺盛なクラウドDC需要などに対して食い込んでARMサーバを大きく拡販していくことだったと思われる。

が。富岳に乗せたARMプロセッサを利用した波及製品はみられなかった。

なぜか。それはAWSMS AzureGoogleなど膨大な需要を持つ企業は、需要が巨大すぎてARMが搭載されたコンピュータを買うのではなく、自社でARMIPを購入し独自開発することを選んだためである

彼ら相手には商売にならなかった。それ以外のクラウドベンダーは無きに等しい。ARMなどアーキテクチャが影響しないのはPaaS以上の象徴度を持つサービスだが、寡占状態にある大手以外まともに提供出来ていないため、市場が無いのだ。


ただし、この時富士通ARMの競業によってARMは成果をあげた。アウトオブオーダー実行など、ARMは高性能コンピュータ必要技術富士通から取り込んで現在に至る。

それ故、富士通商売は上手くいかなかったが、世の中的には良かったとは言えるのではあるのだ。そのIP大手クラウド各社は自社向け半導体を作って商売をしているのだから

エピローグ または今後について

今、富岳の次のHPC予算要求の山場を迎えている。

https://newswitch.jp/p/41595

から今のタイミングプロジェクトXに乗ったのだと思うが、綺麗事では語れない話がたくさんありすぎる。


受注はまず間違い無く富士通だと言われている。と言うのは、開発の一部は既に行われているから。

https://monoist.itmedia.co.jp/mn/articles/2310/12/news074.html

そして、国内にもう国産HPCを作ることの出来る会社NEC富士通ぐらいになってしまったためである

富士通は新しいHPCは1位を目指さないかもしれないという考えから計算効率の方に大きく振った開発を進めおり、国内トップHPC採用されたという実績を背景に売り出そうというつもりではあると思われる。富岳の夢再び、だ。

しかし、富士通は今年1月ハードウエア会社を分離した

https://cloud.watch.impress.co.jp/docs/special/1560540.html

この新会社、分離時には綺麗事を書いてあるが、

https://www.fsastech.com/about/

ご覧の通り、富士通ブランドを一切使っていないのだ。既存商品から富士通マークを取り払っている。さらに、会社概要株主欄がなく、富士通名前が出てこない。(他の関連会社はそういった記載がある)

半導体がどうなったかの流れを知っていると、暗い予感しかしない。

そして、HPCレイヤーの低い、ハードウエアに近い部分、さらメカニカル設計や冷却など物理的な部分のノウハウが多く必要とされる。それを富士通分社化して製造能力を失っていく中で、果たしてまともにHPCが作れるのだろうか?

さらに、確かに2010年代半ばのころはワークロード不足に陥ってコンピュータは安売りに陥っていたが、現在AIと言う巨大な需要が生み出され、価格回復ハードウエアが再び重要と考えられ始めている。ハードウエアと同時に提案できる能力が強みになりつつある。

しかし、既に富士通はそれらに対応するための強みを、はした金と決算数字をよくするためだけに売り払った後である案の定、粉飾紛いの異様に高い目標に対して、結果が出ないと言う発表を繰り返している。

富士通アクセンチュアを真似ていると言われる。以下の記事にはこうある

https://xtech.nikkei.com/atcl/nxt/column/18/00848/00049/

目指す先はアクセンチュア富士通が主力工場を総務に移管する理由

時田社長2019年9月に開いた初の記者会見で「開発製造拠点をどう整理するのか」という質問に「既に方向は定まっている。後は状況判断と時期の問題富士通サービスに集中する企業になる」と応じていた。

時田社長方針は「アクセンチュアにないもの富士通もいらない」とみてよい。

そこまでやったのに、ここ3年ほど株価は伸び悩みが続いている。アクセンチュアの真似をしますと言ったときは撥ねたがが、その後は同業他社業界全体の株価上昇率に及ばない状況が続く。
それはそうだ。アクセンチュアの真似をしていてはアクセンチュアには勝てない。まして工場売却を通じ、元々の強みを捨て弱みまでアクセンチュアの真似をしているのだ。富士通この先生きのこるにはどうすればいいのか?


これがプロジェクトXの真のエピローグではないかとワイは思いました。

2024-06-05

I.GPT-4からAGIへ:OOMを数える (11)

補遺 OOMを駆け抜けるこの10年か、それとも破綻

私は以前、AGIへの短期的なタイムラインには懐疑的だった。その理由ひとつは、この10年を優遇し、AGI確率質量を集中させるのは不合理に思えたかである(「我々は特別だ」と考えるのは古典的誤謬のように思えた)。私は、AGIを手に入れるために何が必要なのかについて不確実であるべきであり、その結果、AGIを手に入れる可能性のある時期について、もっと「しみじみとした」確率分布になるはずだと考えた。

しかし、私は考えを変えました。決定的に重要なのは、AGIを得るために何が必要かという不確実性は、年単位ではなく、OOM有効計算量)単位であるべきだということです。

私たちはこの10年でOOMsを駆け抜けようとしている。かつての全盛期でさえ、ムーアの法則は1~1.5OOM/10年に過ぎなかった。私の予想では、4年で~5OOM10年で~10OOMを超えるだろう。

https://situational-awareness.ai/wp-content/uploads/2024/06/this_decade_or_bust-1200x925.png

この10年間、我々はOOMの数を競ってきたが、2030年代初頭以降は、ゆっくりとしたスローグに直面するだろう。

要するに、私たちはこの10年で1回限りの利益を得るための大規模なスケールアップの真っ只中にいるのであり、OOMsを通過する進歩はその後何倍も遅くなるだろう。もしこのスケールアップが今後5~10年でAGIに到達できなければ、AGIはまだまだ先の話になるかもしれない。

まり、今後10年間で、その後数十年間よりも多くのOOM経験することになる。それで十分かもしれないし、すぐにAGIが実現するかもしれない。AGIを達成するのがどれほど難しいかによって、AGI達成までの時間中央値について、あなたと私の意見が食い違うのは当然です。しかし、私たちが今どのようにOOMを駆け抜けているかを考えると、あなたのAGI達成のモーダル・イヤーは、この10年かそこらの後半になるはずです。

https://lh7-us.googleusercontent.com/docsz/AD_4nXe0r6fnJI53YqKa4sRV8xUwQtJLVqoBk16MCRwi8PYQWnOifB3rGVIl-3FbSdDosEIHyAnVe3xdni6Wy5MG1J020VeIM14qeZ25X4QMAvQQ1hVMxT9oey0h5Nae64Hy44P-ujLKOQb_WXM5ushSj3-2at8?key=dBAH1mD-mi8jAGZnPZl-1g

マシューバーネット(Matthew Barnett)氏は、計算機と生物学境界だけを考慮した、これに関連する素晴らしい視覚化を行っている。

I.GPT-4からAGIへ:OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要改善カテゴリーを紹介しよう。

難しい数学問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学問題を解かせていた。その代わり、私たちほとんどはスクラッチパッドで段階的に問題を解いていき、その方法はるかに難しい問題を解くことができる。「思考連鎖プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルトレーニングするだけでなく、アルゴリズムの改良によってモデル能力を引き出すものです:

足場作り。CoT++について考えてみよう:ただ問題を解くようモデルに求めるのではなく、あるモデル攻撃計画を立てさせ、別のモデル可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval(コーディング問題)では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench(実世界ソフトウェアエンジニアリングタスクを解くベンチマーク)では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール:もし人間電卓コンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTウェブブラウザを使ったり、コードを実行したりできるようになった。

エポックAIによる研究によると足場作りやツール使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5~30倍の効果的な計算量の向上をもたらすことがわかった。METR(モデル評価する組織)も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクパフォーマンス。出典モデル評価と脅威研究


これらをコンピュートとアルゴリズム効率統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズム効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズム進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要ものではありますが、ストーリーの一部に過ぎません。)

「アンホブリング」こそが、実際にこれらのモデル有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要であると私は主張したい。実際、今日モデルはまだ信じられないほど足かせが多い!例えば

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っていますGPT-6+RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ:OOMを数える(8) https://anond.hatelabo.jp/20240605210232

I.GPT-4からAGIへ:OOMを数える (4)

OOMを数える

どうしてこうなったディープラーニング魔法は、それがただ機能するということであり、あらゆる場面で否定的意見にもかかわらず、その傾向線は驚くほど一貫している。

https://situational-awareness.ai/wp-content/uploads/2024/06/sora_scaling-1024x383.png

OpenAI Soraの例 計算量のスケーリング効果

効果的な計算OOMが増えるごとに、モデル予測通り、確実に良くなっていく。OOMを数えることができれば、能力の向上を(大まかに定性的に)推定することができる。そうやって、先見の明のある数人がGPT-4の到来を予見したのだ。

GPT-2からGPT-4までの4年間の進歩を、スケールアップの3つのカテゴリーに分解することができる:

1. コンピュート:計算:これらのモデルを訓練するために、より大きなコンピューターを使うようになった。

2.アルゴリズム効率化:アルゴリズム進歩には継続的な傾向がある。これらの多くは「コンピュート・マルチプライヤ」として機能し、有効コンピュート量の増加という統一された尺度に乗せることができます

3.「趣味のない」利益デフォルトでは、モデルは多くの素晴らしい生の能力学習しますが、あらゆる種類の間抜け方法で足かせとなり、実用的な価値制限されます人間フィードバックから強化学習(RLHF)、思考連鎖(CoT)、ツール、足場などの単純なアルゴリズム改善により、潜在的能力を大きく引き出すことができる。

これらの軸に沿って、改善の「OOMを数える」ことができる。つまり有効計算量の単位でそれぞれのスケールアップをトレースするのだ。3倍は0.5OOM10倍は1OOM、30倍は1.5OOM100倍は2OOMといった具合だ。2023年から2027年まで、GPT-4の上に何を期待すべきかを見ることもできる。

ひとつひとつ見ていくが、OOMの数を急速に増やしていることは明らかだ。データの壁には逆風が吹いている可能性があり、それについては後述するが、全体的には、2027年までにGPT-4の上に、GPT-2からGPT-4規模のジャンプがもう1回起こると予想される。

コンピュート

まず、最近進歩原動力として最もよく議論されている、モデルへの(大量の)コンピュート投入について説明します。

多くの人は、これは単にムーアの法則によるものだと考えている。しかし、ムーアの法則が全盛期を迎えていた昔でさえ、その進歩比較的緩やかなものでした。しかし、ムーアの法則が全盛期だった昔でさえ、10年で1~1.5OOMと、比較ゆっくりとしたスピードだった。(かつては1つのモデル100万ドルを費やすことさえ、誰も考えもしないことだった。)

モデル推定コンピュート 成長率
GPT-2 (2019) ~4e21 FLOP
GPT-3 (2020) ~3e23 FLOP + ~2 OOMs
GPT-4 (2023) 8e24~4e25 FLOP + ~1.5~2 OOMs

エポックAIによるGPT-2からGPT-4までの計算量の推定

エポックAIAIトレンドの優れた分析で広く尊敬されている情報源)の公開推定値を使用して、2019年から2023年までのコンピュートスケールアップを追跡することができますGPT-2からGPT-3へのスケールアップは迅速で、小規模な実験から大規模な言語モデルを訓練するためにデータセンター全体を使用するまでにスケールアップし、コンピュートのオーバーハングが大きくなりました。GPT-3からGPT-4へのスケールアップでは、次のモデルのためにまったく新しい(はるかに大きな)クラスタを構築しなければならないという、最新の体制に移行しました。それでも劇的な成長は続いていますエポックAIの試算によると、GPT-4のトレーニングでは、GPT-2の3,000倍から10,000倍の計算量を使用しています

大雑把に言えば、これは長期的なトレンド継続に過ぎない。過去10年半の間、主に投資(およびGPUやTPUの形でAIワークロードに特化したチップ)の幅広いスケールアップのため、フロンティアAIシステム使用されるトレーニング計算量は、およそ〜0.5OOM/年で成長してきた。

https://situational-awareness.ai/wp-content/uploads/2024/06/compute_long_run_trend-1024x968.png

注目すべきディープラーニングモデルトレーニングコンピュートの経年変化。出典エポックAI

GPT-2からGPT-3への1年間のスケールアップは異例のオーバーハングであったが、長期的なトレンドが続くことは間違いない。SF-rumor-millは、巨額のGPU受注の劇的な話で一杯だ。その投資は並大抵のものではないが、動き始めている。

この分析によれば、2027年末までにさらに2OOMsのコンピュート(数十億ドル規模のクラスター)が実現する可能性は非常に高いと思われる。さらに+3OOMsのコンピュート(1,000億ドル規模以上)に近いクラスターも可能性がありそうだ(マイクロソフト/OpenAI計画中と噂されている)。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute-1024x866.png

続き I.GPT-4からAGIへ:OOMを数える(5) https://anond.hatelabo.jp/20240605205449

I.GPT-4からAGIへ:OOMを数える (3)

ディープラーニングトレンド

過去10年間のディープラーニング進歩のペースは、まさに驚異的だった。ほんの10年前、ディープラーニングシステムが単純な画像識別することは革命的だった。今日、我々は斬新でこれまで以上に難しいテストを考え出そうとし続けているが、新しいベンチマークはどれもすぐにクラックされてしまう。以前は広く使われているベンチマーククラックするのに数十年かかっていたが、今ではほんの数カ月に感じられる。

https://situational-awareness.ai/wp-content/uploads/2024/06/owid-test-scores-1024x723.png

ディープラーニングシステムは、多くの領域で急速に人間レベルに達し、あるいはそれを超えつつある。グラフィック データで見る我々の世界


私たち文字通りベンチマークを使い果たしている。 逸話として、友人のダンコリンが数年前、2020年にMMLUというベンチマークを作った。彼らは、高校生大学生が受ける最も難しい試験匹敵するような、時の試練に耐えるベンチマークを最終的に作りたいと考えていた。GPT-4やGeminiのようなモデルで〜90%だ。

より広く言えば、GPT-4は標準的高校大学適性試験ほとんど解いている。(GPT-3.5からGPT-4までの1年間でさえ、人間の成績の中央値を大きく下回るところから人間の成績の上位に入るところまで、しばしば到達した)

https://situational-awareness.ai/wp-content/uploads/2024/06/gpt4_exams-780x1024.png

GPT-4の標準テストスコア。また、GPT-3.5からGPT-4への移行で、これらのテストにおける人間のパーセンタイルが大きく跳ね上がり、しばしば人間中央値よりかなり下から人間最上位まで到達していることにも注目してほしい。(これはGPT-3.5であり、GPT-4の1年も前にリリースされたかなり新しいモデルである。)

https://situational-awareness.ai/wp-content/uploads/2024/06/math2022-1024x273.png

灰色2021年8月に行われた、MATHベンチマーク高校数学コンテスト難解な数学問題)の2022年6月パフォーマンスに関する専門家予測。赤い星:2022年6月までの実際の最先端パフォーマンスML研究者中央値さらに悲観的だった。

MATHベンチマーク高校数学コンテストで出題された難しい数学問題集)を考えてみよう。このベンチマーク2021年に発表されたとき、最高のモデル問題の5%しか正解できなかった。そして元の論文にはこう記されている:「さらに、このままスケーリングの傾向が続けば、単純に予算モデルパラメータ数を増やすだけでは、強力な数学的推論を達成することは現実的ではないことがわかった。数学的な問題解決をより牽引するためには、より広範な研究コミュニティによる新たなアルゴリズム進歩必要になるだろう」、つまり、MATHを解くためには根本的な新しいブレークスルー必要だ、そう彼らは考えたのだ。ML研究者調査では、今後数年間の進歩はごくわずかだと予測されていた。しかし、わずか1年以内(2022年半ばまで)に、最高のモデルの精度は5%から50%に向上した。

毎年毎年、懐疑論者たちは「ディープラーニングではXはできない」と主張し、すぐにその間違いが証明されてきた。過去10年間のAIから学んだ教訓があるとすれば、ディープラーニングに賭けてはいけないということだ。

現在、最も難しい未解決ベンチマークは、博士号レベル生物学化学物理学問題を集めたGPQAのようなテストである問題の多くは私にはちんぷんかんぷんで、他の科学分野の博士でさえ、Googleで30分以上かけてやっとランダムな偶然を上回るスコアを出している。クロード3オーパス現在60%程度であり、それに対してインドメインの博士たちは80%程度である

https://situational-awareness.ai/wp-content/uploads/2024/06/gpqa_examples-768x1120.png

GPQAの問題例。モデルはすでに私より優れており、おそらくすぐにエキスパート博士レベル突破するだろう...。

続き I.GPT-4からAGIへ:OOMを数える (4) https://anond.hatelabo.jp/20240605205024

2024-05-31

そもそもお前ら、「文化資本」って意味わかって使ってるの?

いや、おれも知らん。

と思ったのでググってみた。これは社会学用語なんだな。

文化資本英語: cultural capital、フランス語: le capital culturel)とは、社会学における学術用語概念)の一つであり、金銭によるもの以外の、学歴文化的素養といった個人的資産を指す。フランス社会学ピエール・ブルデューによって提唱されて以来、現在に至るまで幅広い支持を受けている。社会階層間の流動性を高める上では、単なる経済支援よりも重視しなければならない場合もある。

wikipediahttps://ja.wikipedia.org/wiki/%E6%96%87%E5%8C%96%E8%B3%87%E6%9C%AC

フランス社会学ピエール・ブルデュー,P.(Pierre Bourdieu, P.)とジャン=クロード・パスロン,J-C.(Jean-Claude Passeron, J-C.)が考案した概念で,人間知識技能資本として捉えたゲーリー・ベッカー,G.S.(Gary S. Becker, G.S.)の人的資本概念文化領域拡張し,貨幣や財の経済的側面のみならず,教育文化の面において財が相続生産・蓄積・投資される過程説明する。文化資本言葉遣いや立居振る舞いなどの身体化された様態書物絵画などの文化財所有による客体化された様態学歴資格によって制度化された様態からなり,それらを教育就職など,経済的には「市場」となりうる「場=界(champ)」に投資することで,再生戦略可能にする物質的・象徴的な利益を引き出す。それは幼少期の家庭から相続継承され,学校教育を通じて中立的能力証明へと変換され,社会的地位権力再生産に結びつく。この概念によって,一見利害関係なく実践される文化慣習行動を,貨幣経済より広範な「象徴交換の経済」に取り込んで分析することが目指される。

コトバンクhttps://kotobank.jp/word/%E6%96%87%E5%8C%96%E8%B3%87%E6%9C%AC-377212

小難しいがようするに、

・親から子へ、資産社会的なパワーが受け継がれる

という前提があって、

・金だけでなく、文化的素養学歴スキルなどの見えない資産も子に受け継いでいるんだ!

ということなんだな。

で、その受け継ぐ過程で使われる個人的資産(=投資のもとになるもの資本)を文化資本というらしい。

wikipediaでは3つの分類が紹介されていた。


てことは、美術館それ自体文化資本ではないやんけ!(個人資産じゃないから)

おいおい、「文化資本」という言葉もまた、はてなーたちの反知性主義によって意味が捻じ曲げられているじゃないか

「なんか語感がかっこいいから、意味はよくわからんけど使ってみました」じゃねーんだよ。

美術館のものではなく、「親が美術館によく行く習慣がある」とか、そういう「家のなか」の話なんだよ、文化資本てのは。

しか資産社会的地位再生産に結びついていることが前提なのであって

庶民が「お、、おれはモネ展覧会とかよく行くし?」とか「いやー、声優舞台挨拶が家から近くていいっすわ!」とかホクホクしてるのは文化資本じゃないんだよ。単なるエンタメ消費だそれは。アホか。

それよりもおれが思ったのは、成功した起業家がよく言うやつ。

「親父が社長やってたんで、起業自分にとって自然選択肢でしたね」ってやつだよ。

あれこそ文化資本だよな。

・・・と、こうやって知らない言葉意味確認すら行わない、知的誠実さ皆無のお前らが親からたいした文化資本を受け継いでいないのは明白。

地方民は「美術館いってまーす☆文化資本文化資本☆」とかなんとか自慢してるスノッブどもを見下していいぞ。

====以下、順次追記====

適当に調べたり考えたりしてみる感じ、居住地域に美術館だとかい学校があるだとかは社会資本の話な気がするわ

文化資本て、「親の語彙の豊富さ」とか「親同士の会話の知的水準の高さ」とか「親が教育資格保有していて、知的水準の高いフィードバック日常的に得られる」とか、「社会的地位の高いオトナとの会話機会の豊富さ」とか、そういうものなんじゃねーかな

・「文化資本定義都市地域に援用」とか言ってるやつ、文化資本社会階層再生産を説明するロジックで生まれ言葉らしいから、「都民=殿上人地方民=下層民!」的な東京選民思想を前提に生きてるってことになると思うんだが、大丈夫そ?

・つーか、東京のなかでも当然ながら格差階層があるわけで、そのなかでざっくり「もとの定義は家の話だけどぉ、都市に援用すればぁ」っつってるやつは、東京の内側で生まれている格差にはどう説明をつけるんだ?東京にいるだけで文化資本恩恵享受できるなら、東京の内側の社会格差はその他の地域と比べて小さくないといけないはずだろう。まずはそれを示してくれ

・いい学校とか文化施設へのアクセスを高めるために東京に住む、はたしかに「その判断能力があったり意思決定をする家庭である」という意味文化資本があるといえそう。ただ、その意思決定の内実が本当にそうなのか?というのは問いたいところではあるな。なんとなく東京就職したとか、職場東京からそのまま住んでますとか、そっちが主要因なやつも多いんじゃないの?

・いくつかブコメ読んで、格差批判する文脈でなら都市間に援用してもいい気がしてきたが・・・仮に「都市文化資本」という概念が成り立つ場合、以下が疑問。詳しい人おしえて

1.文化資本の枠組みだけで考えると、いい学校、いい美術館などは「客体化された形態文化資本」に分類されるはずだが、そもそもこれらは社会資本ではないか?どう整理するのか?「ハビトゥス形成やす環境東京文化資本」と言ってるやつもいるが、わざわざ"援用"せずとも「東京社会資本が充実してますなー」で済むんじゃないか

2.もとの定義に照らすかぎり、文化資本経済的格差階層再生産に結びつくものなので、「他地域よりも東京経済的社会的特権的地位たらしめている、東京に特異的な文化慣習行動」が「東京文化資本」ということになる。それってなに?そんなんある?

3.ここまで考えて、いわゆる「ユダヤ商法(ほんとにあるのかしらんが)」はユダヤ人の文化資本といえそう、つまり都市という地理的な要素よりは特定価値観を共有する集団内においてなら、文化資本という概念は家を超えて援用できそうと思ったんだけど、どうなん?

2024-05-26

anond:20240526150028

抗うつ薬で太る薬といえばNaSSAと呼ばれる鎮静系抗うつ薬リフレックス/レメロンミルタザピン)と三環系抗うつ薬トリプタノールアミトリプチリン)が代表的

トリプタノール以外でも三環系抗うつ薬効果が強いぶん副作用も強く、比較的太りやすいとされる。でも三環系は古い薬であり、第一選択薬じゃないので処方されてる人は比較的少ない印象。

あとは、抗精神病薬だけど抗うつ薬として使われることが多いドグマチールスルピリド)も食欲が増進するイメージがある。

普通の人がまず処方されるであろうSSRISNRIは太るような副作用はそれほどない。

特に太りにくい抗うつ薬代表格はSNRIサインバルタ(デュロキセチン)、イフェクサー(ベンラファキシン)、トレドミンミルナシプラン)の3つ。

私は今までSSRIは全種類、SNRIイフェクサーのみ服用したことがあるけれど、太ったことは一度もない

SNRIは服用量が増えるにつれてSSRIでは一度も出たことのない副作用、ミオクローヌスが酷くなっていったので服用中止した)。

そのせいかリフレックス/レメロンミルタザピン)と三環系抗うつ薬以外で「抗うつ薬で太った」と言う人を見かけると

「それって抗うつ薬副作用ではなくて、うつ状態運動量が落ちたことや精神状態が安定したことにより食欲が回復してきたからでは?」

「もしくは、うつ病の症状として過食が出ているのでは?」と思ってしまう。

抗うつ薬ではなく抗精神病薬ではジプレキサ(オランザピン)とセロクエルクエチアピン)が太りやすいことで有名な薬だから、それらを服用してる人が太るのならまだ理解できるのだが……。

2024-05-12

anond:20240512121549

この程度の再投稿指摘はカワイイもんだけど、昔は自動スクリプトを使ってまで再投稿を注意してるやつもいたな。懐かしい。

見つける度に、毎回運営に再投稿を指摘するヤツを通報してたら、いつの間にか消えたな……やはり運営に警告されたんだろうか。勝手クローリングすんなよって( ´艸`)

個人的には、スクリプトとか使って増田クローロングとかしない限りは、再投稿を注意するヤツは別にいいと思うよ。人力ならな。それも多様性ひとつ

2024-05-06

anond:20240505212153

https://www.youtube.com/watch?v=dJ27klj1nZw

そういえば、ジャン=クロード・ヴァンダムテレビで喋ってて、滅茶苦茶陰謀論者で驚いた記憶があるなあ

テレビで喋らせちゃあかんやつやったわ…

2024-03-29

anond:20240329201500

AIベリストだけ。

ChatGPTとクロードは頑張れば少しだけ書いてくれるけど。ChatGPTはバン可能性がある。

そしてAIのべりすとは低能なのです。悲しい。もっとAIエロいことさせろ!!

サバンナ八木携帯小説チェックポイント評価

anond:20240329134921

seesaa Blog検索機能、一覧機能問題で1000話以前のリンクへたどり着くのは至難の業だ。まるで密教のようになっているソレを詳らかにしようと思う。

探索方法

月別アーカイブで掘るのが効率的ってのを発見http://savannayagi.seesaa.net/archives/200909-1.html "200909-1"を変えていく

「0001話 2009/03/07 http://savannayagi.seesaa.net/article/115268130.htmlから始まるんだがURL規則性がない

クローリングするなら「2009/03/07以降の全記事を拾う」でいいか

評価

...

2024-03-25

anond:20240325100054

色盲も出たのもこの影響なんかな



精神原因による色覚異常の事例はあるでしょうか?気になったので調べてみました!

[Conversion disorder - Wikipedia](https://en.wikipedia.org/wiki/Conversion_disorder)

自動翻訳の内容:

兆候と症状

(中略)

感覚症状または感覚障害:

定義

転換性障害現在機能性神経症状障害という包括用語に含まれています転換性障害場合心理的ストレス要因があります

DSM-5 に記載されている機能性神経症状障害診断基準は次のとおりです。

患者には、随意運動機能または感覚機能の変化の症状が少なくとも 1 つあります

a. 臨床所見は、症状と認識されている神経学的または病状との間の不適合の証拠提供します。

b. この症状や欠損は、別の医学障害精神障害によって説明するのが適切ではありません。

c. 症状または欠損は、社会的職業的、またはその他の重要機能領域において臨床的に重大な苦痛または障害を引き起こすか、医学評価必要とする。

d. 症状または欠損の種類を次のように指定します。

[以降関連する情報なし]


調べてみた結果、「ストレス性の色覚異常」(color blindnessもしくはachromatopsia)に関する直接的な言及は見当たりませんでした!

いかがでしたか

2024-03-20

ブッダキリストってどっちの方が偉いの?

質問が悪かったかも……

子供が遊びで話す「スタローンとジャン・クロード・バンダムはどっちが強い?」

そのレベルでいいから教えてよ

2024-03-13

anond:20240313103700

まあ普通に考えて「技術共有当たり前」ってほうがレアだわな。

そういう「すべて無料で公開して共有しましょう」っていう発想から違法サイトや共有ソフトも出てきたわけだし、

Googleがいろんなコンテンツクローリングするのも昔からさんざん批判されてきたし、

いま起きてるAI問題もその延長線上にすぎないよな。

2024-03-10

anond:20240310083848

クロードでできるっしょ直接表現控えて比喩暗喩ポリシーを守って作ってとか言えばいいのでは。

クロード急に賢者モードになるので、うまくその気にさせるのコツがあるから続きはオンラインサロンでー♡

2024-03-05

anond:20240305115203

比較出来ないんじゃなくて、比較するのがナンセンスって話なんだけどまだ理解できない?

同じスポーツというジャンルの中でサッカー野球、どっちが面白いかというのはプレイする人や見る人、その敷居の高さによって変化するよね

同じファンタジー漫画でも読む人のバックボーンやその時置かれている状況や環境によって面白さのベクトルテーマが変化するのにどうやって比較するの?

比較してる作品ジャンルバラバラ、富樫作品を出してしかレベルEを一番にする俺わかってるよな(ドヤ)みたいなのが透けて見えるし短い文章理解できず、比較することにしか焦点を当てない

子供が遊びで話す『スタローンとジャン・クロード・バンダムはどっちが強い?』そのレベルでいいよ、みたいな一文があるならまだ回答しようがあるのになw

こりゃ高校生じゃなくて中学生かな?w

2024-02-17

ハリポタ公式ホグワーツ組分け帽子診断」やってみた

レイブンクローに選ばれたぞ

診断するのにアカウントを作らなきゃならないのがチト面倒

直リンだとアレかなと思ったので告知ページURL

https://warnerbros.co.jp/c/news/2023/11/3664.html

2024-02-12

anond:20240211181217

軽微利用のくだり、その解釈だと検索エンジン普通に違法にならね?

検索エンジン側で持ってるデータベースクロールしたデータを全文ぶち込んでインデックス作ってないとこんな検索速度出せないでしょ

まさか検索するたびにクローリング走らせて全文中に検索ワードとの合致あるか調べて結果返すわけでもあるまいし

https://public-comment.e-gov.go.jp/servlet/PcmFileDownload?seqNo=0000267588

パブコメ用に素案も読み返してたんだけど、検索拡張生成(RAG)についての文化庁見解新聞協会のそれとはそもそも大幅な食い違いがありそう

https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf

というか問29に沿って考えれば、「情報解析によって時事情報(※ただの事実であって著作権によって保護されない)を表示する」が主であって、その過程における「既存著作物を複製翻案等する」は従であるとも評価しうるのでは

2024-02-02

トリプル

ウェカントゥクローナーイ

ウェカントゥクローファーイ

ウィージャスタロクローマン

ウィージャスタロクローバン

  

決して何物にもなれないお前たちに告げる

チンコドリルを探すのだ

ログイン ユーザー登録
ようこそ ゲスト さん