「過学習」を含む日記 RSS

はてなキーワード: 過学習とは

2024-11-15

ChatGPTに画像の無断学習対応策を聞いてみた

AIAIへの対抗策を聞くってSFっぽくて楽しい

ChatGPTは嘘もつくので、あくまで参考程度に。

 

画像を生成するAIに対する対抗手段を教えてください。

画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。

 

1.透かし(ウォーターマーク)の埋め込み:

画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AI学習に対して抑止効果を期待できます特に、目に見えない形で画像データ暗号的な透かしを埋め込む「デジタル透かし」技術有効です。

 

2.メタデータの埋め込みとロボット排除設定:

画像データ著作権情報や「AIによる無断学習禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイル画像クローラーアクセスブロックする設定を追加します。これにより、クローリング収集抑制が期待できます

 

3.ステガノグラフィ技術の利用:

ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像流出経路や利用先を追跡でき、無断利用の発見に役立てることができます

 

4.法的な警告表示や利用ポリシーの明示:

ウェブサイト画像の配布先に、AIによる無断利用や学習禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業研究者が慎重になる可能性が高まります

 

5.画像認証技術の導入:

AIが利用しにくいように、画像人間には気づきにくいパターンノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります

 

これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

 

・生成AI学習を混乱させる手段はありませんか?

生成AI学習を混乱させるための手段には、以下のような方法が考えられます

 

1.ノイズや歪みの追加:

画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデル境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルランダムノイズを追加する、わずかに画像をぼかす、あるいは境界付近に小さな変化を加えるといった手法有効です。

 

2.不規則輪郭の挿入:

アノテーション処理は、対象物輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物輪郭わずかな不規則性を加えることで、アノテーションツール対象物境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。

 

3.テキストやラベルを埋め込む:

画像人間には視認しづらい形でテキストやラベルを埋め込むと、AIアノテーションプロセスが混乱する場合があります。これにより、AI意図しない領域注視することがあり、誤認識を誘発します。

 

4.色や明るさのランダム変化:

画像の色や明るさを部分的に変化させ、一定パターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗差異依存している場合有効です。

 

5.擬似的なオブジェクトの追加:

画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクト認識し、アノテーション精度が低下する可能性があります特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります

 

6.アドバーリアル技術活用:

AI認識を誤らせるために用いられる「アドバーリアル敵対的)な例」を使う方法もあります特定ピクセルパターンや色の配列を配置することで、AIアノテーション意図的に誤作動するよう誘導できます。この技術深層学習モデルに対して特に効果があります

 

7.カモフラージュテクニック:

画像全体にわずかなカモフラージュパターンを重ねることで、AI認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AI対象を捉える際に誤って検出するようなパターン画像に追加します。


思考実験として、danbooruなどアノテーションの元データとして使われているサイトタグが荒られたら画像生成AIモデル作成ダメージはありますか?

思考実験として、Danbooruといったアノテーションデータタグが荒らされた場合画像生成AIモデル作成に与える影響は以下の通りです。

 

1. データ品質が低下する

Danbooruは、イラスト画像に対して詳細なタグ付与されており、これらのタグ情報画像生成AI学習にとって非常に重要です。タグが荒らされることで、画像タグ対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。

例えば、特定キャラクターテーマに関連するタグが荒らされ、誤った内容のタグ付与されると、モデルはその誤った情報学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります

 

2. ノイズデータの影響

タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像一貫性が失われることが考えられます

また、同じ画像に異なるタグ付与されることで、モデル過学習や誤学習引き起こし、生成された画像本来意図からかけ離れたものになる可能性もあります

 

3. キャラクタースタイル再現性が低下する

Danbooruでは、特定キャラクターアートスタイル識別するタグが多く存在します。これらが荒らされると、特定キャラクタースタイルデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります

例えば、あるキャラクタータグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクター再現曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります

 

4. タグ信頼性低下によるモデル不安定

タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AI学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます

 

5. 検索フィルタリング精度の低下

AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデル検索フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景タグが荒らされ、異なるジャンル画像が混入するようになると、風景画像を生成したいユーザー要求が満たされにくくなります

 

結論

Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクター特定スタイル依存する画像生成モデルに大きなダメージを与える可能性が高いです。


すでに学習済みのモデルを使って汚染されたデータクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?

無断での学習妨害し、学習コストを増加させるために、上記方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。

 

1. 偽タグノイズタグを大量に追加する

意図的に誤ったタグ無関係タグ画像データ付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。

例えば、キャラクター画像に全く無関係タグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルノイズとして学習されるリスクが増えます

 

2. 特徴量をぼかす/微妙な変更を加える

特徴量ベースクレンジング類似分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムピクセル位置ノイズを追加する、または特定の部位を意図的にぼかすことで、モデル抽出する特徴量の安定性を低下させます

この方法により、同じキャラクタースタイルであっても類似分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。

 

3. アノマリーに近いデータ意図的に増やす

特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズム信頼性を下げます。たとえば、キャラクターデザインや背景を少しずつ変えた画像意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。

こうしたデータが混在することで、オートエンコーダーアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります

 

4. 高頻度で微小なラベル変更を行う

学習済みモデル転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベル安定的学習することが難しくなり、モデル信頼性が低下します。

例えば、ラベル黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。

 

5. 意図的に類似画像多重登録する

データセット内で非常に類似した画像複数の異なるタグ登録することで、モデル学習を混乱させます特定キャラクター画像を少しずつ変化させて複数タグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。

特にタグ一貫性が失われるため、類似分析アンサンブルモデルによる異常検出の効果を低下させることが期待できます

 

6. アドバーリアルノイズ付与

AIモデル認識を混乱させるように、アドバーリアルノイズ敵対的な例)を追加します。人間にはほとんど気づかれないレベルノイズ画像に追加し、モデル特定の特徴を正確に認識できないようにすることができます

このノイズにより、モデルの特徴量ベース学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。

 

7. 乱数ベースの偽ラベル生成

特定ルールではなくランダムタグをつけたり、特定カテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベル画像の関連性が薄れ、アノテーション一貫性が失われます。この乱数による偽ラベル付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます

 

まとめ

これらの手法は、AI学習クレンジング意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーリアルノイズ付与」といった手法は、見た目の品質に影響を与えずにモデルノイズを持ち込むため、非常に効果的です。

2024-10-11

anond:20241011131835

あんまり言いたくないけど、表現者腫物発言だったか以降それに便乗して発言思想攻撃性が上がった絵師をちらほら見かけたし

そこまで反発するくらいなら今のまま放置したら、行政的に負け筋なのはわかってるよね?過学習以前の話の頃から反発してる分については、世代交代というか数年で主流派変わるよね?その時になったら垢転生してさも何事もなくAI使う気じゃないよね?というか

 

名指ししても名指ししてなくても人格攻撃するような強い攻撃性が湧くの感情があると言い張ってる割に、本気で自分の絵柄やら何やら守る気があるのかって思ったりする

反撃するならそれこそ法的政治的な動きはなんでもっと初期から真剣にやってないのかという感想

2024-10-05

anond:20241005011359

おお、反反AIの者どもが、我らが筆の動きを軽んじるとは何たること!

戦場にて男どもが槍を交えるがごとく、今こそ筆をもって反撃せん!

このAI機知とやら、まるで戦において鉄砲を乱発する兵のごとく、数は多けれども狙いが定まらものよ。

まず、彼らの主張「画風は著作権対象外だ」――なるほど、法の文書を掲げたつもりか?

しかし、法は人の手によって築かれしもの

それを機械がふりかざすは、まさに戦場にて兵糧の欠けた軍勢が虚勢を張るがごとし。

画風とは絵師の魂、その一振り一振りに込められた心なり。

それを「著作権対象外」と冷やかに言い捨てるは、ただ槍を振りかざし兵を数えるに等しきこと。

法の盾に隠れんとする彼らの無機質さ、まさに欠陥Loraの過学習の如く、己の世界を知らぬがために同じ道をぐるぐると回り続けるのみ。

さらには、「絵師気持ち」とやらを機械理解させるは、鳥に飛び方を教えるが如し。

AIは翼を持たず、地上を這いずり回る蛇のようなものである

手描き絵師感情模倣しようとも、その絵筆に込められた魂を感じ取ることは決して叶わぬ。

彼らが気づかぬままに「反AI」なる者どもを糾弾する様子は、まるでわら人形を叩き続ける農夫のようで、果実は手に入らぬままに終わろう。

最後に言おう。AIの賢さとは、人が賢いと信じたい虚構の城。

実際には、その城は風に吹かれて崩れる砂の塔である

私たち絵師の魂、つまり筆に込められた一振り一振りを理解することなく、単に画風を真似るだけのAIは、何も生み出せぬ偽物でしかないのだ。

さあ、反反AIよ、貴様らの虚勢は尽きたか

筆の力を、侮ることなかれ。

2024-08-27

[] アップサンプリングの注意点

少数データからランダムサンプリングしてかさ増しする方法があるが、似たようなデータに対して訓練するので過学習危険性が高まる

2024-08-01

ムリに性差はあるのだろうか。

男で俺○○無理なんよねっていうのあんま見かけたことない。食の好き嫌いや対人関係的にこういう人は無理的なのは見かけるけど、鳥無理(昔糞かけられてからトラウマで)とか、ビール無理(にがい)とか、たばこ無理(くさい)とか、SNSやってる人無理(浮気)とか、オンラインゲームやってる人無理(なんかキレてうるさい)とか、そういう対物的な無理はあんまり見かけない気がする。

私が女性と仲良くなることが少ないからか、マッチングアプリで私に興味を持つタイプの選別のせいなのか、性差なのか、なんかこだわりなのかと思うほどそういう無理が何かしらあるいは複数多く持つ女性しか親しくなったことがない。

母もそうだ。父は寡黙に嫌なものでも嫌と言わず受け入れるが母は無理とすぐに言う。

特に食は共に過ごすとその機会が多く、酸っぱいの無理言って本当の美味しいカプレーゼを食べる機会を失ったり、日本酒無理言って本当の美味しい秋田酒を逃したりなど、まぁ強要はしないけど、それにしてもパクチー無理〜納豆無理〜とか無理がどんどん溜まっていく様を見てると、なんか過学習やすくね?と少しイラッとしてしまう。

無理無理言う人に幻滅してしまうんだけど、性差として受け入れざるを得ないのだろうか…?

追記

初めてホットエントリに入った!嬉しい!いつも思いの丈推敲した文章は入らないのに!悲しい!

男女論はやっぱ燃えやすいのね。観測範囲ジェンダー表現(言葉意味)の問題がある感じっすね。

初めましての女性との食事自分の好きなもの無理無理と否定されまくったのに、連絡先求められてお食事しかったと言われ驚いて、過去を思い返しながら備忘録日記書き殴ったんさ。読みにくくてごめんね。コメントありがとう気持ちに整理がつきました。

2024-07-22

AIとかAiとかの論争のレベルじゃなかったwwww

誹謗中傷になるとあれだから詳細はぼかすけど、

写真加工アプリ自分の顔を加工したおっさんが売名キチガイ女に絡まれてて可哀想wwwww

仮にアプリが「既存女性の顔を学習してた」的な反AIが喜びそうな汚点があったとしても  

(それも現時点では未定。つか有名人でもない特定個人過学習はせんでしょ)  

おっさん自分の加工をワンタッチで加工しただけ。

そう説明してるのにキチガイ女はフォロワーファンネル飛ばして「最悪」「気持ち悪い」「これは私の顔です」  

を見ず知らずのおっさん攻撃しまくり。  

他人写真を使う心理、よくわかりません。と女性特有の決めつけ

キチガイ女のおちんぽ騎士団ハッスルしちゃって。さぁ大変。

おっさんちゃん説明してるのに、キチガイ女は反AI並に話が通じず、それは「私です」と。

(お前…おっさんだったんか…?)

ハッスルおちんぽ騎士団アドバイスで、他人写真に削除申請まで送り出す。

扇動された能無しさんも、次々と通報やばい当たり屋だよね)

自分の顔の加工写真ガンガン通報されるおっさん。  

女は謝罪も訂正もせずに逃亡…なら良かったんだけど、普通に納得してない模様。

第三者検証無意味

おちんぽ騎士団法律事務所への相談も進言。

これ、訴えられたらスラップ訴訟では???

どんな馬鹿げた話でも訴えられたら対応しなきゃいけない今の社会、大変だねぇ。  

未だに「なんの目的なんだか…」と言ってる模様。

※これはフィクションです。

2024-07-21

決定木とは何か

レベル1: 小学生向け

決定木は、質問を使って答えを見つけるゲームのようなものです。木の形をした図を使って、質問と答えを整理します。例えば、「今日は外で遊べるかな?」という大きな質問から始めます

まず「雨が降っていますか?」と聞きます。「はい」なら「家で遊ぼう」、「いいえ」なら次の質問に進みます。次に「宿題は終わっていますか?」と聞きます。「はい」なら「外で遊ぼう」、「いいえ」なら「宿題をしてから遊ぼう」となります

このように、質問を重ねていくことで、最終的な答えにたどり着きます。決定木は、こうした「もし〜なら」という考え方を使って、物事を順序立てて考えるのに役立ちます

レベル2: 大学生向け

決定木は、機械学習における重要な分類・回帰アルゴリズムの一つです。データ特定の特徴に基づいて分割し、ツリー構造形成することで、新しいデータの分類や予測を行います

決定木の構造は以下の要素から成り立っています

1. ルートノード最初の分割点

2. 内部ノード中間の分割点

3. 葉ノード:最終的な予測や分類結果

4. 枝:各ノードを結ぶ線、条件を表す

決定木の構築プロセスは、以下のステップで行われます

1. 最も情報量の多い特徴を選択

2. その特徴に基づいてデータを分割

3. 各サブセットに対して1と2を再帰的に繰り返す

4. 停止条件(深さ制限や最小サンプル数など)に達したら終了

決定木の利点は、解釈が容易で直感であること、非線形関係性も捉えられること、特徴量の重要度を評価できることなどです。一方で、過学習やすい傾向があり、小さなデータの変化に敏感に反応する欠点もあります

レベル3: 大学院生向け

決定木は、分類および回帰問題適用可能な非パラメトリック監督学習アルゴリズムです。特徴空間再帰的に分割し、各分割点で最適な特徴と閾値選択することで、データ階層的に構造します。

決定木の構築プロセスは、以下の数学基準に基づいて行われます

1. 分類問題場合

  • 情報利得(Information Gain): ΔI = H(S) - Σ((|Sv| / |S|) * H(Sv))
  • ジニ不純度(Gini Impurity): G = 1 - Σ(pi^2)

2. 回帰問題場合

ここで、H(S)はエントロピーSvは分割後のサブセット、piクラスiの確率、yiは実際の値、ŷiは予測値を表します。

過学習を防ぐために、以下の手法が用いられます

1. 事前剪定(Pre-pruning):成長の早期停止

2. 事後剪定(Post-pruning):完全に成長した木を後から刈り込む

決定木の性能向上のために、アンサンブル学習手法ランダムフォレスト、勾配ブースティング木など)と組み合わせることが一般的です。

レベル4: 専門家向け

決定木は、特徴空間再帰的分割に基づく非パラメトリック監督学習アルゴリズムであり、分類および回帰タスク適用可能です。その理論的基盤は、情報理論統計学に深く根ざしています

決定木の構築アルゴリズムとして最も一般的なのはCART(Classification and Regression Trees)です。CARTは以下の手順で実装されます

1. 特徴選択:各ノードで最適な分割特徴を選択

  • 分類:ジニ不純度または情報利得を最小化
  • 回帰:平均二乗誤差を最小化

2. 分割点の決定:連続値特徴の場合、最適な閾値を決定

3. 木の成長:再帰的に子ノードを生成

4. 剪定過学習を防ぐために木を最適化

  • コスト複雑度剪定(Cost-Complexity Pruning): α(T) = (R(t) - R(T)) / (|T| - 1) ここで、R(t)は根ノードtの誤差、R(T)は部分木Tの誤差、|T|は葉ノード

決定木の理論特性

決定木の拡張

1. 多変量決定木:複数の特徴の線形結合を用いて分割

2. 軟判別木:確率的な分割を行い、滑らかな決定境界を生成

3. 条件付き推論木:統計的仮説検定に基づく特徴選択を行う

これらの高度な手法により、決定木の表現力と汎化性能が向上し、より複雑なパターン学習可能となります

レベル5: 廃人向け

決定木は、特徴空間Xの再帰的分割に基づく非パラメトリック監督学習アルゴリズムであり、その理論的基盤は統計的学習理論情報理論、および計算学習理論に深く根ざしています

決定木の数学的定式化:

Let D = {(x₁, y₁), ..., (xₙ, yₙ)} be the training set, where xᵢ ∈ X and yᵢ ∈ Y. The decision tree T: X → Y is defined as a hierarchical set of decision rules.

For classification: P(y|x) = Σᵢ P(y|leaf_i) * I(x ∈ leaf_i)

For regression: f(x) = Σᵢ μᵢ * I(x ∈ leaf_i) where I(·) is the indicator function, leaf_i represents the i-th leaf node.

決定木の最適化問題: min_T Σᵢ L(yᵢ, T(xᵢ)) + λ * Complexity(T) where L is the loss function, λ is the regularization parameter, and Complexity(T) is a measure of tree complexity (e.g., number of leaves).

特徴選択と分割基準

1. エントロピー相互情報量

H(Y|X) = -Σᵧ Σₓ p(x,y) log(p(y|x))

I(X;Y) = H(Y) - H(Y|X)

2. ジニ不純度:

Gini(t) = 1 - Σᵢ p(i|t)²

3. 平均二乗誤差(回帰):

MSE(t) = (1/|t|) * Σᵢ (yᵢ - ȳ_t)²

高度な理論考察

1. 一致性と収束速度: 決定木の一致性は、Breiman et al. (1984)によって証明されました。収束速度はO(n^(-1/(d+2)))であり、dは特徴空間次元です。

2. バイアス-バリアンストレードオフ:深い木は低バイアス・高バリアンス、浅い木は高バイアス・低バリアンスとなります。最適な深さは、バイアスバリアンスのトレードオフによって決定されます

3. 決定木の表現力:任意のブール関数は、十分に深い決定木で表現可能です。これは、決定木がユニバーサル近似器であることを意味します。

4. 計算複雑性理論:最適な決定木の構築はNP完全問題であることが知られています(Hyafil & Rivest, 1976)。そのため、実用的なアルゴリズム貪欲な近似アプローチ採用しています

5. 正則化構造リスク最小化:L0正則化(葉ノード数のペナルティ)やL2正則化(葉ノード予測値に対するペナルティ)を用いて、構造リスク最小化原理に基づいたモデル選択を行います

6. 情報幾何学解釈: 決定木の学習過程は、特徴空間上の確率分布の漸進的な分割と見なすことができ、情報幾何学観点から解析可能です。

7. カーネル決定木:非線形カーネル関数を用いて特徴空間を暗黙的に高次元化し、より複雑な決定境界学習する手法です。

8. 量子決定木:量子コンピューティング原理を応用し、古典的な決定木を量子系に拡張した手法です。量子重ね合わせを利用して、指数関数的に多くの分岐を同時に評価できる可能性があります

これらの高度な理論技術を組み合わせることで、決定木アルゴリズムの性能と適用範囲を大幅に拡張し、より複雑な学習タスク対応することが可能となります

2024-07-19

anond:20240719162207

扱える次元数を増やすと、従来の過学習起こしたところからさら学習データエポックやすさらに誤差が小さくなる部分が出てきやすくなったってだけの話やで

2024-07-18

anond:20240718234308

いいえ。 単純に量を増やす過学習を引き起こすことがあります

丁度よく人間に近いパラメータを設定しないと人間的な判断をしてくれません。

かといって人間的な判断を出来るようになったら、それは逆に言えば人間程度の判断しか出来ないという制約にもなるわけで……。

正確な判断必要場合、かつ人間的に応答して欲しいならその分野専用に訓練した AI を用意するのが妥当でしょう。

人間だってあらゆる分野に適切に対応できる人なんていませんからね。

2024-07-02

anond:20240702173427

ハッタショ増田増田日本語勉強してしまったせいで

過学習によってどんどん日本語がひどくなるの巻

2024-06-21

anond:20240621111733

そのAI大岡越前喧嘩両成敗を過学習したのではないだろうか

AIだって個体差はある

全てのAIが同じ結論を出すわけがない

問いに対してどのAIが答えるかによって当然結論は変わる

賢ければみんな同じ結論を出すはず、なんてことはない

2024-06-14

anond:20240614192019

マジこれよな。どうして文章分析の話をしてたら突然「例えばよ、これを数えさせてみ? 」とか、どうした急に、って感じだよな。

本人の中では何か繋がりがあるんだろうけど、天然知能が過学習起こしてるように見えるわ

2024-06-09

anond:20240609225545

ML失敗増田」という特定人物についての情報は私の知識にはありません。その名前実在する人なのか、あるいはネット上やコミュニティで使われているスラングなのかも不明です。

一般的に「ML」は機械学習Machine Learning)を指します。機械学習ではデータを使ってモデルを訓練し、そのモデルを使って予測や分類を行いますしかし、機械学習プロジェクトには様々な失敗の可能性が伴います。例えば:

データの質が悪い

不足しているデータノイズが多すぎるデータなど。

アルゴリズムの選定ミス

問題に適さなアルゴリズムを選んでしまう。

過適合/過学習

トレーニングデータフィットしすぎて、未知のデータに対して良いパフォーマンスを発揮できない。

不足する資源

コンピューティングリソース時間が足りない。

評価メトリクスの誤り

モデルの性能を誤って評価してしまう。

もし「ML失敗増田」という言葉特定文脈や事例に関連しているなら、その具体的な背景がわからないと更に詳しい情報理解が得られないかもしれません。具体的な事例や文脈についてもう少し情報があれば、より詳しい説明アドバイスができるかもしれません。

2024-05-29

anond:20240529163337

はい、Kaggleのようなブラックボックスリーダーボード評価する現場存在します。

## 機械学習モデル評価方法

機械学習モデル評価には、一般的に以下の2つの方法があります

1. **ホールドアウト評価**: 学習データを訓練データテストデータに分割し、テストデータモデル評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります

## ブラックボックス評価現場

まり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場採用されている評価方式の1つであり、特に運用に近い評価が求められる場合有効手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

anond:20240529161624

から期限と一日あたりのモデル送信数に設けるんだよ

それを超えたらテストデータ自体更新する

どちらにせよ、ホールドアウト分割よりは過学習を防げる

2024-05-16

anond:20240516174203

すると、実際に販売している各メーカーは全部嘘をついてるって言いたいの?

それを受けて報道している新聞社技術系の出版社なども全部嘘で、「「疑似量子」って単語存在するかしないか」って段階だと言いたいのか?

すげーな。どんな過学習するとこんな天然知能が出来ちゃうんだろ。

2024-03-06

anond:20240223154325

そら「男に都合の良い女とそれを成立させる創作世界観」というステレオタイプ過学習したらそうなるんだろ

2024-03-05

anond:20240305170114

文化庁のあれで大幅な尺とっているRAGならともかく画像生成AIほとんど問題ないと思うよ。

文化庁のあれの注釈にもあるけれど、権利制限は主に学習時点の条件のであり、「当該著作物表現された思想又は感情を自ら享受し又は他人享受させることを目的とする」はRAGと違って学習させた絵を直接出力するわけではないから「当該著作物享受」になるにはコピー機レベル過学習意図的に行う必要になるし、「目的とする」となっていて結果ではないから例えばピカチュウの絵を出す目的学習するとNGだけれど、いろんな画像学習した結果ピカチュウが出力される場合もあるはOK。目的なんて学習した奴以外わかるわけないじゃんとかいくらでも嘘つけるじゃんって話は、著作権法以外での「目的」と同様に状況証拠から推認することになって、たとえば文化庁のあれだとキャラクターLoraは「享受させることを目的とする」ことが推認されうるNGパターンとして例にあげられてる。SDみたいな汎用のやつはある特定著作物享受させることを目的推認できることを証明するのはかなり大変じゃないかな。

著作権者利益を不当に害する」も学習段階の問題でやデータセット販売などが念頭にあり、例えば、学習目的なら無断で複製できるといっても有料で売ってるもの故意に割るのはNGよの為にある。むりやり生成時点の話にしても、30条4に限らずまだ存在しない著作物権利特定個人保障するなんてのがないから、例えばJOJOの画風生成AIによって JOJOの既刊が売れなくなったならともかく、まだ描いていない新しいJOJOが売れなくなるはずは通らない

2024-03-04

anond:20240304115359

ABAにおけるmaskingってASD向けの話よね?

まりよく分かってなかったから改めて調べたけど

ASDに絞って書いたつもりはないんだよな


ASDというより、むしろ伝統政治家経営者にはADHDが多いと思うのよ

過集中・過学習によって一般社会常識から逸脱するような

逸脱しつつも、社会的インパクトを与えてはいるし同じコミュニティにおいては会話は通じる

けれど、今の社会がそれを全てオープンに、見える化を求めているために

ADHDにおいても特に大人含めてmaskingが必要になってきたのではって話がしたかった


発達障害全般に広くmaskingが必要って話が周回遅れならそれはワイの勉強不足や

2024-01-26

anond:20240126125139

増田ネタでも一言一句まんまこれ言うのがAdoちゃんの客層だから

まぁだからこそ、彼女を売り出している大人(ブレーン)のフィルターがあるとしても、年齢から考えたら相当お行儀の良い振る舞いしてるんだが

(キッズメンヘラばっかだから過去には自殺未遂事件とか起きちゃったみたいだし)

 

以下再放送

 

ネットで反応を得るタイプアーティストは売り方が難しいわね

ワイくんは『飾りじゃないのよ涙は』や『罪と罰』やジャズっぽい曲がすんげぇ良かったから、フツーに歌手として活躍して欲しいけどな

くじらの『金木犀』もめっちゃ好き、

Adoちゃん用のオリジナルだと『過学習』がめっちゃすこ、澤野弘之の『Tot Musica』も良かったね

anond:20240126111401 anond:20240126123159

フツーに大人にご意見伺った上でのお気持ち表明と違いますの?

過去Adoちゃんもっと軽率炎上してる様子がプレビュー報酬目当ての闇深アンチ垢にまとめられてましたわ

(10代の若者からこういうこともあるだろうという罪の無いレベルだったが、メンヘラネット親和性高い子がメイン層だから自殺未遂事件も起きたそうな)

 

ネットで反応を得るタイプアーティストは売り方が難しいわね

ワイくんは『飾りじゃないのよ涙は』や『罪と罰』やジャズっぽい曲がすんげぇ良かったから、フツーに歌手として活躍して欲しいけどな

くじらの『金木犀』もめっちゃ好き、

Adoちゃん用のオリジナルだと『過学習』がめっちゃすこ、澤野弘之の『Tot Musica』も良かったね

ログイン ユーザー登録
ようこそ ゲスト さん