「メタデータ」を含む日記 RSS

はてなキーワード: メタデータとは

2024-11-15

ChatGPTに画像の無断学習対応策を聞いてみた

AIAIへの対抗策を聞くってSFっぽくて楽しい

ChatGPTは嘘もつくので、あくまで参考程度に。

 

画像を生成するAIに対する対抗手段を教えてください。

画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。

 

1.透かし(ウォーターマーク)の埋め込み:

画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AI学習に対して抑止効果を期待できます特に、目に見えない形で画像データ暗号的な透かしを埋め込む「デジタル透かし」技術有効です。

 

2.メタデータの埋め込みとロボット排除設定:

画像データ著作権情報や「AIによる無断学習禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイル画像クローラーアクセスブロックする設定を追加します。これにより、クローリング収集抑制が期待できます

 

3.ステガノグラフィ技術の利用:

ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像流出経路や利用先を追跡でき、無断利用の発見に役立てることができます

 

4.法的な警告表示や利用ポリシーの明示:

ウェブサイト画像の配布先に、AIによる無断利用や学習禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業研究者が慎重になる可能性が高まります

 

5.画像認証技術の導入:

AIが利用しにくいように、画像人間には気づきにくいパターンノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります

 

これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

 

・生成AI学習を混乱させる手段はありませんか?

生成AI学習を混乱させるための手段には、以下のような方法が考えられます

 

1.ノイズや歪みの追加:

画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデル境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルランダムノイズを追加する、わずかに画像をぼかす、あるいは境界付近に小さな変化を加えるといった手法有効です。

 

2.不規則輪郭の挿入:

アノテーション処理は、対象物輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物輪郭わずかな不規則性を加えることで、アノテーションツール対象物境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。

 

3.テキストやラベルを埋め込む:

画像人間には視認しづらい形でテキストやラベルを埋め込むと、AIアノテーションプロセスが混乱する場合があります。これにより、AI意図しない領域注視することがあり、誤認識を誘発します。

 

4.色や明るさのランダム変化:

画像の色や明るさを部分的に変化させ、一定パターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗差異依存している場合有効です。

 

5.擬似的なオブジェクトの追加:

画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクト認識し、アノテーション精度が低下する可能性があります特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります

 

6.アドバーリアル技術活用:

AI認識を誤らせるために用いられる「アドバーリアル敵対的)な例」を使う方法もあります特定ピクセルパターンや色の配列を配置することで、AIアノテーション意図的に誤作動するよう誘導できます。この技術深層学習モデルに対して特に効果があります

 

7.カモフラージュテクニック:

画像全体にわずかなカモフラージュパターンを重ねることで、AI認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AI対象を捉える際に誤って検出するようなパターン画像に追加します。


思考実験として、danbooruなどアノテーションの元データとして使われているサイトタグが荒られたら画像生成AIモデル作成ダメージはありますか?

思考実験として、Danbooruといったアノテーションデータタグが荒らされた場合画像生成AIモデル作成に与える影響は以下の通りです。

 

1. データ品質が低下する

Danbooruは、イラスト画像に対して詳細なタグ付与されており、これらのタグ情報画像生成AI学習にとって非常に重要です。タグが荒らされることで、画像タグ対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。

例えば、特定キャラクターテーマに関連するタグが荒らされ、誤った内容のタグ付与されると、モデルはその誤った情報学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります

 

2. ノイズデータの影響

タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像一貫性が失われることが考えられます

また、同じ画像に異なるタグ付与されることで、モデル過学習や誤学習引き起こし、生成された画像本来意図からかけ離れたものになる可能性もあります

 

3. キャラクタースタイル再現性が低下する

Danbooruでは、特定キャラクターアートスタイル識別するタグが多く存在します。これらが荒らされると、特定キャラクタースタイルデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります

例えば、あるキャラクタータグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクター再現曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります

 

4. タグ信頼性低下によるモデル不安定

タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AI学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます

 

5. 検索フィルタリング精度の低下

AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデル検索フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景タグが荒らされ、異なるジャンル画像が混入するようになると、風景画像を生成したいユーザー要求が満たされにくくなります

 

結論

Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクター特定スタイル依存する画像生成モデルに大きなダメージを与える可能性が高いです。


すでに学習済みのモデルを使って汚染されたデータクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?

無断での学習妨害し、学習コストを増加させるために、上記方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。

 

1. 偽タグノイズタグを大量に追加する

意図的に誤ったタグ無関係タグ画像データ付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。

例えば、キャラクター画像に全く無関係タグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルノイズとして学習されるリスクが増えます

 

2. 特徴量をぼかす/微妙な変更を加える

特徴量ベースクレンジング類似分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムピクセル位置ノイズを追加する、または特定の部位を意図的にぼかすことで、モデル抽出する特徴量の安定性を低下させます

この方法により、同じキャラクタースタイルであっても類似分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。

 

3. アノマリーに近いデータ意図的に増やす

特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズム信頼性を下げます。たとえば、キャラクターデザインや背景を少しずつ変えた画像意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。

こうしたデータが混在することで、オートエンコーダーアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります

 

4. 高頻度で微小なラベル変更を行う

学習済みモデル転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベル安定的学習することが難しくなり、モデル信頼性が低下します。

例えば、ラベル黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。

 

5. 意図的に類似画像多重登録する

データセット内で非常に類似した画像複数の異なるタグ登録することで、モデル学習を混乱させます特定キャラクター画像を少しずつ変化させて複数タグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。

特にタグ一貫性が失われるため、類似分析アンサンブルモデルによる異常検出の効果を低下させることが期待できます

 

6. アドバーリアルノイズ付与

AIモデル認識を混乱させるように、アドバーリアルノイズ敵対的な例)を追加します。人間にはほとんど気づかれないレベルノイズ画像に追加し、モデル特定の特徴を正確に認識できないようにすることができます

このノイズにより、モデルの特徴量ベース学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。

 

7. 乱数ベースの偽ラベル生成

特定ルールではなくランダムタグをつけたり、特定カテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベル画像の関連性が薄れ、アノテーション一貫性が失われます。この乱数による偽ラベル付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます

 

まとめ

これらの手法は、AI学習クレンジング意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーリアルノイズ付与」といった手法は、見た目の品質に影響を与えずにモデルノイズを持ち込むため、非常に効果的です。

anond:20241115131222

あるよクオリティ高く見えてもAI絵なら価値ない

価値定義そもそも作品を楽しむ人間として歪んでるってことだね。

いや、作品価値の話をしてないが正しいのか。

作者やその周辺情報も含めたメタデータコンテンツ価値を含めたものを「価値」と名付けて一般的価値差別しないからずれるんだと思う。

価値評価軸が画一的というか...。これって問題の根っことしては撮り鉄の話と近いように見えて面白いな。

世間一般が全く価値を見出せない鉄道写真価値を見出す撮り鉄とそれ以外の対立と同じことが起きてるねこれ。

2024-10-12

anond:20241012041038

あっぷでーと:

単位:千円で決算を出している決算書に対応

要約財政状態計算書しか公開していない困ったちゃん対応

とりあえず、資産の部の6割を流動資産とみなすことにした。

そして、今のところ対応できないのが、決算短信の財務諸表画像データで添付している場合

画像で添付するとか、なんでそんなことするのさ・・・

pytesseractとかを試してみたけど、OCRの精度低すぎて使えない。

と、いうか、貸借対照表損益計算書ぐらいpdfではなくて、共通フォーマットメタデータと整備してほしいわ。

2024-10-02

anond:20241002172759

Youtubeとかニコニコから著作物の利用料取らない怠慢なのが悪いだけですよね

動画に紐づけてプレイしてるタイトルメタデータも記録してるのに金取らない権利者がアホなだけ

2024-09-14

anond:20240914094639

図書館司書に求められてるというより図書館に求められてる仕事よね。原本札幌仙台新潟東京名古屋大阪松山広島福岡沖縄各一箇所くらいに集約して、そこで全部電子化して体系的に整理して全国どこからでも閲覧できる形にしてほしいよね。歴史研究加速度的に進むと思うよ。田舎図書館検索マシーンとしての司書より遥かに重要仕事よ。そのメタデータ全部食わせたAIに勝てる人間司書なんか出てこないよ。

2024-03-21

LINEよりSignalを使うべき理由

LINEWhatsAppSignalはどれもE2E暗号化採用している。

しかし、Signalの方がLINEWhatsAppよりも安全である

 

まず、データ送信時に、メタデータ送信している。

メッセージの内容はエンドツーエンド暗号化によって保護されるが、LINEメタデータ保護しない。

まり第三者がその情報を知ることができる。

一方、Signalメタデータ保護している。

 

メッセージメタデータに加え、アプリスマホに保管されている情報収集できる。

LINEは、LINE海外拠点が、開発・運営業務上必要性からデータアクセスできる状態になっていたことについてユーザーへの説明不足が指摘されている。

一方、Signal電話番号のみを必要とする。その電話番号も、身元に関連づけることはない。

 

どの企業メッセージングサービスを所有しているか重要である

新生Zホールディングスは、LINEグループに加えたことで、ヤフーやその他のサービスとの業務連携を強化するとしている。これは個人情報の流用を示唆する。

一方、SignalSignal Technology Foundation社が所有している。ユーザー寄付運営される登記された非営利団体であるため、LINEよりはマシだろう。

 

LINESignalでは、安全メッセージングアプリを選ぶならSignalが断然良い。

2024-03-12

だいたいC2PAで対処かな

画像に関して言うなら、C2PAと言う、画像の来歴、改変の有無などを記録する規格ができつつあって、それで対処すると言うことのようだよ。

かにIPTCというものもある。(これは元々の目的ちょっと違うか)

で、主要カメラメーカーは参画してるし、スマホだとGoogleが参画しているので、Androidではデフォメタデータがつくようになるよね。

では、野良AIでつくられたやつはどうするかというと、AIで作られたかどうかを見破るAIというやつがあって、それなりの精度が出せてる。

インスタとかでAI生成画像をアップするとラベルがつくようになるらしい。

https://www.itmedia.co.jp/news/articles/2402/07/news087.html

anond:20240311183549

2024-01-25

anond:20240125170027

20年前の今頃は、配信のやつはいつ消えるかわからんって言ってたしその通りだったし、何より回線負担かけるのコストだったけど、今のサブスクからブツが消えるなんてほぼないと思うんだよな。

なんなら20年前ごろのデータ、音質悪いメタデータついてない癖に容量ばっかとって邪魔から、もういらん。

 

……と思うんだがどうかな。やはり合理的意味以上に所有したい気持ちが勝るだろうか。

2023-12-09

anond:20231209060413

SEOなんてWebで金稼ぎたいモンスターしかやらんわ

てかSEO対策って言葉なんか当たり前になっちゃってるけどおかしくね

SEO自体が(Webアップロードするhtml等の記述を)ーチジン適化(することで表示ランク上げる)って意味で、SEOで完結してるんだから

最適化対策をするとしたらGoogleとかのエンジニアがやることじゃん

対策って単語を入れるなら、SE対策、になるはずじゃね

だいたいそんなもんに頼らなくてもね、自力目的のページにたどり着ける知能がないと人間情報リテラシー最適化されていかないのよ

現に今あんたの経験値は1上がっただろ

そうやって全員が経験値稼いで実力をつけていくことのほうが大事なんだよ

なんでもかんでも相手がお誂え向きにデータを整え分類してくれてあると思っちゃダメ

インターネットってのは混沌としてて当然であるべきなの

秩序立てて分類することで利益を得ようとするエンジン勢力アップロード側が寄り添って、メタデータを充実させてやるのも悪いお節介ではないが

そういう自発的お節介依存してちゃダメなんだよ、現に利益を得ようって人しか熱心にやらないだろ、足並み揃えようがない

究極的には分類する側がひたすらマッチョに賢くなっていくしかないし、それによってSEOなんてもの不要になっていくべき

2023-12-05

anond:20231205103520

認識がズレてる。「メタ」とはある事象上位概念のことだと思ってる。

メタ認知=認知に対する認知」「メタデータ=データに対するデータ」といった具合。

元々対策するなんて意味なんかないはずなのに

ゲームシステムや個々のゲームプレイだけではなく、そこにいるプレイヤーたちの傾向を考えて対策するのが「メタ」なの。

というのは「メタ」の使い方がおかしいと思う。

2023-11-07

https://vaaaaaanquish.hatenablog.com/entry/2023/11/07/180723

Pythonパッケージにおいては正確なメタデータPyPI APIから返ってこない

これずーっとそうだよね

公式コメントは負荷がどうとかいうことになってるけど、前日分まではバッチで生成してCDNに、当日分だけサーバーで生成するとか如何様にも対策できるだろ

実際にはやりたくない事情があってやってないだけで

2023-08-23

WEB画像解像度は72dpiに設定すべきという幻想は捨てろ

Twitter映像畑の人による「映像系に使用する画像で72dpi以上は必要がなく、事前に整理するのが当然なんだけど350dpiのままで作業する人がいた。基本が抜けてるなぁ」といったツイートを偶然目にしてしまい、以下これに関してつらつらと書いていく。


結論から書くと、WEB画像解像度設定は72dpiだろうが350dpiだろうがなんでもよく、縦と横のピクセル数だけ見ていればよい。


DPIとは?>

印刷解像度設定」といったメタデータと考えてもらって構わない。

簡単説明すると、DPIとは、その画像をどれだけのキレイさで印刷するかという品質設定の単位である

dot per inchの略であり、1インチにどれだけドットを敷き詰めるかをこの数値で設定する。

72dpiは1インチあたりに72ドット、350dpiは1インチあたり350ドットドットの数が多いほど密度が上がるので鮮明に見える。

要はパソコンディスプレイ解像度と同じ。同じピクセル数の画像を72dpiの設定で印刷しようとすると大きく荒く出て、350dpiの設定で印刷すると小さくキレイに出る。

FHDの動画を27インチFHDモニターに等倍で再生すると全画面で再生されるが、27インチ4Kモニター場合、画質は良いが拡大しないと小さいウインドウ内で再生されるイメージとおおよその構造は一緒。

一般印刷用の画像データは350dpiにするのが理想とされている。

そのデータ映像制作使用する際に、解像度設定をそのままにしている人に対する嘆きが冒頭のツイートにつながったのだろう。


WEB画像におけるDPIPPI)>

DPIとは「印刷解像度設定」のことなので、デジタルで表示・使用する場合、この数値は関係がない。

というか、そもそもソフト側で参照されている様子がない。

まりDPIはどうでもよいのだ。

重要なのはピクセル数だ。1920×1080pxの画像があったとする。

解像度の設定を350から72dpiに変更したとする。

デジタル上でなにが変わるか。

なにも変わらないのである

画像の見た目も、容量も変わらない。カンバスサイズも変わらない。

実際に解像度の数値を変更した画像ブラウザで読み込んでみたところ、表示されるものは全て一様であった。

まり全く変わらないのである

なお、Photoshop上で解像度の数値を変更する際、設定によっては解像度の数値の増減に合わせて縦横のピクセル数も増えたり減ったり(拡大縮小)するので、それによって画像サイズが変わりはする。

ただそれはピクセル数の増減によってサイズが増減するということなので、例えば350dpiを72dpiにしたか画像が小さくなった、とは言えない。


ちなみにディスプレイ上ではDPIではなくPPIと呼ぶ。なぜならばDotではなくPixelから。どうでもいい話ではあるが。




そもそもディスプレイ解像度は>

72ppiじゃないよね。iPadは264ppiiPhoneは460ppiのものもあるよね。

モニターは、72ppi!」というのはあまりにいにしえの知識と言える。

さらに言うと、ppiは画面解像度と画面の物理的なサイズによって算出される。だってper inchだもん。

例えば4kモニターでも31インチなら142ppi20インチなら220ppiだ。同じ数ピクセルが詰まってるなら画面が小さい方が細かいでしょ。

というか、逆に言えば80インチ場合4Kと言ったって55ppiであるフルHDは28ppiだ。

ね、ppiのことを考えるのがどれだけ無駄か分かるでしょ。


映像制作においては>

最終的にエンコードする画面解像度、つまりフルHDなのか4Kなのかなどによって必要な素材のピクセル数は決まってくる。

からデカすぎる画像リサイズせよというのは分かる。

しかしそこにdpiだのppiだのといった数値はもはや関係がない。ピクセル数を削れという話なのだから

したがって、繰り返しになるがピクセル数だけ見ていればよい。

映像制作中においても、素材画像解像度設定が350だろうが72だろうが、画質になんの違いも出ない。

制作後も最終的にはエンコードをするので元素画像解像度設定はガチマジで関係がない。

素材データの受け渡しを考えても画像容量も変わらないので本当に意味がない。


まりWEB画像解像度設定は350dpiだろうが72dpiだろうがなんでもよく、縦と横のピクセル数だけ見ていればよい。

そして解像度設定の数値は画像の素性に一切の影響を与えない。

画像解像度設定の数値がバラバラだと先方にナメられるから、とかはガチで知らん。しょーもないと思う。

なんというか、基本を知らないなあと言っている側が昔の作法からアップデートできていないだけでしたっていうのを見て色々と考えてしまったものである

(もしなにか「いや違う!」といった指摘があったらください。)




  • 以下余談---------

<※IllustratorPhotoshopなどにおいては>

これらのソフト場合解像度設定の異なる同じ画像ドキュメント内に配置した場合、配置された画像の大きさ(縦横サイズ)に違いが出る。

なぜならばこれらは印刷を前提としたソフトであり、また、ドキュメント自体印刷解像度の設定がなされているかである





個人のこだわりの場合

なんとなくWEB画像場合は72にしないと気持ちが悪い、といった場合否定しないが、それはあくま個人のこだわりなのでそうしない人を基本が抜けてるとかう〜んとか言うのはやめた方がいいと思いました。

イラレ上で画像を拡大縮小してるのに元画像解像度を350dpiにするのにこだわるような意味のなさ。拡大縮小してる時点で解像度は変わってるし、印刷所でRIPときに均されるんだからさ※後述)


デジタルはわかった。結局印刷場合ってどうすればいいの?>

A4/350dpi必要ピクセル数が約W2890H4090pxなのでそれくらいで良いのでは。

ちなみになぜ350dpiが良いとされているかというと、これ以上解像度を増やしても人間の目にはあまり区別がつかないとされていたり、印刷機の性能の事情などによってそうなっている。

ポスターなどは150〜200dpi程度あれば十分とされる。デカものは近くで見ないし多少荒くて良いのだ。

抱き枕タペストリーなどもそれくらい。近くで見るものだけど、布自体の目が粗いのでデータ解像度を上げてもあまり意味がない。滲むし。

(布の種類にはよるが……)

ポスターも先述の通り解像度自体落とすので相対的ピクセル数は変わらずA1/150dpi場合約W3500H4960pxなので上記より少し増える程度。

抱き枕カバーのようにすごく縦長とかでもない限りざっくり縦横5000pxあればもう十分なのではと思う。


というか、素人場合印刷場合ピクセル数だけ見ていれば良いと思う。

実際に印刷されるデータ印刷所でRIPリップリッピング)といって、印刷データに変換されるんだけど、そのとき印刷解像度はあらかじめ印刷所で設定された数値に変換されることがほとんどだろう。

だって必要印刷解像度って印刷機の線数の2倍って言うし。ほらまた知らない単語が出てきた。入稿先の印刷機の線数なんて把握せずに解像度設定してるでしょ。普通は175lpiなんだって。LPI。Line per inchね。その2倍。だから350なんだね。知らないでしょ。だからいいんだよ。良きようにやってくれるんだから

A4なのかB5なのかとにかく出力サイズがわかっていて、それに十分なピクセル数が足りていれば良い。あと塗り足しね。

変に知識をつけて画像解像度350dpiしました! 仕上がりサイズはA4です!っていって縦横350pxみたいな画像が配置してあるデータ送られてきてもガビガビに印刷されるだけだよ。大事なのはピクセル数。覚えてこ。

2023-05-09

https://inside.pixiv.blog/2023/05/09/183635

白状すると、数日前にBot動かしてた(メタデータ収集目的であり画像収集目的ではない)けど、別に何にも引っ掛からなかったので、Bot Protectionもたかが知れてる感じはある

画像以外にはProtection掛けてない可能性もあるかもだが

2023-05-08

AI学習否定絵師ちゃんAI学習対策しているのか

AI学習否定派の神絵師様の証言が集まっていたので、ちゃんAI学習対策してるのか調べてみた。

https://www.itmedia.co.jp/news/articles/2305/08/news068.html

名前敬称略フォロワーPixivTwitterdanbooru
あかもく24非公開公開中takedown済
イコモチ64万非公開公開中takedown済
皐月13万非公開公開中転載済(58件)
黒須10非公開公開中転載済(218件)
霧月25万一部非公開公開中転載済(189件)


転載サイトまで対策しているのは5人中たったの2人しかいなかった。

件数記載しているように、転載サイトには作者タグがあるのでほんの数分で神絵師投稿して転載された作品数まで知ることができる。

そしてイラストメタデータはやたら充実している(anond:20230507074525)ので転載サイト学習してしまえば悪意のある絵柄模倣pixivだけ非公開にしようがハナクソほじるように簡単に実行できるだろう。

そもそもTwitterでもイラスト大公開しているので、アカウントと関連付けて学習するだけでもPixiv公開と似たようなAI学習効果はあるだろう。今すぐTwitterイラストを消すべきでは?

流言に流されてなんとなくの対策をしてる人が多く、半端で非常に残念としかいいようがない。

転載対策をしない限りTwitterイラストアップしてる時点でPixivを非公開にしようが関係なく転載され続ける。Twitterだけでも学習できるけど。

ちなみに転載海外サイトで行われてるので最強の盾「フェアユース」が壁になってるから開き直られたら対策不能danbooruクリエイターの依頼で非公開対応してくれるので比較的優しいサイトではある。

今のフォロワー数で十分に仕事が来て、絵柄の模倣が損になる神絵師はこういった非公開対応をする価値があるが、

フォロワーやすべく活動しないといけないTier2のイラストレーターたちは転載AI模倣に嫌な思いをしつつも

Twitter活動し続けないといけない地獄環境といっていいだろう。

2023-05-07

anond:20230507133327

いわゆる国産P2Pソフトと違ってBitTorrentあくまでも通信プロトコルしかないので…

歯抜けが多すぎる。

国産P2Pも大差がない(古いファイル・人気がないファイルでは歯抜けが普通に起こる)

検索機能がない。

ピア間でメタデータをやり取りして検索できるような実装になっているBTクライアント(BitCometなど)もある。

ラッカーサイトが乱立して不便。

RSSでいーじゃん

アップロード絞りをするフリーライダー対策がない。

会員制トラッカーサイトでは共有比による監視が行われていてフリーライダーダウンロードできなくなるし、最悪サイトから蹴り出されるよ。

Pixiv投稿するとAI絵に学習されるというデマ

アンチAIの人はAI使ったことないからよく分かってないみたいだけど、

Pixiv自体AIにとって話にならないんだよね。学習の参考にならないから。

Pixivの次にヤバいのがTwitterなんだけど、まさかアンチAIなのにTwitterイラストアップしてるマヌケだったりしないよな?

https://b.hatena.ne.jp/entry/s/twitter.com/tadanojako/status/1654676274089197568

AI学習する上で一番重要なのはメタデータの質なので、最近2次元AIは黙って転載サイトdanbooruとか使ってるよ?

danbooru転載元として多いのはPixivTwitterなのでPixiv云々は致命的に間違ってるわけでもないのだが。

本気でアンチAIならTwitterに一切のイラスト投稿しないで活動しないといけないので、

人々に見て貰いフォロワーを増やすことで仕事に繋げるイラストレーターとしては自殺しか無いと思うけど、思想信条問題なら仕方ないかな。

転載サイトトップで見かけたピーチ姫だが、投稿されたPixiv転載先のdanbooruメタデータの差は圧倒的でどちらから学習したほうが精度が高くなりそうかはバカでも理解やすいだろう。

https://www.pixiv.net/artworks/107888278

https://danbooru.donmai.us/posts/6286948

Pixiv

#スーパーマリオ #ピーチ姫

danbooru

#mario (series)

#super mario odyssey

#princess peach

#1girl

#blonde hair

#blue eyes

#breasts

#day

#earrings

#from above

#hat

#high heels

#jewelry

#large breasts

#lips

#long hair

#long skirt

#looking at viewer

#open mouth

#outdoors

#pink lips

#pink skirt

#shirt

#skirt

#smile

#solo

#sun hat

#white headwear

#white shirt

pixiv転載サイトなんとかしてくれという要望なら理解できるのだが、Pixiv悪者にしたら回避できると頭の悪い学習をしてしまっているようだ。

Pixiv規約スクレイピング禁止でも転載され放題な現状なので。

よくわからない第三のイラスト投稿サイト()とやらがスクレイピング禁止してもイラストが集まるなら転載サイト無視してくるよ。

2023-04-25

本格なAIアイドル中の人のいないVTuberAITuber)が出てくると、それは空っぽの抜け殻なのか、本質なのか。

ウマ娘のような擬人化コンテンツにせよ、VTuberにせよ、近年の特徴は「メタ」、情報ナラティブの付加や、一歩俯瞰した外側から眺めることで、情報量の増加と奥行きを楽しむものだったように思える。

AITuberはメタを取り払った中身だけの存在か、メタデータそのもの人間性の皮膜を俯瞰して楽しむものなのか。

2023-04-08

anond:20230405152609

SSDデータ復元も試してみた?

SDカードにはメタデータくらいしか残ってなくてもSSDの容量次第では上書きされてないかもよ

2023-02-26

画像生成AIの適正使用及びそれに伴う著作権制度(略)の提言提言

画像生成AIの適正使用及びそれに伴う著作権制度の整備に関する提言(第1版) | クリエイターAI未来を考える会

https://support-creators.com/archives/34

>①

>法解釈議論成熟を待つことなく、画像生成AI機械学習における著作物使用適法であるという考え方が一方的に広まり、上述①の問題は、事実上野放しとなっている。

野放しになっているなら議論を深めればいいのでは?

最近では、公開された学習済みAIモデルを利用し、特定創作者の制作物の特徴を模したアダルト画像販売して収益を得る者が出ており、本来創作者は、対価を受けることな著作物を無断で使用されただけでなく、その技術が盗用及び悪用されている。

著作権者の利益を不当に害する場合はこの限りではない」の但し書きで殴れば(訴えれば)いいじゃん。

議論したり訴えたりするのは面倒くさい(もしくは、議論をする”面倒な人”と思われたくない)のが大きいんだろうな。

>②

>該当のAI画像生成時のメタデータ及び生成過程情報を削除することによって立証は困難となる

メタデータがあろうが無かろうが、最終成果物違法なら違法だし、合法なら合法

AI叩く人でよく勘違いしてるけど「AIと言い張れば合法になる」は明確に間違いで、

その画像が元の画像権利侵害していれば、それがAIで作ろうが 人間が頑張って絵柄を勉強して描こうが違法である事は変わらない。

提言3

著作権は、これまで通り、思想または感情創作表現に与えること。

この著作権に関する話ってどこから出てきたんだ?

改正著作権法でも「AI思想または感情創作表現が無くても著作権を認める」なんて話は無いし

日本著作権は昔も今も「思想または感情創作表現」が対象AIは何も関係無い。

2023-02-09

anond:20230208202950

EXID(イーエックスアイディー、朝: 이엑스아이디)は、韓国ガールグループである2012年デビューグループ名は「EXCEED IN DREAMING (夢を越える)」から来ている。 前事務所との契約満了に伴い2019年以来休止状態となっていたが、2022年10周年記念シングル"X"をリリースグループ活動継続を示した。日本での活動2022年ファイナルツアーをもって終了したとしている。

エキシディ(Exidy)は、1974年から少なくとも1986年(Chillerがリリースされた年)のビデオゲームの初期に存在した、 アーケードゲーム大手企業ひとつである

Exchangeable image file format(エクスチェンジャブル・イメージファイルフォーマット)は、富士フイルムが開発し、当時の日本電子工業振興協会 (JEIDA)で規格化された、写真用のメタデータを含む画像ファイルフォーマットデジタルカメラ画像の保存に使われる。略称Exifで「エグジフ」(もしくは「イグジフ」)。

エクシーガ(EXIGA)は、SUBARU(旧・富士重工業)が製造販売していた7人乗り乗用車である生産レガシィインプレッサ同様、同社矢島工場所在地群馬県太田市庄屋町)。

エキシージExige)は、イギリス自動車メーカーであるロータスカーズ2000年から製造するスポーツカーである

Exim(いくしむ)はPhilip Hazelによって開発が始まったメール転送エージェント (MTA) の一種である

Eximindsは、モスクワ出身アレキサンダー・ジュコフ(Alexander Zhukov)と、ドミトリー・モンジコフ(Dmitry Momzikov)による音楽ユニット世界レコードレーベルで曲を使用される、トランスミュージック界の売れっ子プロデューサーである

message@ware exire(メッセージ@ウェア・エクシーレ)は、NEC製のNTTドコモのDoPa無線機一体型携帯情報端末(PDA)である

実存主義(じつぞんしゅぎ、英: existentialism、仏: existentialisme)とは、人民実存哲学の中心におく思想立場、或いは本質存在(essentia)に対する現実存在(existentia)の優位を説く思想である存在主義とも。

exist†traceイグジストトレイス)は、日本バンド

2003年6月に結成された、シーンでは珍しい全員女性ヴィジュアル系バンド

2023-01-14

anond:20230114194512

何が言いたいんだお前?

俺は「こういう仕組みがあれば、詐称が防げるんじゃないか?」っていうアイデアマンとして投稿したんだろ

お前と「正しいかそうじゃないか」をやるゴミ論破ゲームなんてやってねーよマヌケ、「それを実現するとしたらこういう仕組みが要る」とかもっと生産的なことを言えよ低脳

あと、オンラインチェスにもNFTトークンを紐付ける仕組みというのはある

https://www.chess.com/news/view/treasure-chess

特定トランザクション系列メタデータ(意: 個人識別可能情報)と紐づくってのも肝要。

anond:20230114191654

詐称可能性を下げられる、現状のうまく機能してる仕組みがブロックチェーンだと俺は思うよ。

ナカモトサトシをお前が超えるなら別。

しかも要点は「ランキング化」だろう。

暗記知識のありなしをID証明してもムダで、特定ID取引ランキング化されないと希少ではない。

俺が言ってるのは、競プロトランザクション個人識別メタデータブロックチェーンで紐づくような事だと考えて良い。

2022-12-05

本当に非実在青少年ポルノ合法のままで良いんだろうか

非実在青少年ポルノオナニーしている。

この国では合法なのでいくらでもシコって良い。

しかし本当にこのままで良いのかと疑問に思うこともある。

だって行く着く先は実在青少年と遜色違わないポルノだろ。

それには近いようでまだ遠いが、あと20年もすれば全く判別がつかなくなるはずだ。

それはもはや実在非実在かは俺にとって単なるメタデータになるって事だ。

法律青少年保護の為だからそれでも良いのかも知れない。

でも…メタデータしか無くなった時、俺は実在非実在境界認識し続けられるか不安だ。

20年後の俺のペニス倫理的に正しい道を進めるだろうか。

2022-10-05

anond:20221005020611

バイナリ的に変更されてない元々の公開データと寸分違わぬ同じ画像」と「その転載サイトが本当にゼロから人力で時間をかけて作ったメタデータ」があって

それらを取得している結果であるときちんと事実を見て分離して考えるとあの手の発言は死にたくなるんだけど死んじゃわないかどうか心配

しろ転載サイト編集者タギング労力の無断借用について文句言うべきレベル

ログイン ユーザー登録
ようこそ ゲスト さん