「ファイル」を含む日記 RSS

はてなキーワード: ファイルとは

2024-11-21

立花の言う押収した不倫証拠とはなんだろう

俺はさハメ撮りだと思うんだよね

それもスカトロとかのえげつない

コスプレアナルファックかもしれなあ

ところで百条委員会ってライブ配信してるよね

疑惑の解明のためにはPCの内部ファイル公開は不可欠のはずだ

百条委員会に期待している

百条委員会報道するメディアにも期待だな

報道しない自由なんぞをふりかざしてハメ撮りを放送しないとかするなよ

彼らはアカウントもっているはずだから

Googleクラスでも開いて招待かければいいんか?

ファイル授受サーバー経由とどっちがいいんだろか?

いずれにしてもメンドウといえばそだね

2024-11-20

数日前に書いてたテキストファイル捨てるの勿体無いと思ったので張る

(↓を上書きしてしまったので、じゃがいものが消えてた)

自分史上最も重要ななろう小説10

例のあのフォーマットに乗ってWeb漫画の話をしようかと思ったがWeb漫画は山ほどあるし別に網羅的に読んでる訳でも無いので単に自分の好きな作品を書くことにした人が居たので便乗。

消えてる作品以外はブックマークが残ってるので探しやすくてよかった。

2012か13ぐらいから読み始めた人。それ以前も知らないし、最近も知らないしひどく偏ってるはず。順不同

本好きの下剋上 ~司書になるためには手段を選んでいられません~

みんな大好き(なはず)。転生元の(中途半端な)知識と超絶魔力持ちでチートではあるが、虚弱常識知らずなど、情熱と人脈でカバーしてく。

朝ドラ風なのかもしれない。(女性主人公から?)

これと謙虚ぐらいしか男性向けっぽいの読んでなかったし、読んでも合わないの多い中(ゴミ拾いのとかテイマーのとかは読んでた)、何度も読み返した名作中の名作。

言い過ぎだけど、パトレイバー銀英伝レベル社会に出てから有用知識が得られる。

パト銀英伝信者からしたら言い過ぎ、そうではない人からしたらそんなもんかってなる?)

やり直してもサッカー小僧

異世界でもなく、冒険もしない、異色作であり快作。

現実世界への巻き戻り。細かいこと(と重要なことのほとんど)は忘れたが、サッカー選手になれなかった大人サッカー始めた日に戻ってやり直す話。

確か戻るのはその一回ぐらい。戦術等の知識大人レベルなのと、コツコツ努力できる(練習目的がはっきり、効率もよい)のと、あとなんか鷹の目みたいな俯瞰視点だけで頑張る。

雰囲気は週刊少年誌サッカー漫画みたいなの(ジャンプっぽさはなく、サンデーマガジンのどっちか寄り)。恋愛要素が少なくて物足りなかったような、中学生編ぐらいまでで終わったのとかで悲しかったような。

VRMMOをカネの力で無双する

これと続編(サブアカウント)のセット。アイリッシュスナイパーは含まない(好きだけど)

VRMMOは二大ジャンルひとつだったり、転生、転移に次ぐ第3のジャンルだったりしたが、あまり人気作が無かった(当時の個人的な印象)中、(根底に)デスゲーム要素もなく、描き切りつつ、VRMMO系で不足しがちな現実世界にも重点を置いたのが本作。

MMO要素は各キャラのなりきりに由来するコメディ要素やストーリーの本筋に絡む仕掛けであって、中身は群像劇要素も強く、主人公以外の成長物語でもあり、半沢みたいなのとかでもあり、ミックスグリルみたいな作品。あえて大げさに言うと、大長編ドラえもん詰め合わせみたいな。

章ごとに目標が変わってたりしつつ、最後でどかんと一気に色々纏まるのがめちゃくちゃ気持ちよかった。主人公大人だし、なろうっぽくない(なろうっぽくないことはないが)

主人公も一応精神的に色々成長します。地の文好き嫌いは分かれそう。

この世界ゲームだと俺だけが知っている

なんか独特の作品コメディ(や腰砕け)要素強め。

クソゲーとして名高いバグだらけのゲームの中に入ってしまい、バグ仕様()も多い)を駆使して気持ち悪いことを沢山する。

読んで知って欲しいのだが、全方向を騙していくのとか、サブキャラとかが立ってるのとか、一応色々吹っ切れてるのが面白すぎた(作者的にはセーブしてるのかも)

本作作者の他作品も少し系統違ってても面白いので、他作品挙げたいが完結してなかったりするので、出会いの本作をエントリー

まのわ ~魔物倒す・能力奪う・私強くなる~

タイトルそのまま。ちんちくりん系の女子普通女子コンビに、個性的パーティメンバーなどで冒険する。

基本的にはテンポよく成長していくし、仲間も頼りになる。地の文とかほのぼのし雰囲気も好きだし、ちょっと年齢層高め向けのギャグとかも合ってた。作中でどういう扱いだったかは忘れたが馬は脳内でひんべえ(いつもいっしょのおうま)になる。

真剣なシーンでも気が抜けるような描写が多くて好きだったかも。

終盤SF過ぎたのとか好みが別れるところか。SF方面だったかは定かではないが

時代がずれてたら防振り(途中までしか読んでない)ぐらい売れてたかも。コミカライズされてたの今知った

くまクマベア

流石に全部読んではいないが、アニメも見た。

可愛い。ほんと可愛い

給与額がそのままレベルに反映されたら最強っぽくなった

おかしなった。突っ走ればよかったのにと思ったような。

やっぱチョロインでしょ!

流行ってたか

蜘蛛ですが、なにか?

おもろい。

最後まで読んだ記憶がない。今は漫画で読んでる。

となりの魔王

これも流行った。

チート魔術で運命ねじ伏せる

きつね可愛い。同作者の他作(沢山あったはず)も読んでみたけど、これがなんか時期的になのか、一番ハマった。

その他の候補

スマホ太郎

 影響は受けたが、読んでないので

ラストルーキー ~世界最強の引きこもり

 この世界ゲームだと……と同作者なので

自動販売機に生まれ変わった俺は迷宮彷徨

 色物かと思ったら意外としっかり面白かった。アニメ見て、原作一気読みした。

転スラ

 すごいのはみんなわかってるが、重要度は低い。

このすば

 どこにも書いてないが、これ系では他作品のほうが影響受けたので除外。

宝くじで40億

異世界迷宮奴隷ハーレム

無職転生

勇者イサギの魔王

 アニメ化やったね!(別作品

anond:20241120194350

これWi-Fiダメになったのやっぱそういうバグかな

なんかどれかのファイルエクスプローラー開けて削除したら直る!って読んだけどそもそも理解できてないし怖い

Immersive Translateっていう翻訳ツールというかブラウザ拡張機能が便利すぎてヤバい

良いところ



ダメなところ



いやマジで便利なんだが開発元が中国っぽくて勧めづらいんだよな…

バックアップをとりたい電子ブックがある

PDF形式・・・

そのままだとファイルサイズがでかくてバックアップ取れない

でもバックアップしたい

pdftkでの分割は許されてない

印刷以外許可されてない

しかたないので印刷→チャプターごとにスキャンした

分冊化みたいなかんじ

これでバックアップとれた

すべてが4メガいないいないばあっ!におさまった

まずはよし

2024-11-18

htmlは1回整理しなおして後方互換なくした新プロトコル作ってほしい

今つくるならhtml側にはもうビジュアル要素完全になくすし

1枚のhtmlファイルcssから必要に応じて複数ページ表示するようにできるでしょ

https://anond.hatelabo.jp/20241118092831

追記

知らん間にホッテントリ入りしてたので少し追記

斎藤氏再選の一番の功労者戦犯?はやっぱりマスコミだと思う。マスコミよりSNSを信じる人が増えた、のではなく、マスコミの雑な仕事っぷりに困った有権者が仕方なくSNSで調べた、ってとこじゃないかな。

アンケートの4割がクロだからパワハラ、って言われても、人伝で聞いたの含めての数字となると、過半数パワハラ見聞きしたこともないのにクロって決めつけられるのはなあ、って思うよ。4割の中身をもう少し分析して、知事と直接接触のある部署だと8割越えてた、みたいな数字出せば良かったのに。

県民局長自殺の件も、「不倫デマ」「不倫パワハラ関係ない」と言われても、パワハラ野郎告発したのがセクハラ野郎ならそれで話は変わってくるし、プライベートファイルの中身が出せないんなら、周辺に取材して「不倫なんかする人じゃありません」てコメント取ってくれば良かったんだよ。芸能人相手なら平気でそんなことするでしょ?

で、パワハラ以外の公約についてきちんと比較したような記事もない。そうなるとマスコミ以外の情報に頼らざるを得ないじゃない?

まあ兵庫県知事選なんて東京からみりゃ只の地方選で、そんなに取材にも手間掛けられないんだろうからからいでもないが、「俺らがこう言ってんだからそれを信じろ」ってのはやっぱり今後は通用しないのでは?

追記終わり>

兵庫県民です。

どちらかと言えば高齢者年代で、観測範囲の印象を書くと、

立花氏の選挙戦術がそれほど功を奏した印象はない。立花氏については胡散臭いと思ってる人が多い感じ。自分地元には立花氏の選挙カーも来なかったし、そこまで盛り上がってる感はなかった。

パワハラについては、役人に言うこと聞かすにはキツく当たらんと仕方ない、と思ってる人が多い印象。パワハラって自分がされるのは嫌だが、自分に横柄な対応した連中がされるのはざまあ見ろって感覚

・で、パワハラ問題抜きにして、各候補公約見ると、やっぱり現職だけあって斎藤氏が一番具体的。というか、他の候補者は現状の県政の問題点が何なの?って分析もきちんと出来ていない感じ。

となるとやっぱり斎藤氏でいいや、となるのは仕方ないかな。

マスコミに乗せられて、今回の争点がパワハラ問題やと思った候補者が自滅した感じかな。

2024-11-17

anond:20241117204827

赤木さんは死んだせいでなんか赤木ファイルって聖典みたいに崇め奉られてるじゃん

しろ政治家の関与は無かったって書かれてる物なのに

2024-11-16

Xはイラスト学習なんてしていない

Xが学習に使いたいのはテキストの方

そもそもの話、X社は画像生成AIなど作っていない。彼らがつくっているのは検索支援AI Grok。学習に使いたいのはテキストの方であって画像ではない。

  

Grokとは

わかりやすさのために ChatGPT比較してみる。2023年リリースされた GPT-4 に試しに今期のアニメについて質問してみよう。

 

今期最も人気のアニメはなんですか?

ChatGPT:

2024年の今期で人気のアニメはいくつかありますが、「進撃の巨人」や「呪術廻戦」が特に注目を集めています。また、新作では「東京リベンジャーズ」や「スパイファミリー」も話題です。どの作品に興味がありますか?

 

アニメに詳しい人ならちょっと古い話をしているのがわかるだろう。 GPT-4 が学習を行なったのは2023年までの情報だ。なので最新の話題対応できないのである

一方、Grok は Xの投稿リアルタイム検索して反映する。もし Grok で同じ質問をすればダンダダンやリゼロブリーチ辺りの話をするはずだ。つまり、Xが収集したいのはダンダダンの7話泣かされたわ・・・みたいな投稿のことであってイラストではない。

 

Grokの画像生成機能は何か?

Grokには画像生成機能がついているが、これは自前の物ではなく Black Forest Labs社 の FLUX.1 というモデルである。X社が Xに投稿されたイラスト収集して学習させているわけではないのだ。それでは FLUX.1 の訓練に使ったのはどこの画像なのだろうか?データセットは明らかにされていないが十中八九使っていそうなのが LAION-5B である

 

LAIONとは

現在大手企業は「著作権的にクリーンな」画像生成AIをつくっているが実際には版権物が出てくることが知られている。なぜそんなことが起こるのだろうか?

このからくりは LAION のデータセットにある。LAIONはドイツにある非営利組織ネット上のありとあらゆる画像収集タグをつけたデータセットを公開している。

LAIONのFAQ から引用

Q. 私の著作物があるのでデータセットから除いてください

A. LAIONは非営利研究組織です。ドイツ著作権法(§60d UrhG)に従いあらゆる著作物の利用が許されています

 

とあるようにドイツ法律上合法である。実際に訴えられた後LAION側が勝訴している。とはいえこの組織にはAI関連企業からの多額の寄付金があることが知られており、パチンコ3店方式のような意味合いでの合法とも言える。

  

尚、反AIさんと反々AIさんが著作権法第30条の4を巡って喧嘩をしていますが、世界では日本法律関係ないです。いちおう念の為

 

AIのGlazeの使い方は間違っている

AIさんが迷惑な暴れ方をしている。

他の絵師さんに Glaze を使うように詰め寄ったり、使わないやつはAIに加担していると攻撃したり。挙げ句の果てには「自分の絵にGrazeをかけました」と宣言したり。

 

もう、全てが間違っている

  

そもそも、Glaze も Nightshade もAI学習を阻害するものではない。学習したモデルをぶっ壊す毒なのであるpoisoned って書いてあるでしょう?!)

相手に食わせなければ意味がないんだ。Glazeかけたとか自分で言うな。対策されるでしょう?(後述)

それと他の人に強要する意味はない。使いたい人が使えば十分なんだ。

事実すでに効果は上がっていてOpenAIは悲鳴をあげ対策を急いでいる

  

Glaze/Nightshade とは

AIさんの考えるよりも Glaze/Nightshade はずっと強力だ。それはデータセットを汚染する攻撃である簡単に言えば Nightshadeは「学習中に他の絵に変換されてしまう」ノイズをかける。この操作を毒入り(poisoned)と呼ぶ。ピクセル毎の微小な変更なので Nightshade をかけた後もイラストはぱっと見はかわらない。

Nightshadeを使って例えば 犬の画像を猫の画像になるノイズをかけたとする。するとAIは犬と猫が混ざったまま学習を進め「犬」と言う概念無茶苦茶になってしまう。

 

図:毒入りモデルの変化   (arXiv:2310.13828から引用)

 

上の図は毒入りの画像を200枚食わせたときの変化の様子だ。犬が猫になってしまっている。それだけではなく”犬”に近い概念、”子犬”、”ハスキー”、”狼”もぐちゃぐちゃになっている。

 

図:毒入り枚数による変化  (同引用

 

こちらは50、100、300、と毒入り枚数を変化させたときの様子。50枚の時点ですでにめちゃくちゃになっている。

 

 

余談0

XでAI(Grok)の学習に使って欲しくない人は

設定とプライバシープライバシー安全→Grok 

から学習許可のチェックを外すと良い

  

余談1

もし私が反AIだったなら、イラストに Nightshadeをかけて danbooru投稿するだろう。二次元イラスト特化の画像生成AIdanbooru2021/ danbooru2022 などのデータセットを使っているものと見られる。これらはイラスト投稿サイトdanbooru から収集したものである

 

余談2

ところで Glaze も Nightshade もその内部で画像生成AIを使っているということを知ったら反AIさんはどんな顔をするだろう?

Glaze は特徴量抽出を行う。おそらく Stable Diffusion の VAE(Variational Autoencoder)を使っている。そしてNightshade の方も 内部ではStable Diffusion 等の画像生成モデルを用いて別の画像を生成する。

  

余談3

Glaze が機能しない?あるいは解毒方法が見つかったかもしれない

 

 

上のスレッドコメント欄では Glaze が論文のようには機能しないことについて議論され「画像リサイズをしたのではないか」と予想している。Glazeをかけた後に画像を縮小、データ圧縮されてノイズ効果が消えたのではないかということだ。

  

A) 絵師さんが Glaze をかけたあと画像を縮小した可能

B) 画像サイズファイルタイプによってはプラットフォーム側が勝手に加工をする

C) 学習の際にリサイズを行う (Stable Difusion XL では1024px, 古いモデルは512px)

 

A,B については絵師さん側に知識があれば対処可能だけれども C の方はなんともし難い。小さい画像投稿したところで [縮小→拡大] でノイズは落とせそうだ(解像度は悪くなるだろうが)

 

尚、上の議論に関しては誰も検証をしていないので注意。

  

余談4

LAIONは収集画像のものを所有せず、データセットはウェブ上にある画像のurlとタグをまとめた物であるらしい

ということは、LAIONの新しいデータセットが公開されたタイミング画像urlを変更すれば学習に使われることを回避できそうだ。特に個人サイトブログの所有者ならば古い url に●んこ画像でも差し替えておけば嫌がらせになる。(タグ差し替えはこのグラフSimple Attak に相当)

 

90年代においては画像直リンクされたとき報復としてうん●画像差し替えものです。まさか令和になっても有効とはね

 

余談5

この記事をぼちぼち書いているいるうちに2日が経過した。今、私のXのタイムラインおすすめもとても静かだ。攻撃的な人たちやデマに流されやす人達は皆どこかに行ってしまったようだ。残ったのはこれまで静かにイラストを描き続けてきた人たちでとても穏やかな空気が流れている。ずっとこのままがいい。

2024-11-15

年末調整が難しすぎる(令和6年度版)

感想

XMLファイルダウンロード

QRコード証明書PDF作成

プリントアウト

ボールペンで記入

スマホ撮影

HEICからJPEGに変換

年末調整システムアップロード

原本経理に提出

この流れなんなん?誰がうれしいの?

【やったこと詳細】

e-Taxログインする

・「通知書等」をクリックする

・「通知書等選択」プルダウンから住宅借入金特別控除証明書」を選択する

・「切替」をクリックする

・表示された表の「令和6年分」あたりをクリックする

・「住宅借入金特別控除証明書一覧へ」をクリックする

住宅借入金特別控除証明書一覧の「確認」をクリックする

・「この「年末調整のための住宅借入金特別控除証明書」を印刷したもの使用できません。」の文言を見つけて絶望する

・「QRコード証明書作成システム」でGoogle検索する

・「QRコード証明書作成システムについて」ページにたどり着く

・「QRコード証明書作成システムを利用する」をクリック

・「環境チェック」モーダルブラウザ欄の「推奨環境外です」の表示に絶望する

Safariで開き直す

Macintoshをご利用の方の「事前準備セットアップ(Macintosh/safari用(dmg形式:約2MB)」をクリックする

ダウンロードフォルダの「cpsMac.dmg」をダブルクリックする

・QRInstall.pkgをダブルクリックする

インストーラーの「続ける」をクリックする

・「インストール」をクリックする

・「アクセス許可要求していますダイアログで「許可」をクリックする

・「Safariブラウザが起動されているため、インストール完了することができませんでした」の表示に絶望する

インストーラーの「閉じる」をクリック

・「ゴミ箱に入れますか?」で「残す」をクリックする(危ないやろこれ)

Safariを終了して再びインストーラーを起動してインストール完了する

・「QRコード証明書作成システムについて」ページを表示する

・「QRコード証明書作成システムを利用する」をクリック

・「環境チェック」モーダルブラウザ欄の△表示を無視する(Safari 18.0は対象外らしい)

・「次へ」をクリックする

e-Taxからダウンロードしておいた「令和6年分住宅借入金特別控除証明書_2024mmdd.xml」をアップロードする

・「読み込み」ボタンクリックする

ファイル読み込み結果ダイアログの「次へ」をクリックする

・「表示・印刷」をクリックする

・帳票イメージの表示ダイアログの「はい」をクリックする

PDF作成完了しましたダイアログの「表示」をクリックする

PDFファイルダウンロードする

PDFファイルプリントアウトする

MoneyForwardクラウド年末調整ログインする

・左メニューの「年末調整」をクリックする

・「5.住宅ローン」をクリックする

・「2年目以降の住宅ローン控除(住宅借入金特別控除)の申告はありますか?」で「はい」を選択し「次へ」をクリックする

・「+住宅ローンを追加」をクリックする

・「直接入力する(自動計算対象外)」を選択して「次へ」をクリックする

・「住宅借入金特別控除区分」で「◯年中居住者・認定住宅(等)用」を選択する

・「特定取得区分」で「記載なし」を選択する

居住開始年月日を入力する

住宅借入金等の金額年末残高)を入力する

・(特定増改築等)住宅借入金特別控除額に入力する値が不明

・アッ、これ(住宅借入金特別控除申告書)、自分計算してボールペンで書かないといかんの?

ボールペンで書いた

・(特定増改築等)住宅借入金特別控除額を入力する

住宅借入金特別控除申告書の上部をスマホ撮影する

住宅借入金特別控除申告書の下部をスマホ撮影する

住宅借入金残高証明書スマホ撮影する

撮影した画像AirDrop転送する

画像アップロードしようとするがHEICなので選択できない

Preview > File > ExportからPNGに変換する

アップロードするが「ファイルサイズは最大5MBです」エラーになる

Preview > File > ExportからJPEGに変換する

アップロード成功する

次回「証券番号がわからない」「保険料控除証明書電子ファイルXMLファイル)取得に1日待たされる」

ぜってぇ見てくれよな!!!

ChatGPTに画像の無断学習対応策を聞いてみた

AIAIへの対抗策を聞くってSFっぽくて楽しい

ChatGPTは嘘もつくので、あくまで参考程度に。

 

画像を生成するAIに対する対抗手段を教えてください。

画像を生成するAIによる無断学習や利用を防ぐために、以下のような対抗手段を講じることが可能です。

 

1.透かし(ウォーターマーク)の埋め込み:

画像に目に見えるまたは見えない透かしを入れることで、無断利用や生成AI学習に対して抑止効果を期待できます特に、目に見えない形で画像データ暗号的な透かしを埋め込む「デジタル透かし」技術有効です。

 

2.メタデータの埋め込みとロボット排除設定:

画像データ著作権情報や「AIによる無断学習禁止する」といったメタデータを埋め込み、ウェブサイトには robots.txt ファイル画像クローラーアクセスブロックする設定を追加します。これにより、クローリング収集抑制が期待できます

 

3.ステガノグラフィ技術の利用:

ステガノグラフィを用いて、画像に気づかれにくい形で識別情報を隠すこともできます。これにより、画像流出経路や利用先を追跡でき、無断利用の発見に役立てることができます

 

4.法的な警告表示や利用ポリシーの明示:

ウェブサイト画像の配布先に、AIによる無断利用や学習禁止する旨の法的警告や利用ポリシーを明示することも有効です。利用条件をはっきりと示すことで、AI企業研究者が慎重になる可能性が高まります

 

5.画像認証技術の導入:

AIが利用しにくいように、画像人間には気づきにくいパターンノイズを挿入する技術もあります。たとえば、AIにはノイズとして認識されるが、人間には問題なく見える小さな変形やカラーパターンを追加することで、AIによるデータ学習が困難になる場合があります

 

これらの対策は、画像生成AIに対する防御としては有効ですが、100%無断利用を防げるわけではありません

 

・生成AI学習を混乱させる手段はありませんか?

生成AI学習を混乱させるための手段には、以下のような方法が考えられます

 

1.ノイズや歪みの追加:

画像に目立たない程度のノイズや歪みを加えることで、アノテーションモデル境界や特徴を正確に認識しにくくする手法です。たとえば、ピクセルレベルランダムノイズを追加する、わずかに画像をぼかす、あるいは境界付近に小さな変化を加えるといった手法有効です。

 

2.不規則輪郭の挿入:

アノテーション処理は、対象物輪郭や特徴を正確に捉えることが重要です。そのため、背景や対象物輪郭わずかな不規則性を加えることで、アノテーションツール対象物境界を正確に判断しにくくすることができます。たとえば、背景に模様や偽の輪郭を挿入する方法です。

 

3.テキストやラベルを埋め込む:

画像人間には視認しづらい形でテキストやラベルを埋め込むと、AIアノテーションプロセスが混乱する場合があります。これにより、AI意図しない領域注視することがあり、誤認識を誘発します。

 

4.色や明るさのランダム変化:

画像の色や明るさを部分的に変化させ、一定パターンを持たないようにすることもアノテーション処理の混乱を招く一手です。これは、オブジェクトの検出や認識が色や明暗差異依存している場合有効です。

 

5.擬似的なオブジェクトの追加:

画像内に小さな擬似的なオブジェクトや模様を追加することで、AIがそれらを誤って主要なオブジェクト認識し、アノテーション精度が低下する可能性があります特に、背景に似たオブジェクトを散りばめることで、AIはどの部分が対象なのか判断しにくくなります

 

6.アドバーリアル技術活用:

AI認識を誤らせるために用いられる「アドバーリアル敵対的)な例」を使う方法もあります特定ピクセルパターンや色の配列を配置することで、AIアノテーション意図的に誤作動するよう誘導できます。この技術深層学習モデルに対して特に効果があります

 

7.カモフラージュテクニック:

画像全体にわずかなカモフラージュパターンを重ねることで、AI認識を混乱させる方法です。この手法では、人間が見た場合には問題なく認識できるものの、AI対象を捉える際に誤って検出するようなパターン画像に追加します。


思考実験として、danbooruなどアノテーションの元データとして使われているサイトタグが荒られたら画像生成AIモデル作成ダメージはありますか?

思考実験として、Danbooruといったアノテーションデータタグが荒らされた場合画像生成AIモデル作成に与える影響は以下の通りです。

 

1. データ品質が低下する

Danbooruは、イラスト画像に対して詳細なタグ付与されており、これらのタグ情報画像生成AI学習にとって非常に重要です。タグが荒らされることで、画像タグ対応関係が崩れ、モデルが正確な特徴を捉えにくくなるため、生成精度が低下します。

例えば、特定キャラクターテーマに関連するタグが荒らされ、誤った内容のタグ付与されると、モデルはその誤った情報学習し、キャラクターの特徴や設定が再現されにくくなる可能性があります

 

2. ノイズデータの影響

タグが荒らされると、モデルの訓練にノイズデータが増えるため、学習効率悪化します。たとえば、「黒髪」のタグが誤って「金髪」などに変更された場合モデルは同じ画像に対して異なる特徴を学習することになり、結果として生成画像一貫性が失われることが考えられます

また、同じ画像に異なるタグ付与されることで、モデル過学習や誤学習引き起こし、生成された画像本来意図からかけ離れたものになる可能性もあります

 

3. キャラクタースタイル再現性が低下する

Danbooruでは、特定キャラクターアートスタイル識別するタグが多く存在します。これらが荒らされると、特定キャラクタースタイルデータが混乱し、モデルが正確にキャラクターの特徴を把握できなくなるため、ユーザーが期待する生成結果が得られにくくなります

例えば、あるキャラクタータグが「髪型」「服装」「色彩」などで荒らされると、そのキャラクター再現曖昧になり、モデルが正しいビジュアルを生成できなくなることがあります

 

4. タグ信頼性低下によるモデル不安定

タグが荒らされると、データセット全体の信頼性が低下します。信頼性の低いデータをもとに学習したモデルは、特定の条件で異常な出力を生成することが多くなり、モデル全体の品質が低下します。これは、生成AI学習中に「どの情報を信頼すべきか」を判断できなくなるため、生成結果が不安定になったり、多様性が失われたりすることが考えられます

 

5. 検索フィルタリング精度の低下

AIモデルを利用するユーザーは、タグを通じて希望する画像を生成したり、条件に合った画像を探します。タグが荒らされると、AIモデル検索フィルタリング機能の精度も低下し、生成プロンプトが期待通りに機能しなくなる可能性があります。たとえば、「風景タグが荒らされ、異なるジャンル画像が混入するようになると、風景画像を生成したいユーザー要求が満たされにくくなります

 

結論

Danbooruなどのタグが大規模に荒らされた場合、生成AIモデルの精度低下や一貫性の欠如が発生しやすくなり、特にキャラクター特定スタイル依存する画像生成モデルに大きなダメージを与える可能性が高いです。


すでに学習済みのモデルを使って汚染されたデータクレンジングや異常値検出を行うなど対策される可能性がありますが、それらを阻害する手段はありますか?

無断での学習妨害し、学習コストを増加させるために、上記方法を阻害する手法には以下のようなアイデアがあります。これらの手法は、意図的にデータセットの品質一貫性を崩すことで、学習モデルの精度を低下させ、データクレンジングや異常値検出のプロセスを複雑化することが目的です。

 

1. 偽タグノイズタグを大量に追加する

意図的に誤ったタグ無関係タグ画像データ付与し、データセットの信頼性を低下させます。これにより、転移学習やラベルノイズ検出が困難になり、正確な特徴量を学習するコストが増加します。

例えば、キャラクター画像に全く無関係タグ(「動物」や「風景」など)を追加することで、モデルがどのタグが信頼できるか判別しにくくなり、誤ったラベルノイズとして学習されるリスクが増えます

 

2. 特徴量をぼかす/微妙な変更を加える

特徴量ベースクレンジング類似分析に影響を与えるため、画像の特徴がわずかに異なるように加工を施します。具体的には、色調を微妙に変える、ランダムピクセル位置ノイズを追加する、または特定の部位を意図的にぼかすことで、モデル抽出する特徴量の安定性を低下させます

この方法により、同じキャラクタースタイルであっても類似分析が困難になり、正確なクレンジングが行いにくくなるため、データ処理のコストが増加します。

 

3. アノマリーに近いデータ意図的に増やす

特徴が異なるバリエーションや擬似的な異常データを大量に追加することで、異常検出アルゴリズム信頼性を下げます。たとえば、キャラクターデザインや背景を少しずつ変えた画像意図的に作成することで、異常値検出が頻繁に誤検出されるようにします。

こうしたデータが混在することで、オートエンコーダーアンサンブルモデルを使った異常検出が混乱し、正確な異常サンプルの抽出が困難になります

 

4. 高頻度で微小なラベル変更を行う

学習済みモデル転移学習やラベルノイズ検出を阻害するために、同じ画像に対してラベルを定期的に変える手法です。微小な変更を行うことで、モデルは正しいラベル安定的学習することが難しくなり、モデル信頼性が低下します。

例えば、ラベル黒髪」を「暗めの髪」や「濃い色の髪」などに頻繁に切り替えることで、学習に不確実性を持ち込むことが可能です。

 

5. 意図的に類似画像多重登録する

データセット内で非常に類似した画像複数の異なるタグ登録することで、モデル学習を混乱させます特定キャラクター画像を少しずつ変化させて複数タグを付けると、モデルは「どのタグがどの特徴に対応しているのか」を判別しにくくなり、データセットのクレンジングが複雑化します。

特にタグ一貫性が失われるため、類似分析アンサンブルモデルによる異常検出の効果を低下させることが期待できます

 

6. アドバーリアルノイズ付与

AIモデル認識を混乱させるように、アドバーリアルノイズ敵対的な例)を追加します。人間にはほとんど気づかれないレベルノイズ画像に追加し、モデル特定の特徴を正確に認識できないようにすることができます

このノイズにより、モデルの特徴量ベース学習が混乱し、意図した通りに学習できないため、クレンジングの精度も低下し、データ処理の手間が増加します。

 

7. 乱数ベースの偽ラベル生成

特定ルールではなくランダムタグをつけたり、特定カテゴリ間でランダムにラベルを入れ替える方法です。これにより、ラベル画像の関連性が薄れ、アノテーション一貫性が失われます。この乱数による偽ラベル付与は、ラベルノイズ検出やアノマリー検出において、真のラベルを見極めるコストを大幅に増加させます

 

まとめ

これらの手法は、AI学習クレンジング意図的に妨害し、無断学習にかかるコストを増加させるために有効です。特に、「微小な変更」や「アドバーリアルノイズ付与」といった手法は、見た目の品質に影響を与えずにモデルノイズを持ち込むため、非常に効果的です。

anond:20241115000009

いやさ、すげえアホなこというとTwitterハッキングすりゃ相変わらずgrok2除けできるし、ネトゲチートと同じ。

ユーザーインターフェースが消えただけで、パケット記録して送りつければまだ止まるし、そもそもそんなにむかつくならgrok2をハッキングして破壊しちまえばいい。

マルチモーダルだよな? grok2?

エクセル偽装したり音声ファイル偽装してpythonテキストファイルのまま送りつけて実行したり対LLMのハッキング方法やまほどある。

なぜやらない?

2024-11-14

[]

あいかわらずしんどい

昨晩夜遅くまでコーディングでキリキリしたからかな( ^ω^)・・・

スキャンでもしてくるか?どでかいスキャンしたファイルっていったん印刷して

いまの最新鋭のOCRスキャナーで実行すればかなり圧縮できるのかな?

ダルビッ!!ガッ

2024-11-13

https://newsdig.tbs.co.jp/articles/bss/1526011?display=1

合同捜査本部では、男は匿名・流動型犯罪グループいわゆる「トクリュウ」の指示役であるとともに犯行に使うスマホ供給役とみて、そのほかの事件への関与についても捜査を続けています

また、男の関係先のマンションからは、スマホ752台、デスクトップパソコン1台、ワイファイルーター2台を押収していて、ここを拠点不正に入手したクレジットカード情報スマホ登録する作業をしていたとみられています

anond:20241113163109

JPOPにも洋楽にもさして興味がなかったワイが知っとるミニアルバムめっちゃ少ないで。

中高生の頃、ポケモンカスミ役の声優さんやった飯塚雅弓さんのラジオにハマっとったから、それつながりで「Fly Ladybird fly」ってミニアルバムを買った記憶があって、それだけや。

クリスマスアルバムっちゅーことでそれっぽいテーマの曲が多くて、いつにもまして可愛らしさが前面に出てドキッとさせる、生活感のある感じの曲が詰まってたのが印象的やったな。

そらもうジャリボーイなワイくんはドキドキよ。

で、ほとんどの曲は長谷川智樹さんが作っとるんや。作編曲家として色んな人や作品楽曲提供しとる人やな。

彼はスピッツの曲も手掛けた事があって、まさに増田の挙げとる「オーロラになれなかった人のために」も彼の編曲だったことを、今これを書きながら調べてるうちに本当に偶然気付いたわ。

話戻すと、このアルバムん中ではワイが好きなのは3曲目の風のKissって曲やな。この曲は作詞作曲イズミカワソラさんのようで、長谷川さんは編曲だけみたいやな。

すごく透明感のある気楽な曲で、耳に残るから当時耳コピMIDIファイルを打ち込みで作ってた記憶があるわ。ラジオテーマ曲だったからかシンプル構成なのが逆にいいわ。

4,5,6曲目が長谷川さんの作曲編曲で、確かに言われてみるとスピッツとも通じるところがありそうな枯れたギターの音が混ざりつつ、なんていうやろな?

多分この人の編曲は、ミニオーケストラみたいなちょっと広い感じの空気感を出すのが特徴なんやと思う。いやわからんけど聴き返してる感じではそう思ったわ。

2024-11-09

カンニング前提G検定の受験スタイル

今日、G検定を受験した。AIディープラーニングに関するちょっと話題のやつだ。11月8日〜9日開催の2024年第6回。今回の試験からシラバス(問題範囲)が適用で出題数が変更となる。

G検定は自宅受験可能性質上、運営不正行為禁止と言いながらもPCインカメラ監視や画面共有監視もなく受験者たちの間では公然カンニングが行われていることで有名な試験だ。

IT系AI試験からGoogleAIを使いこなすの試験の一環だって?そんな屁理屈ありかよ。ありなんだよな。

SNSnoteqiita受験記を見てもそうだし、検索欄に「G検定」と入れると「カンペ/カンニング/チートシート」などが多数サジェストされることからも明らかだ。

そのため運営カンペを一目見たり用語集をCtrl+Fで検索してすぐ解けるような一問一答的な出題を避けているという。問題文と選択肢画像形式で出題されてコピペ不可。それくらいの抵抗はしてくる。

前回まで試験時間120分に対して出題数は公称200問程度だったが今回から160問へと変更され1問当たり時間が約30秒から45秒へと増えたのも、複雑な出題でカンニング潰しをしてやるという運営の意気込みが事前に感じられていた。

しか運営姿勢自力で正々堂々と挑む他の受験者に悪いが不正受験者がいる以上は俺も乗っていくし、先端AI的な試験を受ける気概はあっても高度な自動回答環境を作れるスキルはない、そんなクズカスの取ったスタイルを紹介する。

他の自宅受験系の資格試験にも流用できるだろう。こんな恥ずべき内容は他じゃ書けない。

事前勉強

割愛本来取り組むべきなのは言うまでもない。

受験場所

ネット環境下でどこでも受験OKだが自宅がベター。広いテーブルがあるといい。カンニングしまくる以上そんな姿は人目に晒せない。会社学校など知り合いのいる環境は論外だ。

出題内容が各人で同一であるなら仲間と結託してもいいがおそらく違うのではないか

用意

PC

ノートPC2台とスマホ2台を用意した。詳細は後述。

AI先生

頼みの綱。文字入力よりPC画面上の文字コピぺできない問題文をスマホで撮って画像入力するのがメイン。アップした画像内の文字認識して回答できるタイプで事前に操作に慣れておく。

最近AIならまあ対応可能だろう。性能の高い有料版に課金して安心ダメ押してもいい。世話になるのは本番2時間なのでお試し版でもいい。

俺はSoftBank回線があれば1年タダの有料版Perplexityを普段使用しているのでこれ。

テキスト

シラバス(試験範囲)記載用語解説されたいわゆるチートシートネットに落ちている。ブラウザで開くなりWord Excelファイルにするなり中身を検索できるようにしておく。

画像タイプでない中身が文字検索のできる試験対策電子書籍や、テキストをそのまま書き起こしたような詳しい有料チートシートもあると心強い。

目次や索引の充実した、またはこの辺に書いてあると把握できてる読み慣れたリアル書籍もいい。

・その他

計算問題自力で解くつもりなら紙、ペン電卓

飲み物はすぐ飲めて倒してもこぼれにくいストロー付き紙パックなどがいい。

2時間の長丁場なので食べる余裕ありそうならお菓子などを用意してもいいし、アガるプレイリストを用意して音楽聴きながらやってもいい。

時計受験画面内に常に残り時間カウントダウンされているので不要。120分160問だから目安として残り100分時点で27問解いておきたい、80分で53問、60分で80問とメモっておくと焦った頭でもペースが掴める。

回答方法

ノートPCを2台並べ、1台はブラウザ受験画面とAIを2画面表示、もう1台は簡素一問一答的なシラバス用語チートシートと詳細なテキスト状のチートシートを2画面表示。これはデスクトップとか1台のデカモニターに並べてもいいだろう。

そしてスマホ2台でもAIカメラAI使用できればタブレットでもいいだろう。これらを出題内容によって使い分ける。

自分の実力次第だが、用語説明文見たら解けそうな問題テキストからCtrl+Fで検索AI先生に聞いた方が早そうなものAIで。

AIに聞くのもPCタイピング入力スマホフリック入力、出題文丸ごとをスマホ写真撮って画像認識のどれが早そうかを使い分ける。写真アップの場合文字認識にやや時間がかかるだろう。その間に次の問題に行きそこでもAIに聞きたい場合に2台目のスマホで解いてもらう。待機時間問題を行き来する時間は極力減らしたい。

計算問題自力で解ける実力があってもAIに頼んで次の問題に行った方がおそらく早い。問題にはチェックマークつけて後で見返せるので1周終えてから検算してもいい。

Perplexityは画像認識での行列サイコロ確率期待値、畳み込み演算などを難なく正解した、はずだ。

感想と結果

今日の2日目受験だったが1日目受験者の感想SNSで見ると今回からなかなか厄介に変更されているようで覚悟して挑んだ。

まり勉強してないので過去出題や問題集との比較はできないのだが見て回ると今回は阿鼻叫喚難易度らしい。カンニング跋扈運営もキレたか

問題プールの中から出題も順番もランダムに出題しているのか、同じ図表の穴埋め場所違いな問題複数あったり、同じ用語の問われ方違いやほぼ似た感じの問題複数あった。

勉強していればサービスだが勉強不足だと「似た問題を少し前に解いたけど自分理解して解いたわけじゃないからまた探さなきゃ(またAIに解いてもらわなきゃ)」となり時間ロス。運営戦略か?

試験は終了時間5分ほど残してとりあえず解き終えた。上記回答方法スムーズにこなしてもかなりギリギリだった。

から気付いたが問題画像右クリック保存できるようにしたり最悪スクショした画像ブラウザAIに読ませた方が早いかもしれない。

感触はかなり良いが、AIに聞いた部分が正答できたのか全スクショして答え合わせしたわけでもないので合否不明。判明したら追記する。合否のみで得点開示されないのは残念。

AI先生の回答能力画像認識力が上がりまくった現状、カンニングできちゃうIBT(自宅受験)はほぼお布施価値しか無いだろう。最低限インカメラ目線監視や画面共有監視、CBT(近所の会場受験)でないと。

Apple vision proを買った

これはすごい

Excelファイルが0.5倍の速度で編集できる

お前らも買え

anond:20241109095353

これだから素人は困る

大事ファイルが消えたらどうするんだ

まずはバックアップを100個くらいとってからこねくり回せ

[]

ローカルなかにあるフォルダーの中身がすごいこととなっていて、どうしようかと思案中。

スキャンした本を集めたフォルダーなんだけど青空文庫からダウンロードしたテキストファイルが混じっていてこれがうっとうしい

すべてのテキストファイルがそれ関連であればなんとかなるがそういうものでもないので、どうしたらいいのか?

削除してもいい著者名を含んだテキストファイルをどっかにメモしておき あとでまとめて削除するっていう方法ないだろうか

目次情報みたいなのを与えてチャプターごとにファイルを切り刻むスクリプトがほしい

きりきざむところは、pdftkやらせ

2024-11-08

電子書籍

本棚がいっぱい並んだ体育館みたいなところで

受注はいりましたー!って

アルバイトの子が空いてるコピー機さがして

右往左往しながら

注文の入った本を開いてスキャンして

わ!上下間違えた!とか、斜めになっちゃった

とかバタバタ苦労して

社員さん!できましたー!

おっ?みきちゃんもだいぶ慣れてきたねぇ、おつかれおつかれ

なんて感じでまとめられたファイル

読んでるかと思うと

みきちゃんバイトはいいけど、単位大丈夫なのかなぁ

とか思っちゃって

少し感慨深い。

時給は1100円から。たぶん。

あと洋書ならメアリー担当ね。まぁ買わないけど。

ログイン ユーザー登録
ようこそ ゲスト さん