2022-10-03

AI絵師は「拡散モデル」とかいうのを使ってますって説明よく見るけど

モザイクっぽい画像

謎の数式

拡散モデルを使っているんだよ(おわり)」の文字

っていう組み合わせの解説をすげーよく見かける。

でもノイズをかけまくってから複合したらなんで学習完了するのかは結局わからない。

どれも説明することを放棄してるとしか思えない。

ある種のパターンを蓄積していってるのは分かるんだが、それを復元したあとにちゃんと元の形に戻るプロセス理解できない。

こういう話すると「ばっかだなwwwwだーかーらー指が6本になってるじゃーんwwww」って冷笑して通り過ぎてくちくわ大野糞がたまに出没するけど、じゃあそもそも指6本や4本のレベルまでなんで復元できるのって話をしてるわけよ。

なんとなくのイメージはあるんだよ。

人間空耳をするときに脳がやっているのに近いことが起きてる」ってことでいいんだろ?

入力されたデータを、なかばブラックボックスに近いぼんやりしたデータ群との間でかき混ぜて、なんか近いものを見つけたらそれにドンドン近づけていく感じだろ?

そのときにもととなる集合データを選び間違えると空耳アワーのごとくそっちに引きずられるって現象が起きるってことでいいんだよな?

これがAI絵師に依頼した絵が全然別の方向に引きずられているけどそっちの方向としてはあってたりする場合に起きてることなんだろう?

ああ何となくは分かってるんだよ。

でもこれを理屈として理解できねえんだ。

いや違うな理屈感覚がつながらねえんだ。

ホワイトノイズも同然の砂嵐が綺麗な絵になるプロセス空耳理論で分かるんだが、そもそも情報から砂嵐に行く理由が……いやこれも空耳理論で良いのか……あーいや理解できて……何が理解できて何が理解できてないのかも理解できなくなった……。

あーいやー……分かったわ。

数学勉強が足りてないから俺の脳では復元できないノイズが広がってる空間があるってことだ。

数学勉強しろってことだな。

クソが!

俺は数学勉強せずに何となく理解してんだよ!

もしかしてここが数学理解せずになんとなく生活から得られる経験理解できる限界だってことはないよな?

俺はそこまで頭良くないと思うから多分もっと先があるはずだ!

出て来い賢い奴ら!

俺にも分かるようにもっと詳しく説明しろ!!!

  • 格さんモデルがあるなら、助さんモデルもあるじゃろ・・・と思うくらいに時代劇脳。

  • 拡散の逆過程を学習してるんやで。 拡散過程は情報を失う過程なので逆過程は決定不能なわけだが、決定不能な中でも「拡散する前はこういう状態だったケースが多い」というパターン...

    • めっちゃわかりやすい まさにこれ

      • この解説増田きっと賢いんやろな 平易に説明できるってすごいよねえ

    • 呪文唱えて逆過程やらせたのが最終的に人間からみてあんま違和感ない形になる理由はなんなんや? なんとなく自分の中で迷ってる仮定は次の2つや A最終的に部分は一つの画像から復...

      • そういう細かいところがどうなって上手く行ってるのかは多分今のところ誰も分かってない(今後も分からなさそうな気が俺はする)。追ってないので分からんけど、なんか論文はある...

        • ニューラルネットワーク自体を人間が分かりやすい形で覗けないから擬似的にブラックボックスみたいになってるって感じか。

          • それはそう。予測とか生成はいいんだけど、モデルの解釈性は全くない。統計的学習理論なんかも滅茶苦茶大雑把にこういう感じのデータ(関数空間)はニューラルネットが有利とか言...

  • ノイズを学習画像と結びつけてノイズを乱数の代わりにしてるんやで。だから呪文が同じでも結果が変わる

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん