Stable Diffusionって、画像から物の形状どうやって認識してるのだろう

はてな匿名ダイアリー

2023-03-06

■Stable Diffusionって、画像 から物の形状どうやって認識してるのだろう

DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、

学習させたい画像とキャプションを食われば良いってのはわかる。

新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、

形状なり色が違うだけだから、それに差し替えるって感じだと理解している。

わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。

一回、誰かピクセル単位でアノテーションしたのだろうか。

Permalink | 記事への反応(1) | 12:39

記事への反応 -

anond:20230306123901
実際わかってないのでスポブラを着せようとするとウマ耳が生えたりする

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

人気エントリ

注目エントリ

ようこそゲストさん