2023-03-06

Stable Diffusionって、画像から物の形状どうやって認識してるのだろう

DreamBoothでファインチューニングする時は、既に学習しているモデル認識しているので、

学習させたい画像キャプションを食われば良いってのはわかる。


新しいキャラクター学習させる場合でも、もう殆どのパーツは既にモデル認識していて、

形状なり色が違うだけだから、それに差し替えるって感じだと理解している。


からないのは、まっさらモデル場合、512x512pixのうち、単語がどの場所を指しているかからないと思うんだよな。

一回、誰かピクセル単位アノテーションしたのだろうか。

  • 実際わかってないのでスポブラを着せようとするとウマ耳が生えたりする

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん