DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、
学習させたい画像とキャプションを食われば良いってのはわかる。
新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、
形状なり色が違うだけだから、それに差し替えるって感じだと理解している。
わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。
一回、誰かピクセル単位でアノテーションしたのだろうか。
Permalink | 記事への反応(1) | 12:39
ツイートシェア
実際わかってないのでスポブラを着せようとするとウマ耳が生えたりする