Novel AIの精度は凄いと言われるが、出力されるテイストが、ほぼ似たような物になっている。
犬などの写真と違ってイラストの場合、テイストが全部異なるので学習しにくいのだと想像している。
waifu diffusionが学習させている枚数のわりに上手くいってないのは、そのせいだろう。(DreamBoothで学習させれば出るのだからパラメータ数が足りないではない)
テレビアニメっぽい塗りだと、線が途切れてない、線が均一だったり、きちんと閉じて隙間が空いていたりなどないのが、学習に効いてくるのではないか。
低解像度から生成していって、崩れやすい顔や手といった部分のセグメントに該当する部分だけ、精度の高いモデルを使うという方法もあるのではないだろうか。
キャラクターの一貫性を売りの1つになっていたが、顔のセグメントだけ別モデルにしておいて、入力を閉じて同じパラメータを使い続けるというのもできないだろうか。