stable diffusionを使って見ての感想
1つ目
膨大な数の画像さえ食わせれば絵が描けるようになるかだが、たしかに文字に対応した絵を描こうとするが、
部分部分でテイストが異なる物が混ざった感じになり、結果違和感につながっている。
「初音ミク」を入力した際に、粗い画像で、緑の長い髪の毛くらいは表示され、顔や手や服などは構成が崩れる。
ネット上に「初音ミク」のタグがついている画像は沢山あるが、テイストが色んなものが混ざっているからだと思う。
「ジブリ」でも作品は沢山あり、更にネット上に二次創作が沢山あるので、描くと曖昧さが残る。
「pixiv」も、テイストが色んな画像があるので、それっぽい塗の画像が出てくるが、目の書き方は人によって異なるので、表情が生成されない。
一方、「ミュシャ」のような、わかりやすい画家性があるものは、クオリティ高く合成できる。
2つ目
「手になにかを持っている」ようなのは、まだ出来ない。
例題にあるように、「馬に乗っている宇宙飛行士」」のように、まだ2枚の画像の合成でないと、実用に耐えられるクオリティではないのではないか。
アニメ絵を描こうとして、目や口も出てこないので、プロンプトに追加すると生成される。
生成されるが、バランスは崩れている。
AIとしては目の近くに口があることまでは学習出来ているが、顔の傾きに応じて、目の傾きが変わる、なんてことは学習出来てない。
なので福笑いのようになる。
3つ目
なので、崩れないキャラを多彩な方向から写した3Dなゲームをプロンプトに含めると結構安定する。
フェイスレスの画像を生成して、ブレが激しい顔だけ後から合成させるようにしたら 顔だけ線が違うとキモいからそのへんも要調整で