画像生成AIについて思うこと

2022-08-30

stable diffusionを使って見ての感想

1つ目

膨大な数の画像さえ食わせれば絵が描けるようになるかだが、たしかに文字に対応した絵を描こうとするが、

部分部分でテイストが異なる物が混ざった感じになり、結果違和感につながっている。

「初音ミク」を入力した際に、粗い画像で、緑の長い髪の毛くらいは表示され、顔や手や服などは構成が崩れる。

ネット上に「初音ミク」のタグがついている画像は沢山あるが、テイストが色んなものが混ざっているからだと思う。

「ジブリ」でも作品は沢山あり、更にネット上に二次創作が沢山あるので、描くと曖昧さが残る。

「pixiv」も、テイストが色んな画像があるので、それっぽい塗の画像が出てくるが、目の書き方は人によって異なるので、表情が生成されない。

一方、「ミュシャ」のような、わかりやすい画家性があるものは、クオリティ高く合成できる。

2つ目

思っているより、細かい指定が出来ない。

「手になにかを持っている」ようなのは、まだ出来ない。

例題にあるように、「馬に乗っている宇宙飛行士」」のように、まだ2枚の画像の合成でないと、実用に耐えられるクオリティではないのではないか。

アニメ絵を描こうとして、目や口も出てこないので、プロンプトに追加すると生成される。

生成されるが、バランスは崩れている。

AIとしては目の近くに口があることまでは学習出来ているが、顔の傾きに応じて、目の傾きが変わる、なんてことは学習出来てない。

なので福笑いのようになる。

3つ目

ネット上の画像を集めてきただけでは、クオリティ担保出来ないのではないか。

「ねんどろいど」が比較的まともに生成できるのは、ネット上に転がっている写真のクオリティが一定水準以上だからだろう。

anond:20220830105839
なので、崩れないキャラを多彩な方向から写した3Dなゲームをプロンプトに含めると結構安定する。
anond:20220830105839
フェイスレスの画像を生成して、ブレが激しい顔だけ後から合成させるようにしたら顔だけ線が違うとキモいからそのへんも要調整で