2022-08-28

Stable Diffusionは日本語Web全然違うのか、難しい

Stable Diffusionを触った感想を書いていく。


人物について、日本人っぽさを出すのは難しい。(写真でも絵でも)

Japaneseを入れた場合、表情がおかしい事になる。(変顔みたいなもの

どこから学習データを引っ張ってきているかしらないが、CJKは全部一緒なのかもしれない。

着物といった海外で受けている日本っぽいものを入れたとしても、英語圏向けに活躍している中国人アーティストっぽいのが入る。

ラーメンに関しても、日本ラーメンではなく、欧州中国人韓国人がやっている日本料理屋のラーメンが出てくる。

説明が難しいが具材やらが違う)


アニメ絵を出したいが、正直難しい。

ポケモンドラゴンボールといった米国流行っているのがわかっている作品については、それっぽいのが出てくる。

アニメ絵を出すために、ghibli、shinkai makotoというマジックワードを入れるというノウハウがあるが、

それくらいしか分類に対して単語定義されてないということだろう。


写真しろアニメ絵しろ日本人かわいいと思う感じにはならない。

kawaiiを入れたとしても「?」と悩みそうなのも出てくる。

そもそもkawaiiが指す物にゆらぎがあるので当然だ。

自分が考える「かわいい」に近づけようとして、promptを大量につけたとしても、指す言葉が足りなく感じる。

目が細いので「目を大きく」と指定すると猫目の奇妙な物が生まれる。

目、鼻、口のバランス言葉指定するのを試してみたが、どれも変になった。

言葉で指示出来ない微妙バランスによって成り立ってる物は、調整も難しいのだと思う。

あと指定を多くすればするほど画像クオリティが低くなり破綻している箇所が多くなる。


あとはケモナーも難しかった。

ファンタジーな感じにならない。

獣度が違うというのか?

動物が服を着ている、2足歩行している、顔や腕の毛の量といったのが、

かわいい感じにはならない。


全体的に、Stable Diffusionで簡単に出ることがわかっている物はいいが、

コンセプトやイメージが明確な時は、調整が効かない。

ファインチューニングしたサービス待ちか。



どんな画像を出したいかを指示するpromptについて

他の人のpromptを探していると、「なんでこんな事を書いているんだ?」と思うことがあるが、

おそらく「The-DALL·E-2-prompt-book-v1.02.pdf」という資料に沿っているようだ。

Stable Diffusion用ではないので、どこまで効いているかはわからない。

(実際同じpromptで、DALL-EとStable Diffusionで微妙に傾向が違う)


lexicaで他人のpromptを探すことが出来るが、少し古いっぽい。8月13日付近とか。


TwitterでStable Diffusionで検索をかけてもpromptを公開している人は殆どおらず、

何がいいかからない。

  • TwitterでStable Diffusionで検索をかけてもpromptを公開している人は殆どおらず、何がいいかわからない。 そうなんだよね。 みんな、びっくりするほどpromptを公開していない。 もっと公開し...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん