Stable Diffusionは日本語圏Webと全然違うのか、難しい

はてな匿名ダイアリー

2022-08-28

■Stable Diffusionは日本語圏Webと全然違うのか、難しい

Stable Diffusionを触った感想を書いていく。

人物について、日本人っぽさを出すのは難しい。（写真でも絵でも）

Japaneseを入れた場合、表情がおかしい事になる。（変顔みたいなもの）

どこから学習データを引っ張ってきているかしらないが、CJKは全部一緒なのかもしれない。

着物といった海外で受けている日本っぽいものを入れたとしても、英語圏向けに活躍している中国人アーティストっぽいのが入る。

ラーメンに関しても、日本のラーメンではなく、欧州の中国人か韓国人がやっている日本料理屋のラーメンが出てくる。

（説明が難しいが具材やらが違う）

アニメ絵を出したいが、正直難しい。

ポケモンやドラゴンボールといった米国で流行っているのがわかっている作品については、それっぽいのが出てくる。

アニメ絵を出すために、ghibli、shinkai makotoというマジックワードを入れるというノウハウがあるが、

それくらいしか分類に対して単語が定義されてないということだろう。

写真にしろ、アニメ絵にしろ、日本人がかわいいと思う感じにはならない。

kawaiiを入れたとしても「？」と悩みそうなのも出てくる。

そもそも kawaiiが指す物にゆらぎがあるので当然だ。

自分が考える「かわいい」に近づけようとして、promptを大量につけたとしても、指す言葉が足りなく感じる。

目が細いので「目を大きく」と指定すると猫目の奇妙な物が生まれる。

目、鼻、口のバランスを言葉で指定するのを試してみたが、どれも変になった。

言葉で指示出来ない微妙なバランスによって成り立ってる物は、調整も難しいのだと思う。

あと指定を多くすればするほど画像のクオリティが低くなり破綻している箇所が多くなる。

あとはケモナーも難しかった。

ファンタジーな感じにならない。

獣度が違うというのか？

動物が服を着ている、2足歩行している、顔や腕の毛の量といったのが、

かわいい感じにはならない。

全体的に、Stable Diffusionで簡単に出ることがわかっている物はいいが、

コンセプトやイメージが明確な時は、調整が効かない。

ファインチューニングしたサービス待ちか。

どんな画像を出したいかを指示するpromptについて

他の人のpromptを探していると、「なんでこんな事を書いているんだ？」と思うことがあるが、

おそらく「The-DALL·E-2-prompt-book-v1.02.pdf」という資料に沿っているようだ。

Stable Diffusion用ではないので、どこまで効いているかはわからない。

（実際同じpromptで、DALL-EとStable Diffusionで微妙に傾向が違う）

lexicaで他人のpromptを探すことが出来るが、少し古いっぽい。8月13日付近とか。

TwitterでStable Diffusionで検索をかけてもpromptを公開している人は殆どおらず、

何がいいかわからない。

Permalink | 記事への反応(1) | 08:43

記事への反応 -

anond:20220828084341
TwitterでStable Diffusionで検索をかけてもpromptを公開している人は殆どおらず、何がいいかわからない。そうなんだよね。みんな、びっくりするほどpromptを公開していない。もっと公開し...

記事への反応（ブックマークコメント）

permalink Twitterでシェア Facebookでシェア

2022-08-28