2022-09-12

イラスト向けAI絵描き「Waifu Diffusion」を使ってみて感じた限界

Danbooruの素性に注目が集まっているが、ここでは議論しない。


promptを英語で書く必要があり、闇雲に入力しても意図した画像が出てこない。

promptチェッカーのような、正しいpromptが書けているのかどうかをコンパイラ確認できず、自身画像を見て反映されているか判断する必要がある。

promptに記載した内容が1枚の画像に全て反映されているわけではなく、複数枚の画像を出力してみて、promptがなんとなく反映されているかな、といったものになる。


Danbooruタグが使えるということが正しいように広まっているが、半分正解で半分間違っている。

「bow」というタグがあるが弓を表しているわけではなく、女の子キャラクターの髪の毛が弓なりの形状をしていることを示すのに、Danbooruではタグ付けされている(ように見える)。

「hair_bow」というタグもあり、こちらも髪留めリボンのことを示す。「Waifu Diffusion」に書いて出てくるのはこちらになる。一般的に使われるのもこちらだろう。

面倒なのがここからなのだが、「Waifu Diffusion」は修飾子がどこにかかっているのか曖昧判断をする。

弓を描きたいわけではないので、何かしら髪にまつわる単語が「bow」の近くにあることになるが、「Waifu Diffusion」はリボンを描く。

どうも「Waifu Diffusion」は英文法を知っているわけではなさそうだ。

また「hair_bow」をつけたキャラクター代表的なのが東方霊夢なのか、霊夢要素がそこかしこに現れる。


もう一つ例を出そう。

Danbooruタグに「small_breasts」という胸の小さいタグがあるが、「Waifu Diffusion」は胸の大きな描写をする。

xxxx, small_breasts, xxxx」といったようなpromptを書くと、胸の小さいキャラを描きたいのだなと判断すると思うが、

「Waifu Diffusion」は胸という単語があるから胸を描画した、となる。

どうもアンダースコアでつながっている単語を1単語とは認識してない。

breasts」という単語が入っている限り、巨乳が描かれ、さらに胸をさらけ出した描画がなされるので重々注意されたし。

小さい胸のキャラクターを描きたい場合は「breasts」という単語をpromptに入れてはいけない。


上記のこともあり、Danbooruタグはあまり効かない。!!!やカッコ( ) で括った単語は強調されるらしいが、あまり意味がない。

またDanbooruタグの詳細を見てみるとわかるが、1kを超えるような数の多いタグ曖昧ものが多くなり、詳細な分類がなされたものは数が少なくて効かない。


他に、髪の指定英語で行うのはかなり困難だ。

ロングやショートくらいはすぐ指定出来るが、それくらいだ。

「floating_hair」というイラストでよくある髪束をウネウネさせるタグがあるが、「Waifu Diffusion」は認識せず、キャラクターは空を飛ぶ。

「short_hair_with_long_locks」という、ショートだが頬の横の髪が長いというタグがあるが、まず認識されない。

では日本人女性現実でしている髪型対応する英語があるかというと、Google検索して出てくるような和製英語入力しても描画されない。

アイドル系だとツインテールメジャーだと思うが、英語圏の人は「twintail hair は pigtail hair」だというが、pigtail hairは日本人感覚からすると編み込みが多くリボンが沢山付き、どうも違うとなる。

ゆるふわアレンジなんてのは、かなり難しい。


他に、現状「Waifu Diffusion」では指を描くのがかなり苦手だ。

promptを工夫すれば出来るのかもしれないが、色々試した結果、顔との両立が出来ない。

先の事例と同様に、手を隠すといったpromptは指定しようとしても、promptに指や手といった単語が入っているだけで問答無用で画面に出てくる。

「何かを消す」といった指定はほぼ無効になる。


promptの参考書についても課題に感じる。

「Stable Diffusion」では本当に効くかどうかはさておき、検索できるサイトがいくつか出てきている。

しかし「Waifu Diffusion」で、アニメを描きたい場合の参考はない。

「Waifu Diffusion」を作った人達Discordtext-to-imageがあり、画像とpromptが載っているが、多くがクオリティの低いものであり、高速で流れるチャットから見つけるのは困難だ。

SNS記事でまとめている人も少ない。


Danbooruデータベース学習しているということで、実際にダウンロードして中を見てみたが、

玉石混交というか、説明がしにくいが、少なくとも自分の描きたいものとは違っていた。

テイストが揃ってないので、同じ単語が示す物でも画像ごとに違い、そりゃアーティスト名で絞りたくなるよなってのは気持ちはわかる。

(「Waifu Diffusion」でDanbooruアーティスト名を入れても、狙ったテイストにはならないが。絵が多いアーティスト名でもならない。)


また「Waifu Diffusion」はキャラクターの顔については崩れないので凄いと言われるが、

実際に使うと、「full body」といった全身を描きたいと思っても顔のアップばかりが出力され、全身が描けたと思っても顔が崩れて描写されない。


アニメのような演出をしようと思った場合エフェクトをどう指定するか、という問題にぶち当たる。

Danbooruタグにはエフェクトに関するタグはない。

アニメならではの光の演出があるわけだが、どう指定するのかわからない。

英語名前がついているのだろうか。

最近イラストで多い、逆光で顔の前面は薄い影で、なぜか鼻の高い所にはハイライトが入っているが、前髪の影は額に落ちているという、

どこから光が入っているんだ?というのも指定できるのだろうか?

まだ3Dでやっているような顔前面セル塗りの方が指定やすかろう。


「Waifu Diffusion」には70ワードという制限があり、細かく指定していくと軽く超えていく。

超えた分は無視され、絵を文字表現するとなるのは難しいのを実感する。

img2imgによって、ポーズ指定、髪の毛をどこで括るかといった指定はしやすくなるが、それでもpromptが必要となる。

Danbooruタグが反映されない問題解決されたとしても、タグの細分化はされているようでいて、実際使うとなると足りてない。


使いこなせる人はいるのだろうか?

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん