そもそも、学習データでは、顔の特徴と言葉とが紐づけられているのだろうか。
まったくの素人なのでよくわからないのだけど、ネットに膨大に転がっているような写真で、たとえば「えらが張っている」みたいな顔立ちレベルの粒度の単語とセットで置いてある写真てある?
イラストなんかだと、「ジャパニメーション」みたいな大きなカテゴリーから、目の色のような細かい特徴まで、タグ付けなどの言語情報に紐づけられているので、逆にプロンプトで指定もできるのだろうけれど。
Permalink | 記事への反応(0) | 13:49
ツイートシェア