例えばJapanese Girlと入力したときに、米国の太平洋戦争時の公文書に残っている写真に載っている日本人女性を意図したわけではなく、
現代風なのを意図しているはずだ。
このあたりはGoogle検索時でもやっている。
で、あまりに元画像に似すぎてねーか?ってのが出てくることもあり、
画像生成時に、プロンプトで引っかかった複数の画像も生成に突っ込んでいるじゃないのか?
と疑ってしまう。
StableDiffusionだと1枚狙ってだが、Googleの画像検索に出てくる上位数%を入れる。
実際の実装は、画像をRAGに変換していて、元の画像そのままと違うのかもだが・・。
物体ごとにセグメント分かれているので、プロンプトでわざわざ指示して一致しない部分は置き換わる。
Permalink | 記事への反応(0) | 09:53
ツイートシェア