xの画像ってそれだけでどこまで学習に利用できるのか。タグ付けないからそこからになるけど機械的な画像認識で説明させても結局Danbooruには及ばない。presenting_removed_pantiesとholding_pantiesの違いをテキストに自動で落とし込めるのか?Dalle3もイラスト系の出力はかなり精度が甘いんだよな
Permalink | 記事への反応(0) | 19:06
ツイートシェア