MidjourneyとStable Diffusion比べて、単純にスクレイピングして画像学習させるだけじゃ、クオリティ出ないんだなって

2022-09-01

Stable Diffusionは23億枚の画像を学習したっていうのだけど、使っているとクオリティが低い画像が大量に生成される。

自分が書いたプロンプトが悪くて、内部のベクトルが散らばってしまっている可能性はあるのだけど、使用感はStyleGANに近い。

大量に画像学習しているはずだけど、2枚の画像を合成してる感じ。

seedを固定してtext2imgすると元絵っぽいのがなんとなくわかるのだけど、構図が元絵に引っ張られる。

2枚の元画像にない場合は、描こうとするのだけど崩れる。

Midjourneyの方だとわりと適当に入れても「凄い」ってなるし、

言葉で言い表しにくいが、概念を学習している感じ。

〇〇をモチーフにと２つ組み合わせれると意外性も含めて画像を出力してくれる。

データセットの枚数を聞くと23億って多いなって思うけど、

スクレイピングしてくるだけじゃクオリティでないなって。

(もちろんデータセット側で低レベルなのはaestheticで切っているのだろうけど）

適当なこというと、Midjourneyの方がオープンになってローカルで動かせるようになって欲しかったな。