ネットでスクレイピングしてきたデータを単純に学習させればAIは賢くなって良い感じの出力出してくれるんでしょ?
と思っていたのだけど、どうも調べていると違っている。
例えば絵描きAIのStableDiffusionで、追加学習させるLoRAがあるが、
顔を中心に切り抜きをする、背景を切り抜くといった手作業が必要となっている。
また画像に偏りがあると、それに引きずられる。
キャラクターだと、同一キャラクターを色んな角度から描いた複数枚の画像が必要になるが、
ある角度ばかり多いとそれに引きずられるといった感じだ。
写真だと、オブジェクト検出くらいだと、人や建物くらいの大雑把なカテゴリー検出では既に駄目で、
髪型の名前や、ファッションの名前など、タグ付けするのに知識の限界を感じる。
(ググれバカ、ChatGPTに聞けばいいという人は是非とも網羅的にタグ付けしたデータセットを出して人類に貢献して欲しい)
そして、ネットにはそれほど高品質なデータは、案外ないのではないか。
フォトリアルな人物写真を出したいとした場合、光をどのように当てるのかという知識は、普通の人には無い。
ストロボ直射、MoLAのようなオパライトなのか、白ホリで2,3mのディフューザーで撮ったのか、画像の範囲外のものから推測しないといけない。
ChatGPTの質疑応答が凄いというので、オープンなモデルも出てきているが、
ファインチューニングするのに、質問と回答をセットにしたデータセットを作らないといけないというのを見た。
単純にドキュメント食わせれば、良い感じに質問答えてくれるようになるんじゃないの?
と思ってたら違ってたわけだ。
プログラミング言語が、最初は0101からはじまって、マシン語になって、C言語とか出てきて、高級言語になって、スクリプトになって、という流れと同じで、AIも最初にまともに動くもの...