2023-03-31

AIは、AI学習させるためのデータセットを作るのを楽にしてくれるだろうか

ネットスクレイピングしてきたデータを単純に学習させればAIは賢くなって良い感じの出力出してくれるんでしょ?

と思っていたのだけど、どうも調べていると違っている。


例えば絵描きAIのStableDiffusionで、追加学習させるLoRAがあるが、

顔を中心に切り抜きをする、背景を切り抜くといった手作業必要となっている。

また画像に偏りがあると、それに引きずられる。

キャラクターだと、同一キャラクターを色んな角度から描いた複数枚の画像必要になるが、

ある角度ばかり多いとそれに引きずられるといった感じだ。


写真だと、オブジェクト検出くらいだと、人や建物くらいの大雑把なカテゴリー検出では既に駄目で、

写真ピクセル範囲を検出してタグを付けないといけないし、

髪型名前や、ファッション名前など、タグ付けするのに知識限界を感じる。

(ググれバカ、ChatGPTに聞けばいいという人は是非とも網羅的にタグ付けしたデータセットを出して人類に貢献して欲しい)


そして、ネットにはそれほど高品質データは、案外ないのではないか

フォトリアル人物写真を出したいとした場合、光をどのように当てるのかという知識は、普通の人には無い。

ストロボ直射、MoLAのようなオパライトなのか、白ホリで2,3mディフューザーで撮ったのか、画像範囲のものから推測しないといけない。

タグ付け出来るものだろうか。


ChatGPTの質疑応答が凄いというので、オープンモデルも出てきているが、

ファインチューニングするのに、質問と回答をセットにしたデータセットを作らないといけないというのを見た。

単純にドキュメント食わせれば、良い感じに質問答えてくれるようになるんじゃないの?

と思ってたら違ってたわけだ。


本当にAIAI学習させるためのデータセットを楽に作るためのツールを作ってくれるだろうか

  • プログラミング言語が、最初は0101からはじまって、マシン語になって、C言語とか出てきて、高級言語になって、スクリプトになって、という流れと同じで、AIも最初にまともに動くもの...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん