はてなキーワード: ファインとは
ワイは光GENJIの世代だが、派遣社員として働いてた職場ではちょっとばかし浮いていた。
別にコンピュータ相手の仕事だから浮いてても問題はなかったが。
ところで2008年の24時間テレビのTシャツは村上隆のカイカイ キキだった。
その日もこのTシャツを着て会社に行き、コンビニに行きつつサボろうと廊下を歩いていたら、
いつのまにか横に並んだ誰かがワイの胸を前から覗き込みながら、
女性の声で「おそろい」と言った。「。。。おそろい?」
「私とお揃い。嵐が初めて24時間テレビの司会やったときのTシャツ」と言って、
女性は自分の席に歩いて行った。存在は知ってるけど初めて会話した人。
嵐ファンの前にはSMAPファインがいて、その前はちょっと空いて少年隊かチェッカーズか、
そんで光GENJIになるんだろう。いまのキンプリとかはもうわからん。
娘が小さい頃、プリティーリズムの限定プリズムストーンを入手すべく、
開場までの時間、みんな座って待ってるんだけど、暇だしやることないから、
娘相手に「プリティーリズムのコーデをガンダムで例える」話をしてた。
もちろん娘はガンダムなんか知らないけど「もっと言ってもっと言って」とノリノリだった。
ほんで適当に話すんだけど、そのときは周りの多数の「お母さん」を意識して喋ってるから、
話の流れは忘れたけど、「お父さんの時代だと光GENJIかな、いやたのきんトリオかな」と言ったら、
レンジ外から「それはない」とはっきりと聞こえた。ワイは他人のお母さんのツッコミを引き出せて嬉しかった。
感謝カンゲキ雨嵐を歌いながら歩いた。
誰かに乗っかって歌われたい。笑われたい。
でも鶯谷では声も小さくなる。
正確にはLoRAモデルじゃないけど。
星クズの夜さん( https://twitter.com/hoshikuzu_yoru )の絵でファインチューニングしたであろうモデルを見かけた。
https://huggingface.co/chenxluo/QteaMix
https://civitai.com/models/50696/qteamix-q
https://pixai.art/model/1625831821812984094
ちちぷいやAIピクターズみたいな感じのサイトって海外にもあるのかしらと調べて、
PixAIというサイトがあるのかとなって回っていると、たまたま知ってる人のを見かけたので複雑。。
【追記】
調整がなされ、若干似ない形になった。うーん…
言いたいことはわかる、1+1=レベルの初歩的な内容ですら彼らは間違えることはある
ただ、AI分野では(人間と逆で)抽象的思考よりも直接的な問題の方が難易度が高いって発見もある
生物にとって必要な身体動作や、シンプルな思考の方に人間の脳は発達しているからとされてる
なので「最終的に」それらの問題を間違えなくなれば、そしてプラグインやファインチューニングで専門性を付与すれば、
どれほど遠回りでも解決自体は同様に可能なんじゃないか? と思ってる
まぁ、膨大な計算量・学習量を確保すれば規模だけでも力押しで解決可能なのがスケーリング則だから、人類の全情報量を学習し切ったらどうなるかとかあるし、
ネットでスクレイピングしてきたデータを単純に学習させればAIは賢くなって良い感じの出力出してくれるんでしょ?
と思っていたのだけど、どうも調べていると違っている。
例えば絵描きAIのStableDiffusionで、追加学習させるLoRAがあるが、
顔を中心に切り抜きをする、背景を切り抜くといった手作業が必要となっている。
また画像に偏りがあると、それに引きずられる。
キャラクターだと、同一キャラクターを色んな角度から描いた複数枚の画像が必要になるが、
ある角度ばかり多いとそれに引きずられるといった感じだ。
写真だと、オブジェクト検出くらいだと、人や建物くらいの大雑把なカテゴリー検出では既に駄目で、
髪型の名前や、ファッションの名前など、タグ付けするのに知識の限界を感じる。
(ググれバカ、ChatGPTに聞けばいいという人は是非とも網羅的にタグ付けしたデータセットを出して人類に貢献して欲しい)
そして、ネットにはそれほど高品質なデータは、案外ないのではないか。
フォトリアルな人物写真を出したいとした場合、光をどのように当てるのかという知識は、普通の人には無い。
ストロボ直射、MoLAのようなオパライトなのか、白ホリで2,3mのディフューザーで撮ったのか、画像の範囲外のものから推測しないといけない。
ChatGPTの質疑応答が凄いというので、オープンなモデルも出てきているが、
ファインチューニングするのに、質問と回答をセットにしたデータセットを作らないといけないというのを見た。
単純にドキュメント食わせれば、良い感じに質問答えてくれるようになるんじゃないの?
と思ってたら違ってたわけだ。
DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、
学習させたい画像とキャプションを食われば良いってのはわかる。
新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、
形状なり色が違うだけだから、それに差し替えるって感じだと理解している。
わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。
現状の生成系のソフトウェアの仕組みと限界を理解している者であっても、これら生成AIがもたらす利害の見積が全然合わないのなんでだろう?と思っていた。その原因の一つが何となくわかった。
かつてOSSがソフトウェアの進化を加速させたように、アートにおいても技術の共有が進化を促すという展望を持てるかどうかだ。
OSSが流行っても先進的なソフトウェアを書ける人や、プログラムを自分で書き始める人が絶えることはなかった。一部のAI開発者たちは同じことがアートの分野でも起きると信頼している。
先進的アーティストは生成AIの進歩に必要な作品(生成AIがまだ知らない芸術)を開発し続け、生成AIはそれを強制的にOSSとして取り込み、取り込んだ生成AIをベースにまた新たなアートが生まれる。
本当にそんな事が起きるだろうか?
俺はそれを信じることができない。特にファインアートの分野において。
生成AIで時代の最先端に追いつけるのに、生成AI+1を作る技術を磨く人は現れるだろうか。プログラマーがプログラムの書き方を学ぶことは収入を得る手段を学ぶことでもあったが、生成AIの場合はAIを使う技術と+1を目指す技術はかなりジャンルが違う。+1を目指す行為は道楽となり、進化が減速するのではないか。
また生成AIで作れるものに、人々は価値を感じるのであろうか。プログラムは生産性を上げるための手段であり、コピーされれば世の仕事が減るという価値を自ら持っていた。アートにその機能は無い。アートの価値は鑑賞者に与える感情などの情報にあり、その面ではむしろ「誰でもは作れない」ことは有利に働いた。ありふれたものに感情的な価値を人は感じられず、時代遅れのものとして忘れ去られるのではないか。
あとはまあ、一つ目と若干被るのだがアートが基本的に衆目に公開されるものである以上、AIが生まれた現代以降のアートは目に見える部分の技術すべてをAIに学習される。そのような環境でOSSのような良いサイクルが起きるかは激しく疑問。それができるならすべてのソフトウェアのプログラムは公開されるべきだが、事実そうなっていないし。