はてなキーワード: ファインとは
正確にはLoRAモデルじゃないけど。
星クズの夜さん( https://twitter.com/hoshikuzu_yoru )の絵でファインチューニングしたであろうモデルを見かけた。
https://huggingface.co/chenxluo/QteaMix
https://civitai.com/models/50696/qteamix-q
https://pixai.art/model/1625831821812984094
ちちぷいやAIピクターズみたいな感じのサイトって海外にもあるのかしらと調べて、
PixAIというサイトがあるのかとなって回っていると、たまたま知ってる人のを見かけたので複雑。。
【追記】
調整がなされ、若干似ない形になった。うーん…
言いたいことはわかる、1+1=レベルの初歩的な内容ですら彼らは間違えることはある
ただ、AI分野では(人間と逆で)抽象的思考よりも直接的な問題の方が難易度が高いって発見もある
生物にとって必要な身体動作や、シンプルな思考の方に人間の脳は発達しているからとされてる
なので「最終的に」それらの問題を間違えなくなれば、そしてプラグインやファインチューニングで専門性を付与すれば、
どれほど遠回りでも解決自体は同様に可能なんじゃないか? と思ってる
まぁ、膨大な計算量・学習量を確保すれば規模だけでも力押しで解決可能なのがスケーリング則だから、人類の全情報量を学習し切ったらどうなるかとかあるし、
ネットでスクレイピングしてきたデータを単純に学習させればAIは賢くなって良い感じの出力出してくれるんでしょ?
と思っていたのだけど、どうも調べていると違っている。
例えば絵描きAIのStableDiffusionで、追加学習させるLoRAがあるが、
顔を中心に切り抜きをする、背景を切り抜くといった手作業が必要となっている。
また画像に偏りがあると、それに引きずられる。
キャラクターだと、同一キャラクターを色んな角度から描いた複数枚の画像が必要になるが、
ある角度ばかり多いとそれに引きずられるといった感じだ。
写真だと、オブジェクト検出くらいだと、人や建物くらいの大雑把なカテゴリー検出では既に駄目で、
髪型の名前や、ファッションの名前など、タグ付けするのに知識の限界を感じる。
(ググれバカ、ChatGPTに聞けばいいという人は是非とも網羅的にタグ付けしたデータセットを出して人類に貢献して欲しい)
そして、ネットにはそれほど高品質なデータは、案外ないのではないか。
フォトリアルな人物写真を出したいとした場合、光をどのように当てるのかという知識は、普通の人には無い。
ストロボ直射、MoLAのようなオパライトなのか、白ホリで2,3mのディフューザーで撮ったのか、画像の範囲外のものから推測しないといけない。
ChatGPTの質疑応答が凄いというので、オープンなモデルも出てきているが、
ファインチューニングするのに、質問と回答をセットにしたデータセットを作らないといけないというのを見た。
単純にドキュメント食わせれば、良い感じに質問答えてくれるようになるんじゃないの?
と思ってたら違ってたわけだ。
DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、
学習させたい画像とキャプションを食われば良いってのはわかる。
新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、
形状なり色が違うだけだから、それに差し替えるって感じだと理解している。
わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。
現状の生成系のソフトウェアの仕組みと限界を理解している者であっても、これら生成AIがもたらす利害の見積が全然合わないのなんでだろう?と思っていた。その原因の一つが何となくわかった。
かつてOSSがソフトウェアの進化を加速させたように、アートにおいても技術の共有が進化を促すという展望を持てるかどうかだ。
OSSが流行っても先進的なソフトウェアを書ける人や、プログラムを自分で書き始める人が絶えることはなかった。一部のAI開発者たちは同じことがアートの分野でも起きると信頼している。
先進的アーティストは生成AIの進歩に必要な作品(生成AIがまだ知らない芸術)を開発し続け、生成AIはそれを強制的にOSSとして取り込み、取り込んだ生成AIをベースにまた新たなアートが生まれる。
本当にそんな事が起きるだろうか?
俺はそれを信じることができない。特にファインアートの分野において。
生成AIで時代の最先端に追いつけるのに、生成AI+1を作る技術を磨く人は現れるだろうか。プログラマーがプログラムの書き方を学ぶことは収入を得る手段を学ぶことでもあったが、生成AIの場合はAIを使う技術と+1を目指す技術はかなりジャンルが違う。+1を目指す行為は道楽となり、進化が減速するのではないか。
また生成AIで作れるものに、人々は価値を感じるのであろうか。プログラムは生産性を上げるための手段であり、コピーされれば世の仕事が減るという価値を自ら持っていた。アートにその機能は無い。アートの価値は鑑賞者に与える感情などの情報にあり、その面ではむしろ「誰でもは作れない」ことは有利に働いた。ありふれたものに感情的な価値を人は感じられず、時代遅れのものとして忘れ去られるのではないか。
あとはまあ、一つ目と若干被るのだがアートが基本的に衆目に公開されるものである以上、AIが生まれた現代以降のアートは目に見える部分の技術すべてをAIに学習される。そのような環境でOSSのような良いサイクルが起きるかは激しく疑問。それができるならすべてのソフトウェアのプログラムは公開されるべきだが、事実そうなっていないし。
「誇大広告と現実の違いを理解する必要がある」これはAIにしろ量子コンピュータにしろ言えることだ。
ロケットに関しても、火星に移住するようなレベルに達するのかというと、それよりも地球上で様々な問題が顕在化するのが先だろう。
AGIについては、誰もその方法を知らないと言える。ここ10年で起こったことを踏まえたら、それはヒントにはなるだろうが、その多くは非常に単純な技術である。
2030年にAGIが誕生する可能性はどのぐらいあるのか。50%でも希望的観測だと考えている。
ディープフェイク、チャットボット、音声合成、画像生成など色々あるように思うが、本質は「transformerにポン」だ。進歩しているのは莫大な計算資源を扱う人間のスキルであり、数学的な進歩はそれほどあったとは思わない。
「シンギュラリティ!」と発狂しながら言っている他界系は沢山いるが、「特定の能力を持ったAIを仕事に配備して何でも自動化する」ということが可能になる範囲には確かに興味がある。
例えば「新しい漫画を作りたい、そのために必要なリソースを設定してアウトプットを出してくれ。ストーリーは大体こんな感じだ」とAIに命令する。「リソースの見積もりができました。それを実行するためには500ドル必要です。支払いますか」「はい。支払います。ポチ」「しばらくお待ちください...出力がダウンロードできます」みたいなものだ。
現在のアレクサやらSiriやらは全然ダメで、特殊化されすぎているし、仕様もなんとなく投げやりである。この方向ではAGIにはなりそうもない。「人の声」なんてインターフェイス部分は本質ではない。
GPTなどの巨大言語モデルは、学習後のパラメータが巨大ではあるものの、ソースコードはとても単純で短い。
つまり今後進歩が望めるとすれば、一つはハードウェア的な進歩であり、1)ハードウェアの能力, 2)ハードウェアの価格, 3)ハードウェアが誰でも使いやすくなる、といった方向だろう。
AIの最先端企業で働く連中は「集団思考」に陥っており、それを避けるために独立して研究開発する人々もいる。投資先としての魅力があるかはわからないが、一つは潤沢にハードウェアを使えるかどうかが鍵だろう。
しかしダメな投資先とは、「OpenAIのAPIを使ってちょっぴりファインチューニングして画像生成とテキスト生成をしました」というタイプの連中だ。これは一時的な炎上で資金は貰えるかもしれないが、優位性がすぐに失われる。
前回紹介したAnythingv3を投稿者が削除したり関係の無い第三者がAnythingv4や4.5を勝手にリリースしたり…(しかもマージモデルだとか)
増田も追いかけきれていないが追いかけてるぶんは自分のためにここでまとめておく。
NAIリークモデルやAnythingv3に関しては前回を参照。
Instagramで投稿されている画像を学習させたモデルの総称。
実在の人物画像を学習しているため人物の体型をより正確に描画させることができる。
cafe-instagramやzeipher-f222など複数存在し、Basil_Mixのようなアジア人に特化したものも存在する。
U-NETの階層ごとにマージを行う階層マージというマージ手法が考案されたからだ。
これにより実写モデルをベースに見た目をアニメ風にマージするという方法が採れるようになった。
5chなんU(なんJもしくはなんGのパートスレ向けの板でVIPに対するパー速のような板)の住民が作成した階層マージモデル。
現在はBasil_MixとAnythingv3を階層マージしている。
このモデルには派生版があり、nsfw版やhard版は上記マージモデル(通称base)にNAIリークモデルやGape60を混ぜたものらしい。
Gapeについては前回の記事を参照。
NAIのように長いネガティブプロンプトを設定しなくても綺麗な絵を出すことができる。
リアルよりになったAbyssOrangeMixを漫画アニメ向けにファインチューンしたモデル。
Abyss→深界七層(メイドインアビス)→7th_layerということらしい。
アニメ寄りなA、漫画寄りなB、より漫画寄りで破綻しやすいCの三種類がある。
Anything系のような中華で好まれる独特の厚塗りではなく比較的パキっとした塗りの絵が出るので個人的には一番好き。
他にもいろんなマージモデルがあるが、だいたいがNAIリークモデルやAnythingv3と実写系モデルを混ぜたりそれにファインチューンをかけたりしたモデルだ。
Anythingv3もNAIリークモデルがベースだからなんだかんだいってNovelAIが作ったモデルはまさに特異点的な存在なのだろう。
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuningの略で、
Dreamboothの簡易版のようなものとされているが実はDBとは似て非なる技術らしい。
DBよりも短い時間かつ省メモリの環境で学習が可能で、生成されるファイルも30~200MB程度とHypernetworkとそこまで変わらず一定以上のクォリティで追加学習を行えるようになった。
何よりもVRAMが8GB程度のグラボでも学習できるようになったのが大きい。
特定の作者の画像を学習させることでその画風を再現するためのLoRA。
従来はHypernetworkで行っていた。
特定のものやこと(例:ふたなり)を学習させるためのLoRA。
NovelAIやその派生モデルでは困難だった種付けプレスや断面図などの構図の再現が可能となった。
従来は主にDBで行っておりモデルの配布に苦労していたがLoRAによって配布が非常に楽になった。
「士郎正宗風の絵柄でふたなりのナンジャモ」という画像を生成することもできる。
またLoRAはHypernetworkのようにモデルを選ばないが、NAIリークモデルを学習のベースにすると破綻しづらいらしい。
というか今流行っているモデルはほぼNAIリークモデルの血筋が入っているので馴染みやすいんだろう。
同社が運営しているHuggingFace HUBはユーザ登録すれば無料で無限にAI学習モデル(1ファイル2GB~7GB)をアップロードできる上回線も異常に高速であるため重宝されている。
モデルマージなどでストレージが圧迫されているローカル民にとっては救世主のような存在。
資金源は謎だが、2022年の5月に2億ドル調達しているのでストレージを無尽蔵に増やせるらしい。知らんけど。
HuggingFaceが考案したモデルファイルのファイル形式。
実行コードを含んでいることもあり従来のckptモデルはしょっちゅうトロイの誤検出が起きていたが、
SAFETENSOR形式のモデルは実行コードを含まないため安全であるとされる。
シェアウェア(という表現はおいておいてのやつ。https://anond.hatelabo.jp/20230124045812)の記事が面白かったので、自分の得意分野の領域でいろいろ紹介します。
基本的に、SaaSのサービスは便利だけど、あれもこれもと契約していったらサブスク破産するので、
もともとownCloudっていうDropbox代替があったんだけど、そこから分派して今も機能開発が続いている。
興味深いのはLAMP構成なので、VPSや自宅サーバーじゃなくても、レンサバで動くのがいいよね。
データ保存領域はオブジェクトストレージ(S3互換)も利用できるので、例えばWasabiなんかと契約してお安く済ませてしまうのも全然アリかと。
最近はカンバンシステムって、単体で使うんじゃなくていろんなアプリの中で使われる印象なので、今更Trelloだけ使いたい、なんてニーズはないかもだけど、
そこまで複雑でなく小規模なプロジェクトとかだと、意外とTrelloだけでいいよね、みたいなこともあるかな。
そういう時は、これを使うといいかも。
ちょっとUIの雰囲気が違うだけで、まんまSlackです。絵文字の追加もできるし、APIもあるし。人によって好き嫌い分かれるスレッド機能も、まあ、あのスレッド機能のまま。
n8nと書いてnodemationと読ませるらしい。初見殺しすぎんだろ。
ZapierやIFTTT、無料枠あるけど、あれもこれもやり出すとすぐ無料枠埋まっちゃうので、これ結構いいと思うんだけどな。
kintone使ってる会社増えてると思うんだけど、まだまだ1ユーザー1500円ってのは高いので、零細企業は導入し辛いと思う。
で、それの代替になるのがExment。UIがkintoneとは少し違うので代替と言い切れないかもしれないが、
やれることはkintoneのソレと全く同じなので、用途代替はできる。
開発も日本企業なので、UIも日本語化されている。LAMP構成なので、レンサバでも動くよ!
そもそもAirtableって何やねんって人もいるかもしれないけど、kintoneとGoogleスプレッドシートをいいとこ取りして、Trelloとガントチャートを足した感じ。
これもまあまあいい感じでZoom再現してます。Zoomの方が新機能の追加早いけど、Jitsiも頑張って追いついている感じです。
ただ、やる内容が複数人でのリアルタイム動画配信なので、サーバースペック・回線スペックはまあまあ必要なので要注意。
こちらは使ったことないんだけど、よりオンライン授業向けらしい。
最近よく見かけるようになった、オンラインミーティングとかの予定をブッキングさせるSaaS。
あれのはしりがCalendlyで、日本でもいくつかそれのSaaSができてますね。
あれらも無料枠だと1カレンダーだけしかできなかったりするんだけど、これなら好きなだけブッキングさせられます。
ECサイトとか、Webマーケティングを重視してるサイトによくある、画面右下に吹き出しアイコンがあって、チャットウインドウがぴょこっと出てくるやつ。
日本ではWeb接客とか言われてるけど、あれの代表的なSaaSがIntercom。Zendeskは、どちらかというと内部ツール向きかな。
これのOSS版がChatwootとPapercups。自社サイトにWeb接客入れたいけど、費用抑えたい、って時にどうぞ。
この手のツールがないと仕事にならないという人も多いと思います。
これまでだとRedmineがそれのOSS版的立ち位置でしたが、さすがにイマドキあのUIはないなぁ、と。
OpenProjectは、Microsoft Projectの代替をイメージしてるみたいですが、
ガントチャートにカンバンがデフォルトで使えるので、BacklogやAsanaの代替にはちょうど良いでしょう。
ただ、そんな高度なことしてるわけではないのに、サーバーの要求スペックはちょっと高めなのでご注意を。
UA廃止でGA離れが始まってるとも聞きますが、疎開先として有名。
PHPで動くので、PHPやWordPressでできたサイトに一緒に入れちゃってもいいと思う。
HeadlessCMSは、データ表示を持たず、フロントエンドへAPIを通じてデータを渡すタイプのCMSのこと。
このジャンルでは、SaaSだとContentfulが有名だけど、OSSでもいろいろある。
Node.js製。歴史があるので、結構いろんなことができる。
WordPressのGutenbergエディターを取り込んだプラグインなんかもある。
User認証も持ってるので、CGM的なサイトを作ろうと思ったらできなくもない。
これもNode.js製。利用できるDBが幅広く、既存のデータベースも活用できる。
なので、既にPostgresSQLとかでデータを持ってるんだけど、
非エンジニアにもデータを触らせるためのフロントエンドが欲しい、ってニーズに良いかも。
PHP製。SQLiteとMongoDBで利用可能。MySQL/PostgreSQL使えないのがちょっと残念。
近年、本腰入れて自社ECサイトをやろうと思うと必ず選択肢に上がるShopify。
インテグレートパートナー向けのエコシステムも充実してるので、取り組み始めるエンジニアやシステム会社も多い。
ヘッドレスコマースや越境ECには向いているものの、これをセルフホストしたい、というニーズに応えたのがmedusa.js。
ざっと見てみただけだけど、モダンな構成で、今時のフロントとバックエンドを分けた構成でやりたい、というのには向いている。
プラグインにmedusa-marketplace.jsというのもあり、Amazon的なマーケットプレイスも実現可能。
昨年、Adobeに買収され、デザイナーたちを驚愕させたFigma。
先日はAdobe XDが終了のお知らせとなり、UIデザイナーたちの不安は募るばかり。
そんな提供企業に振り回されたくないなら、このPenpotでUIデザインしよう。
Figmaほど機能実装はされていないが、まあまあ一通りのことはできる。
Figma代が嵩むとお嘆きの制作会社なんかは、一考の余地あるんじゃなかろうか。
企業によっては、コンタクトフォームをたくさん作りたいという会社もある。
人材採用のフォームを職種別に細かく分けたい(しかも頻繁に募集職種が変わるとか)
Google Formで大体解決しそうだけど、それをGoogleに頼りたくないならこちら。
まあまあ機能豊富なので、人によってはGoogleFormよりもこちらを好むかも。
DockerベースのWebメールUI。送受信に必要なものを、丸っとDockerで用意してくれているので便利。
HubSpotは、いわゆるMarketing AutomationとCRMを一体にしたツール。無料枠もあるが、かなり限定されている。
MauticはMarketing Automationよりの機能が多く、ユーザーのサイト上での回遊をビジュアル化してくれたりする。
SuiteCRMはザ・CRMという感じ。SalesForceをデフォルトで使う感じに近い。
ツールが分かれてしまうのは辛いところだけど、それぞれにAPIがあるので、うまく繋げられると強力なツールになってくれるはず。
Webサービス作ってると、メールの通知や一斉配信などがあると思う。
通常これらはSendGridや、AWS SESなどで処理すると思うが、これらにもOSS代替がある。
PostalはDockerでメール周りのもの全部用意してくれているので、かなり楽。
WordPressをモダンにしたような感じで、EC機能もデフォルトでついてる。マルチサイトも標準。
Jimdo/Wix代替と書いたが、もちろん自分のサイトをMicroweberで作ってもいいが、
自前ホスティングして、JimdoやWixのようなサービスを始めることもできる。
テンプレートをいくつか作っておいて、Stripeを仕込んでおけば、今日からあなたもJimdo/Wixのような事業を始められるわけだ。
JImdo/WixとSTUDIO/Webflowは一緒くたに語られがちだが、明確な違いがある。
前者はプリディファインドなブロックをGUIで構成するのに対し、後者はDOM要素ベースで構築していく。
つまりよりHTML/CSSによる細かなデザインコントロールがしやすく、Webデザイナーが親しみやすい。
それのOSS版がWebstudio。まだアルファ版だが、フロントエンドはそれなりによくできているので、
バックエンドを自前で用意してStripeを仕込んでおけば、今日からあなたも(以下略
Facebookなんか使わねーよ、っていう人も多いかもしれないが、
特定のコミュニティの中でコミュニケーション取るには、FacebookのUIと機能は優れていると思う。
なので、サークルとか同窓会、あと自治会とかPTAなんかにもいいんじゃないだろうか。
Netflixの代替って、Amazon Primeとかじゃねーの、と思われるのかもしれないが、そうではなくて、
あなたがNetflixみたいな商売したいならこれを使うといいよ、というのがJellyfin。
いや、そんな商売しないよ、と思うかもしれないが、
使いようによっては、おじいちゃんおばあちゃん向けの子供動画配信サービスとして構築するとか、
Stripeと連携して、劇団やバンドのオリジナルの配信サイトを構築するなんかも面白いと思う。
今更誰もYouTubeやVimeoの後追いをしようとはしないでしょうが、
複数のユーザーから動画のアップを受け付けて、それを閲覧したい用途もあると思う。
例えば、軽音部で複数のバンドが練習風景を録画したのを定期的にアップしたりとか。
学習塾で、授業の録画を授業ごとにアップしていったりとか。
ZoomやGoogle Meetのような双方向ではなく、一対多の一方通行配信。
個人的には、企業のウェビナーツールとしての可能性を感じる。(Zoomのウェビナープランとか高いもん)
1つのメールアドレスを複数人で運用したい時のツールがメールワイズとRe:lationどちらも日本のSaaS。
FreeScoutはOSSだけど、海外製。一応日本語化もされてるっぽい。
ECサイトの顧客問い合わせや、営業チームのプライマリー対応なんかに良いと思う。
Bubbleってなんぞ? という人のためにお伝えしておくと、ノーコードベースのWebアプリ開発ツール。
データエンティティを設計したら、自動的にCRUDを作ってくれて、フォームを配置するというような感じ。
Bubbleはそれ系の老舗で、歴史が長い分ノウハウも溜まっており、連携できるサービスも多い。
ただ、ベンダーロックインされるし、季節的なキャンペーンとかでは、アプリを使用しない期間もサブスク費用がかかる。
Budibaseは、Bubbleの思想に一番近い感じ。凝ったUIが必要なければ、ざっくりコレでなんでも作れちゃう。
AppSmithも同じような感じだが、これはDBをあらかじめスキーマ定義しておかないといけないところが若干不便かな。
ToolJetはルーティングURLの概念がなく、本格使用を諦めたんだけど、最近アップデートしたらしいので、そこのところどうなってるかまた確認しときたい。
他にもこの手のやつあったら、いろいろ教えて欲しい。単純に好きなので。