はてなキーワード: ファインとは
正確にはLoRAモデルじゃないけど。
星クズの夜さん( https://twitter.com/hoshikuzu_yoru )の絵でファインチューニングしたであろうモデルを見かけた。
https://huggingface.co/chenxluo/QteaMix
https://civitai.com/models/50696/qteamix-q
https://pixai.art/model/1625831821812984094
ちちぷいやAIピクターズみたいな感じのサイトって海外にもあるのかしらと調べて、
PixAIというサイトがあるのかとなって回っていると、たまたま知ってる人のを見かけたので複雑。。
【追記】
調整がなされ、若干似ない形になった。うーん…
言いたいことはわかる、1+1=レベルの初歩的な内容ですら彼らは間違えることはある
ただ、AI分野では(人間と逆で)抽象的思考よりも直接的な問題の方が難易度が高いって発見もある
生物にとって必要な身体動作や、シンプルな思考の方に人間の脳は発達しているからとされてる
なので「最終的に」それらの問題を間違えなくなれば、そしてプラグインやファインチューニングで専門性を付与すれば、
どれほど遠回りでも解決自体は同様に可能なんじゃないか? と思ってる
まぁ、膨大な計算量・学習量を確保すれば規模だけでも力押しで解決可能なのがスケーリング則だから、人類の全情報量を学習し切ったらどうなるかとかあるし、
ネットでスクレイピングしてきたデータを単純に学習させればAIは賢くなって良い感じの出力出してくれるんでしょ?
と思っていたのだけど、どうも調べていると違っている。
例えば絵描きAIのStableDiffusionで、追加学習させるLoRAがあるが、
顔を中心に切り抜きをする、背景を切り抜くといった手作業が必要となっている。
また画像に偏りがあると、それに引きずられる。
キャラクターだと、同一キャラクターを色んな角度から描いた複数枚の画像が必要になるが、
ある角度ばかり多いとそれに引きずられるといった感じだ。
写真だと、オブジェクト検出くらいだと、人や建物くらいの大雑把なカテゴリー検出では既に駄目で、
髪型の名前や、ファッションの名前など、タグ付けするのに知識の限界を感じる。
(ググれバカ、ChatGPTに聞けばいいという人は是非とも網羅的にタグ付けしたデータセットを出して人類に貢献して欲しい)
そして、ネットにはそれほど高品質なデータは、案外ないのではないか。
フォトリアルな人物写真を出したいとした場合、光をどのように当てるのかという知識は、普通の人には無い。
ストロボ直射、MoLAのようなオパライトなのか、白ホリで2,3mのディフューザーで撮ったのか、画像の範囲外のものから推測しないといけない。
ChatGPTの質疑応答が凄いというので、オープンなモデルも出てきているが、
ファインチューニングするのに、質問と回答をセットにしたデータセットを作らないといけないというのを見た。
単純にドキュメント食わせれば、良い感じに質問答えてくれるようになるんじゃないの?
と思ってたら違ってたわけだ。
DreamBoothでファインチューニングする時は、既に学習しているモデルが認識しているので、
学習させたい画像とキャプションを食われば良いってのはわかる。
新しいキャラクターを学習させる場合でも、もう殆どのパーツは既にモデルが認識していて、
形状なり色が違うだけだから、それに差し替えるって感じだと理解している。
わからないのは、まっさらなモデルの場合、512x512pixのうち、単語がどの場所を指しているかわからないと思うんだよな。
現状の生成系のソフトウェアの仕組みと限界を理解している者であっても、これら生成AIがもたらす利害の見積が全然合わないのなんでだろう?と思っていた。その原因の一つが何となくわかった。
かつてOSSがソフトウェアの進化を加速させたように、アートにおいても技術の共有が進化を促すという展望を持てるかどうかだ。
OSSが流行っても先進的なソフトウェアを書ける人や、プログラムを自分で書き始める人が絶えることはなかった。一部のAI開発者たちは同じことがアートの分野でも起きると信頼している。
先進的アーティストは生成AIの進歩に必要な作品(生成AIがまだ知らない芸術)を開発し続け、生成AIはそれを強制的にOSSとして取り込み、取り込んだ生成AIをベースにまた新たなアートが生まれる。
本当にそんな事が起きるだろうか?
俺はそれを信じることができない。特にファインアートの分野において。
生成AIで時代の最先端に追いつけるのに、生成AI+1を作る技術を磨く人は現れるだろうか。プログラマーがプログラムの書き方を学ぶことは収入を得る手段を学ぶことでもあったが、生成AIの場合はAIを使う技術と+1を目指す技術はかなりジャンルが違う。+1を目指す行為は道楽となり、進化が減速するのではないか。
また生成AIで作れるものに、人々は価値を感じるのであろうか。プログラムは生産性を上げるための手段であり、コピーされれば世の仕事が減るという価値を自ら持っていた。アートにその機能は無い。アートの価値は鑑賞者に与える感情などの情報にあり、その面ではむしろ「誰でもは作れない」ことは有利に働いた。ありふれたものに感情的な価値を人は感じられず、時代遅れのものとして忘れ去られるのではないか。
あとはまあ、一つ目と若干被るのだがアートが基本的に衆目に公開されるものである以上、AIが生まれた現代以降のアートは目に見える部分の技術すべてをAIに学習される。そのような環境でOSSのような良いサイクルが起きるかは激しく疑問。それができるならすべてのソフトウェアのプログラムは公開されるべきだが、事実そうなっていないし。
「誇大広告と現実の違いを理解する必要がある」これはAIにしろ量子コンピュータにしろ言えることだ。
ロケットに関しても、火星に移住するようなレベルに達するのかというと、それよりも地球上で様々な問題が顕在化するのが先だろう。
AGIについては、誰もその方法を知らないと言える。ここ10年で起こったことを踏まえたら、それはヒントにはなるだろうが、その多くは非常に単純な技術である。
2030年にAGIが誕生する可能性はどのぐらいあるのか。50%でも希望的観測だと考えている。
ディープフェイク、チャットボット、音声合成、画像生成など色々あるように思うが、本質は「transformerにポン」だ。進歩しているのは莫大な計算資源を扱う人間のスキルであり、数学的な進歩はそれほどあったとは思わない。
「シンギュラリティ!」と発狂しながら言っている他界系は沢山いるが、「特定の能力を持ったAIを仕事に配備して何でも自動化する」ということが可能になる範囲には確かに興味がある。
例えば「新しい漫画を作りたい、そのために必要なリソースを設定してアウトプットを出してくれ。ストーリーは大体こんな感じだ」とAIに命令する。「リソースの見積もりができました。それを実行するためには500ドル必要です。支払いますか」「はい。支払います。ポチ」「しばらくお待ちください...出力がダウンロードできます」みたいなものだ。
現在のアレクサやらSiriやらは全然ダメで、特殊化されすぎているし、仕様もなんとなく投げやりである。この方向ではAGIにはなりそうもない。「人の声」なんてインターフェイス部分は本質ではない。
GPTなどの巨大言語モデルは、学習後のパラメータが巨大ではあるものの、ソースコードはとても単純で短い。
つまり今後進歩が望めるとすれば、一つはハードウェア的な進歩であり、1)ハードウェアの能力, 2)ハードウェアの価格, 3)ハードウェアが誰でも使いやすくなる、といった方向だろう。
AIの最先端企業で働く連中は「集団思考」に陥っており、それを避けるために独立して研究開発する人々もいる。投資先としての魅力があるかはわからないが、一つは潤沢にハードウェアを使えるかどうかが鍵だろう。
しかしダメな投資先とは、「OpenAIのAPIを使ってちょっぴりファインチューニングして画像生成とテキスト生成をしました」というタイプの連中だ。これは一時的な炎上で資金は貰えるかもしれないが、優位性がすぐに失われる。
前回紹介したAnythingv3を投稿者が削除したり関係の無い第三者がAnythingv4や4.5を勝手にリリースしたり…(しかもマージモデルだとか)
増田も追いかけきれていないが追いかけてるぶんは自分のためにここでまとめておく。
NAIリークモデルやAnythingv3に関しては前回を参照。
Instagramで投稿されている画像を学習させたモデルの総称。
実在の人物画像を学習しているため人物の体型をより正確に描画させることができる。
cafe-instagramやzeipher-f222など複数存在し、Basil_Mixのようなアジア人に特化したものも存在する。
U-NETの階層ごとにマージを行う階層マージというマージ手法が考案されたからだ。
これにより実写モデルをベースに見た目をアニメ風にマージするという方法が採れるようになった。
5chなんU(なんJもしくはなんGのパートスレ向けの板でVIPに対するパー速のような板)の住民が作成した階層マージモデル。
現在はBasil_MixとAnythingv3を階層マージしている。
このモデルには派生版があり、nsfw版やhard版は上記マージモデル(通称base)にNAIリークモデルやGape60を混ぜたものらしい。
Gapeについては前回の記事を参照。
NAIのように長いネガティブプロンプトを設定しなくても綺麗な絵を出すことができる。
リアルよりになったAbyssOrangeMixを漫画アニメ向けにファインチューンしたモデル。
Abyss→深界七層(メイドインアビス)→7th_layerということらしい。
アニメ寄りなA、漫画寄りなB、より漫画寄りで破綻しやすいCの三種類がある。
Anything系のような中華で好まれる独特の厚塗りではなく比較的パキっとした塗りの絵が出るので個人的には一番好き。
他にもいろんなマージモデルがあるが、だいたいがNAIリークモデルやAnythingv3と実写系モデルを混ぜたりそれにファインチューンをかけたりしたモデルだ。
Anythingv3もNAIリークモデルがベースだからなんだかんだいってNovelAIが作ったモデルはまさに特異点的な存在なのだろう。
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuningの略で、
Dreamboothの簡易版のようなものとされているが実はDBとは似て非なる技術らしい。
DBよりも短い時間かつ省メモリの環境で学習が可能で、生成されるファイルも30~200MB程度とHypernetworkとそこまで変わらず一定以上のクォリティで追加学習を行えるようになった。
何よりもVRAMが8GB程度のグラボでも学習できるようになったのが大きい。
特定の作者の画像を学習させることでその画風を再現するためのLoRA。
従来はHypernetworkで行っていた。
特定のものやこと(例:ふたなり)を学習させるためのLoRA。
NovelAIやその派生モデルでは困難だった種付けプレスや断面図などの構図の再現が可能となった。
従来は主にDBで行っておりモデルの配布に苦労していたがLoRAによって配布が非常に楽になった。
「士郎正宗風の絵柄でふたなりのナンジャモ」という画像を生成することもできる。
またLoRAはHypernetworkのようにモデルを選ばないが、NAIリークモデルを学習のベースにすると破綻しづらいらしい。
というか今流行っているモデルはほぼNAIリークモデルの血筋が入っているので馴染みやすいんだろう。
同社が運営しているHuggingFace HUBはユーザ登録すれば無料で無限にAI学習モデル(1ファイル2GB~7GB)をアップロードできる上回線も異常に高速であるため重宝されている。
モデルマージなどでストレージが圧迫されているローカル民にとっては救世主のような存在。
資金源は謎だが、2022年の5月に2億ドル調達しているのでストレージを無尽蔵に増やせるらしい。知らんけど。
HuggingFaceが考案したモデルファイルのファイル形式。
実行コードを含んでいることもあり従来のckptモデルはしょっちゅうトロイの誤検出が起きていたが、
SAFETENSOR形式のモデルは実行コードを含まないため安全であるとされる。
シェアウェア(という表現はおいておいてのやつ。https://anond.hatelabo.jp/20230124045812)の記事が面白かったので、自分の得意分野の領域でいろいろ紹介します。
基本的に、SaaSのサービスは便利だけど、あれもこれもと契約していったらサブスク破産するので、
もともとownCloudっていうDropbox代替があったんだけど、そこから分派して今も機能開発が続いている。
興味深いのはLAMP構成なので、VPSや自宅サーバーじゃなくても、レンサバで動くのがいいよね。
データ保存領域はオブジェクトストレージ(S3互換)も利用できるので、例えばWasabiなんかと契約してお安く済ませてしまうのも全然アリかと。
最近はカンバンシステムって、単体で使うんじゃなくていろんなアプリの中で使われる印象なので、今更Trelloだけ使いたい、なんてニーズはないかもだけど、
そこまで複雑でなく小規模なプロジェクトとかだと、意外とTrelloだけでいいよね、みたいなこともあるかな。
そういう時は、これを使うといいかも。
ちょっとUIの雰囲気が違うだけで、まんまSlackです。絵文字の追加もできるし、APIもあるし。人によって好き嫌い分かれるスレッド機能も、まあ、あのスレッド機能のまま。
n8nと書いてnodemationと読ませるらしい。初見殺しすぎんだろ。
ZapierやIFTTT、無料枠あるけど、あれもこれもやり出すとすぐ無料枠埋まっちゃうので、これ結構いいと思うんだけどな。
kintone使ってる会社増えてると思うんだけど、まだまだ1ユーザー1500円ってのは高いので、零細企業は導入し辛いと思う。
で、それの代替になるのがExment。UIがkintoneとは少し違うので代替と言い切れないかもしれないが、
やれることはkintoneのソレと全く同じなので、用途代替はできる。
開発も日本企業なので、UIも日本語化されている。LAMP構成なので、レンサバでも動くよ!
そもそもAirtableって何やねんって人もいるかもしれないけど、kintoneとGoogleスプレッドシートをいいとこ取りして、Trelloとガントチャートを足した感じ。
これもまあまあいい感じでZoom再現してます。Zoomの方が新機能の追加早いけど、Jitsiも頑張って追いついている感じです。
ただ、やる内容が複数人でのリアルタイム動画配信なので、サーバースペック・回線スペックはまあまあ必要なので要注意。
こちらは使ったことないんだけど、よりオンライン授業向けらしい。
最近よく見かけるようになった、オンラインミーティングとかの予定をブッキングさせるSaaS。
あれのはしりがCalendlyで、日本でもいくつかそれのSaaSができてますね。
あれらも無料枠だと1カレンダーだけしかできなかったりするんだけど、これなら好きなだけブッキングさせられます。
ECサイトとか、Webマーケティングを重視してるサイトによくある、画面右下に吹き出しアイコンがあって、チャットウインドウがぴょこっと出てくるやつ。
日本ではWeb接客とか言われてるけど、あれの代表的なSaaSがIntercom。Zendeskは、どちらかというと内部ツール向きかな。
これのOSS版がChatwootとPapercups。自社サイトにWeb接客入れたいけど、費用抑えたい、って時にどうぞ。
この手のツールがないと仕事にならないという人も多いと思います。
これまでだとRedmineがそれのOSS版的立ち位置でしたが、さすがにイマドキあのUIはないなぁ、と。
OpenProjectは、Microsoft Projectの代替をイメージしてるみたいですが、
ガントチャートにカンバンがデフォルトで使えるので、BacklogやAsanaの代替にはちょうど良いでしょう。
ただ、そんな高度なことしてるわけではないのに、サーバーの要求スペックはちょっと高めなのでご注意を。
UA廃止でGA離れが始まってるとも聞きますが、疎開先として有名。
PHPで動くので、PHPやWordPressでできたサイトに一緒に入れちゃってもいいと思う。
HeadlessCMSは、データ表示を持たず、フロントエンドへAPIを通じてデータを渡すタイプのCMSのこと。
このジャンルでは、SaaSだとContentfulが有名だけど、OSSでもいろいろある。
Node.js製。歴史があるので、結構いろんなことができる。
WordPressのGutenbergエディターを取り込んだプラグインなんかもある。
User認証も持ってるので、CGM的なサイトを作ろうと思ったらできなくもない。
これもNode.js製。利用できるDBが幅広く、既存のデータベースも活用できる。
なので、既にPostgresSQLとかでデータを持ってるんだけど、
非エンジニアにもデータを触らせるためのフロントエンドが欲しい、ってニーズに良いかも。
PHP製。SQLiteとMongoDBで利用可能。MySQL/PostgreSQL使えないのがちょっと残念。
近年、本腰入れて自社ECサイトをやろうと思うと必ず選択肢に上がるShopify。
インテグレートパートナー向けのエコシステムも充実してるので、取り組み始めるエンジニアやシステム会社も多い。
ヘッドレスコマースや越境ECには向いているものの、これをセルフホストしたい、というニーズに応えたのがmedusa.js。
ざっと見てみただけだけど、モダンな構成で、今時のフロントとバックエンドを分けた構成でやりたい、というのには向いている。
プラグインにmedusa-marketplace.jsというのもあり、Amazon的なマーケットプレイスも実現可能。
昨年、Adobeに買収され、デザイナーたちを驚愕させたFigma。
先日はAdobe XDが終了のお知らせとなり、UIデザイナーたちの不安は募るばかり。
そんな提供企業に振り回されたくないなら、このPenpotでUIデザインしよう。
Figmaほど機能実装はされていないが、まあまあ一通りのことはできる。
Figma代が嵩むとお嘆きの制作会社なんかは、一考の余地あるんじゃなかろうか。
企業によっては、コンタクトフォームをたくさん作りたいという会社もある。
人材採用のフォームを職種別に細かく分けたい(しかも頻繁に募集職種が変わるとか)
Google Formで大体解決しそうだけど、それをGoogleに頼りたくないならこちら。
まあまあ機能豊富なので、人によってはGoogleFormよりもこちらを好むかも。
DockerベースのWebメールUI。送受信に必要なものを、丸っとDockerで用意してくれているので便利。
HubSpotは、いわゆるMarketing AutomationとCRMを一体にしたツール。無料枠もあるが、かなり限定されている。
MauticはMarketing Automationよりの機能が多く、ユーザーのサイト上での回遊をビジュアル化してくれたりする。
SuiteCRMはザ・CRMという感じ。SalesForceをデフォルトで使う感じに近い。
ツールが分かれてしまうのは辛いところだけど、それぞれにAPIがあるので、うまく繋げられると強力なツールになってくれるはず。
Webサービス作ってると、メールの通知や一斉配信などがあると思う。
通常これらはSendGridや、AWS SESなどで処理すると思うが、これらにもOSS代替がある。
PostalはDockerでメール周りのもの全部用意してくれているので、かなり楽。
WordPressをモダンにしたような感じで、EC機能もデフォルトでついてる。マルチサイトも標準。
Jimdo/Wix代替と書いたが、もちろん自分のサイトをMicroweberで作ってもいいが、
自前ホスティングして、JimdoやWixのようなサービスを始めることもできる。
テンプレートをいくつか作っておいて、Stripeを仕込んでおけば、今日からあなたもJimdo/Wixのような事業を始められるわけだ。
JImdo/WixとSTUDIO/Webflowは一緒くたに語られがちだが、明確な違いがある。
前者はプリディファインドなブロックをGUIで構成するのに対し、後者はDOM要素ベースで構築していく。
つまりよりHTML/CSSによる細かなデザインコントロールがしやすく、Webデザイナーが親しみやすい。
それのOSS版がWebstudio。まだアルファ版だが、フロントエンドはそれなりによくできているので、
バックエンドを自前で用意してStripeを仕込んでおけば、今日からあなたも(以下略
Facebookなんか使わねーよ、っていう人も多いかもしれないが、
特定のコミュニティの中でコミュニケーション取るには、FacebookのUIと機能は優れていると思う。
なので、サークルとか同窓会、あと自治会とかPTAなんかにもいいんじゃないだろうか。
Netflixの代替って、Amazon Primeとかじゃねーの、と思われるのかもしれないが、そうではなくて、
あなたがNetflixみたいな商売したいならこれを使うといいよ、というのがJellyfin。
いや、そんな商売しないよ、と思うかもしれないが、
使いようによっては、おじいちゃんおばあちゃん向けの子供動画配信サービスとして構築するとか、
Stripeと連携して、劇団やバンドのオリジナルの配信サイトを構築するなんかも面白いと思う。
今更誰もYouTubeやVimeoの後追いをしようとはしないでしょうが、
複数のユーザーから動画のアップを受け付けて、それを閲覧したい用途もあると思う。
例えば、軽音部で複数のバンドが練習風景を録画したのを定期的にアップしたりとか。
学習塾で、授業の録画を授業ごとにアップしていったりとか。
ZoomやGoogle Meetのような双方向ではなく、一対多の一方通行配信。
個人的には、企業のウェビナーツールとしての可能性を感じる。(Zoomのウェビナープランとか高いもん)
1つのメールアドレスを複数人で運用したい時のツールがメールワイズとRe:lationどちらも日本のSaaS。
FreeScoutはOSSだけど、海外製。一応日本語化もされてるっぽい。
ECサイトの顧客問い合わせや、営業チームのプライマリー対応なんかに良いと思う。
Bubbleってなんぞ? という人のためにお伝えしておくと、ノーコードベースのWebアプリ開発ツール。
データエンティティを設計したら、自動的にCRUDを作ってくれて、フォームを配置するというような感じ。
Bubbleはそれ系の老舗で、歴史が長い分ノウハウも溜まっており、連携できるサービスも多い。
ただ、ベンダーロックインされるし、季節的なキャンペーンとかでは、アプリを使用しない期間もサブスク費用がかかる。
Budibaseは、Bubbleの思想に一番近い感じ。凝ったUIが必要なければ、ざっくりコレでなんでも作れちゃう。
AppSmithも同じような感じだが、これはDBをあらかじめスキーマ定義しておかないといけないところが若干不便かな。
ToolJetはルーティングURLの概念がなく、本格使用を諦めたんだけど、最近アップデートしたらしいので、そこのところどうなってるかまた確認しときたい。
他にもこの手のやつあったら、いろいろ教えて欲しい。単純に好きなので。
「つづき」で気になった箇所を深掘り。確認するに、専門家の監修体制の構築はそれほど難易度は高いように思えなかった。やはり「つづき」で応えてくれた「医療用の学習データをGPT側で定期的に用意できるか」が今後の発展のポイントになりそうだ。
Me:
GPTのAttention機構って何?
GPT:
Attention機構は、自然言語処理タスクにおいて、入力文の中から重要な部分を選択し処理するためのアルゴリズムです。GPTは、Transformerと呼ばれるモデルアーキテクチャを使用しています。Transformerは、Attention機構を利用して、入力文中の各単語の関係性を学習します。これにより、モデルは入力文全体を理解し、より質の高い出力を生成することができます。
Me:
GPTは医療の知識が弱いと聞くけど、このAttention機構の仕組みと関係ある?
GPT:
GPTは、学習データに基づいて学習されます。そのため、学習データに医療に関する知識が少ない場合、GPTは医療に関するタスクに対して劣る結果を生成する可能性があります。Attention機構は、入力文中の各単語の関係性を学習するために利用されています。しかし、Attention機構自体は、学習データに基づいて学習されるため、学習データに医療に関する知識が少ない場合、Attention機構も医療に関するタスクに対して劣る結果を生成する可能性があります。しかしながら、GPTには大量のテキストデータを学習し、自然言語処理タスクに対して高い性能を発揮する能力があり、知識を持っていない領域でも新しい知識を得る能力を持っています。そのため、医療に関するタスクをGPTに与える場合は、十分な医療に関する学習データを与えることで、GPTが医療に関するタスクに対しても高い性能を発揮することが期待できます。
Me:
ポイントは、Attention機能を医療用にチューニングするのではなく、医療データを学習データとして与えることが、GPTの医療分野への強化に繋がるんだね。
GPT:
そうですね。Attention機構は、入力文中の各単語の関係性を学習するためのアルゴリズムです。GPTは、学習データに基づいて学習されます。そのため、学習データに医療に関する知識が少ない場合、GPTは医療に関するタスクに対して劣る結果を生成する可能性があります。それに対して、十分な医療に関する学習データを与えることで、GPTが医療に関するタスクに対しても高い性能を発揮することが期待できます。そのため、Attention機能を医療用にチューニングするのではなく、医療データを学習データとして与えることが、GPTの医療分野への強化に繋がるということになります。
Me:
GPTが医学的な正確性や専門性を獲得するには、意思決定者としての専門家の監修が必要という認識だけど、仮にそれが可能になった場合、GPTは医療現場で使われるようになると思う?
GPT:
GPTは、大量のテキストデータを学習し、自然言語処理タスクに対して高い性能を発揮する能力があります。しかしながら、GPTは人間の主観や判断力を持っていません。そのため、GPTが生成する出力は必ずしも正確であるとは限りません。そのため、医療現場でGPTを使用する場合は、専門家による監修が必要です。専門家は、GPTが生成する出力が正確であるかどうかを判断し、必要に応じて修正を行うことができます。これにより、GPTが生成する出力が正確であることが保証され、安全かつ効果的な医療を提供することができます。そういった意味で、GPTが医療現場で使われるためには、専門家による監修が必要であり、GPTはその監修に基づいた情報の提示などに利用されることが考えられます。
Me:
ユースケースとしては何が考えられる?
GPT:
GPTは、自然言語処理タスクに対して高い性能を発揮する能力があるため、医療現場での様々なタスクに利用することが考えられます。例えば、医療文書の自動生成や翻訳、診断支援、治療プランの生成、疾患の予防に関するアドバイスの生成などが挙げられます。また、GPTは大量のテキストデータを学習することで、新しい知識を得る能力を持っているため、医学研究や新しい薬物の開発にも利用することができます。ただしながら、これらのタスクにおいてもGPTが生成する出力は必ずしも正確であるとは限らないため、専門家による監修が必要です。
Me:
専門家の監修は、GPTのユースケースの内、どのフェーズで必要になると思う?
GPT:
GPTが生成する出力が正確であることを確認するために、専門家による監修が必要になります。そのため、GPTを利用する各フェーズで専門家の監修が必要になることが考えられます。これにより、GPTが生成する出力が正確であることが保証され、安全かつ効果的な医療を提供することができます。
- 学習フェーズ: GPTが学習するデータについて、専門家が正確性や適切性を確認し、修正を行うことが必要です。
- 生成フェーズ: GPTが生成する出力について、専門家が正確性や適切性を確認し、修正を行うことが必要です。
- アプリケーションフェーズ: GPTが生成した出力を使用するアプリケーションについて、専門家が安全性や効果を確認し、必要に応じて修正を行うことが必要です。
Me:
各フェーズごとにその適用の難易度を教えて。
GPT:
各フェーズごとに適用の難易度は異なりますが、概ね以下のようになります。ただし、これらは一般的な話であり、実際には、専門家がそれぞれのフェーズにおいて監修するために必要なスキルや知識は、それぞれのアプリケーションやタスクによって異なります。
- 学習フェーズ: GPTが学習するデータの整理や整形は、技術的なスキルが必要になりますが、専門家が正確性や適切性を確認するための作業は、通常は難しくありません。
- 生成フェーズ: GPTが生成する出力を確認し、修正するためには、専門的な知識や判断力が必要になります。このフェーズは、専門家によって適切に行われないと、生成された出力が正確でない可能性があります。
- アプリケーションフェーズ: GPTが生成した出力を使用するアプリケーションの開発やテストには、技術的なスキルが必要になりますが、専門家が安全性や効果を確認するための作業は、通常は難しくありません。
Me:
たしかに生成フェーズにおける出力のパターンは他のフェーズと比べ管理しづらそうだけど、その難易度を調節するための工夫はあったりするの?
GPT:
生成フェーズにおいて、GPTが生成する出力を確認し、修正するための難易度を調節するための工夫には以下のようなものがあります:これらの工夫により、GPTが生成する出力を確認し、修正するための難易度を調節することができます。また、専門家が確認する作業を効率化することで、より多くのGPTが生成する出力を確認することができ、正確性や適切性が高い出力を得ることができます。
- GPTが生成する出力のフォーマットを明確に定義することで、専門家が確認する作業を簡略化することができます。
- GPTの出力を確認するためのインターフェースやツールを開発することで、専門家が確認する作業を効率化することができます。
- GPTが生成する出力に対して、事前に定められたルールや基準を適用することで、専門家が確認する作業を効率化することができます。
- GPTが生成する出力を多数の専門家に確認してもらうことで、正確性や適切性を確認することができます。
- GPTが生成する出力を正確性や適切性が高いと判断される場合は、人手を減らして出力を採用することができます。
Me:
GPTが生成する出力のフォーマットを定義するにはどうすれば良いの?
GPT:
GPTが生成する出力のフォーマットを定義するには、次のような方法があります。これらの方法を組み合わせることで、より正確かつ適切なフォーマットを定義することができます。
- テンプレートを使用する: GPTによる出力には、事前に定義されたテンプレートを使用します。これにより、GPTが生成する出力のフォーマットが明確に定義され、専門家が確認する作業を簡略化することができます。
- スキーマを使用する: GPTによる出力には、事前に定義されたスキーマを使用します。これにより、GPTが生成する出力の構造が明確に定義され、専門家が確認する作業を簡略化することができます。
- 入力と出力の関係を明確にする: GPTによる出力は、入力に対応した形式で生成されるようにします。これにより、GPTが生成する出力のフォーマットが明確に定義され、専門家が確認する作業を簡略化することができます。
Me:
GPTの出力テンプレートの使用方法を教えて。
GPT:
GPTの出力テンプレートを使用するには、以下のような手順を踏むことができます。このように、GPTの出力テンプレートを使用することで、GPTが生成する出力のフォーマットを明確に定義することができ、専門家が確認する作業を簡略化することができます。また、テンプレートを学習させることで、GPTが生成する出力が予め定義したフォーマットに沿っていることを保証することができます。
- 出力テンプレートを作成: GPTが生成する出力のフォーマットを定義し、テンプレートを作成します。例えば、診断書のフォーマットや手術手順の書き方など。
- GPTにテンプレートを学習させる: GPTに、作成したテンプレートを学習させます。
- GPTに入力を与える: GPTに、入力として必要な情報を与えます。
- GPTが生成する出力を確認: GPTが生成した出力が、事前に定義したテンプレートに沿っていることを確認します。
- 修正を行う: GPTが生成した出力が、事前に定義したテンプレートに沿っていない場合は、修正を行います。
Me:
GPTのテンプレートとスキーマの違いを教えて。また、プリセットと何が違うのかも教えて。
GPT:
GPTのテンプレートとスキーマは、出力フォーマットを定義するための方法であり、それぞれ異なる特徴があります。つまり、テンプレートは文章のフォーマットを定義するのに、スキーマはデータ構造を定義するのに、使用します。プリセットは、テンプレートやスキーマのような事前に定義したパターンやデータ構造を使用することができます。ただし、プリセットは、具体的には何を指すかは定義が異なります。
- テンプレート: GPTの出力に対して、事前に定義された文章のパターンを使用します。例えば、診断書のフォーマットや手術手順の書き方など。テンプレートは、GPTが生成する文章のフォーマットを明確に定義することができ、専門家が確認する作業を簡略化することができます。
- スキーマ: GPTの出力に対して、事前に定義されたデータ構造を使用します。スキーマは、GPTが生成するデータの構造を明確に定義することができ、専門家が確認する作業を簡略化することができます。
- プリセット: GPTの出力に対して、事前に定義されたパターンやデータ構造を使用します。プリセットは、GPTが生成する出力を明確に定義することができ、専門家が確認する作業を簡略化することができます。
Me:
Pythonのopenaiライブラリでテンプレートやスキーマを再定義することは可能?
GPT:
はい、openaiライブラリは、新しいトレーニングデータ、テンプレートやスキーマを含むように、GPTモデルをファインチューニングすることができます。 openai.Completion.create()メソッドを使用して、GPTモデルをファインチューニングすることができ、トレーニングデータ、テンプレートやスキーマ、ファインチューニングパラメータを指定することができます。また、openaiは既にテンプレートやスキーマが組み込まれたモデルも提供しており、それらを直接使用することができます。
Me:
`openai.Completion.create()` メソッドでテンプレートやスキーマを再定義する方法を教えて。
GPT:
openai.Completion.create()メソッドを使用して、GPTモデルをファインチューニングするには、次のようにします。このように、openai.Completion.create()メソッドを使用して、GPTモデルをファインチューニングし、テンプレートやスキーマを再定義することができます。ただし、学習データとして適切なものを選び、ファインチューニングのパラメータを調整する必要がありますので、注意が必要です。また、トレーニングデータとして使用するテンプレートやスキーマによっては、モデルの性能が改善しないこともあるため、適切なものを選ぶことが重要です。また、ファインチューニングを行うためには、足りないデータや時間、計算リソースが必要です。
- トレーニングデータを用意: GPTに学習させるためのデータを用意します。このデータは、テンプレートやスキーマを含んでいる必要があります。
- openai.Completion.create()メソッドを呼び出す: openai.Completion.create()メソッドを呼び出し、トレーニングデータ、ファインチューニングパラメータを指定します。
- ファインチューニングを実行: 指定したパラメータに基づいて、GPTモデルをファインチューニングします。
Me:
当該メソッド用のファインチューニングパラメータは `prompt` を使うんだよね?
GPT:
はい、openai.Completion.create()メソッドでは、promptパラメータを使用して、GPTモデルに対して、生成したい文章のフォーマットやデータ構造を指定することができます。このpromptによって、GPTは指定されたフォーマットやデータ構造に従って文章を生成するように学習します。このpromptには、テンプレートやスキーマを含む文章を指定することで、GPTに学習させることができます。
AIが色々出てくるが、学習やファインチューニングしようとすると性能が足りない。
個人のパソコンで出来る範囲で学習させると、それほど便利な物が出来ない。
メモリーは128GBまでなら個人でも買える価格だが、多くが使い道がない。
24GB程度か、頑張って40GB程度だろう。
レイトレ話題になったが、ゲームでも拡大して見比べないと違いがわからない程度。
かといって本格的なフォトリアルなものだと性能が足りず、未だに8個のGPUをレンダリングファームで借りるとかになる。
CPUのコア数増えても、ベンチ以外でフル活用出来るソフトがそもそもない。
かと思ったらAIだとCPUは全然使われて無くてGPU性能で決まる。
音楽だとDAWでオーケストラなんてやろうとすると何故かまだ止まる。
性能足りてそうなのにリアルタイムが悪いのか、ソフトが悪いのか。
GPU2個以上にしようとすると、コンセントのワット数超えるしさ。
2台以上のパソコンでクラスタ分散処理ってなると、出来るソフトが限られる。
Midjourneyが出て話題になり、Stable Diffusion Ver.1.xはオープンになって話題になったけど、
クオリティに難ありで、一通り触ったら使わなくなった人が多かったかと思う。
日本的にはWaifu Diffusion、NovelAI、(他もあるが省略)など出てきて話題になったものの、
1ヶ月課金して終了する人、という段階があった。
promptで何処まで出せるかというのが、ネット民のマンパワーで探られていたが、
そこまで広がらなかったのではないだろうか。
独自にファインチューニングする人もそこそこ居たが、そちらもすぐに飽きられた印象だ。
Stable Diffusion Ver.2.0は出てきたが、それほど進化したわけでもなかった。
(ものすごい金をかけているのに)
無料なら使うが、毎月金払って使い続ける層は何かしらかの方法で費用回収している人だけな気がする。
そしてその費用回収する道が、現状珍しさだけが売りで、Midjourney、NovelAIが示しているように一瞬で飽きられる。
絵が飽きられるので常に開発しないといけない、