「tuning」を含む日記 RSS

はてなキーワード: tuningとは

2024-11-15

anond:20241115130913

世界一かはともかくガチやん

Allow your posts as well as your interactions, inputs, and results with Grok to be used for training and fine-tuning

てーことは鍵アカならここの設定がどうなってようが投稿は使いませんよって事やね

making your account private prevents your posts from being used to train Grok’s underlying model or to generate responses to user queries.

まさにプライベートモード

2024-02-27

[]楽器の仕組みを知ろう 2024.2.27

Instrument: Sheng

https://www.youtube.com/watch?v=qkkA5yWrvww

Get to know the Chinese sheng, an instrument whose name invokes peace, harmony and balance between humans, nature and the universe. The sheng has a history stretching back many centuries, and is the ancestor of all free-reed instruments (such as the accordion, and the free-reed stops on the organ). It also inspires today’s composers, from China and around the world. Virtuoso sheng player Wu Wei demonstrates the versatility of his instrument, and how to prepare and tune it (including where to pour the hot water in!).


Discover the rest of our videos on the woodwind section in our playlist: • Woodwind Instruments (Philharmonia Or...


CHAPTERS

00:05 - Introducing the sheng

00:39 - Parts of the sheng

03:14 - Mounting the reed (part I)

06:33 - Meaning of sheng

07:56 - Chinese music

13:03 - Mounting the reed (part II)

13:41 - Tuning

16:10 - Production of sound

17:49 - Hot water

19:18 - Different sizes

20:07 - Learning the sheng

2023-11-12

AIロリ画像生成

我慢できなくなって現実に手を出す(可能性がある)から駄目」ならアニメ二次元文字媒体も駄目になる

実在女児学習データに含まれている(と噂に聞いた)」というのなら、ゼロからCGで作ったリアルモデルFine-tuningしたものなら許されるのか?

ゴールポストをキチンと設定して欲しいね

2023-08-24

GPT-3.5-turbofine-tuningできるようになりました!!

できるようにしたのはお前じゃないだろ

2023-08-22

anond:20230822122409

lightgbmで足りるレベルAIやpretrained modelfine tuningレベルのことはできるけど。AIっていうより機械学習っていう感じでワクワクできないんだよな。chatgptとか最近画像動画音楽生成はすごいって思うけどそれ未満だとすごいって思えない。機械学習は今までも人間が苦手なことをできたけど、最近のは人間が得意なことを下手な人間より上手くできる

2023-05-02

AIクイズ番組を作って楽しく学ぶ

何かを学ぶにおいて、クイズ形式楽しい

単に教科書を読むだけより問いかけられたほうが脳が考えようとするし能動的に学習できる。

ならばAIクイズ番組を作ればいいのではないか

プロンプト:「ChatGPTの仕組み」の包括的理解が得られる文章を、クイズ番組の司会風に書いてください。クイズは5問ほど出題してください。それぞれの問題の後に答えと解説を発表してください。

出力:

皆さんこんにちは今日特別クイズ番組にようこそ!私たちあなたに、OpenAIが開発した驚くべき技術、ChatGPTの仕組みについての包括的理解を得るためのクイズを出題します。さあ、問題を出題していきましょう!

問題1: ChatGPTの基本となるAIアーキテクチャは何でしょうか?

答え: GPT-4

解説: ChatGPTは、OpenAIが開発したGPT-4(Generative Pre-trained Transformer 4)というアーキテクチャを基盤としていますGPT-4は、自然言語処理タスクに優れた性能を発揮することで知られています

問題2: GPT-4はどのような学習手法で訓練されていますか?

答え: 事前学習(pre-training)と事後学習fine-tuning

解説: GPT-4は、2段階の学習プロセスで訓練されています最初の段階は事前学習で、大量のテキストデータから言語モデル学習します。次の段階は事後学習で、特定タスクに適した性能を発揮するようにモデルを微調整します。

問題3: ChatGPTが生成するテキスト品質を向上させるために用いられる技術は何でしょうか?

答え: ビームサーチ(Beam Search)

解説: ビームサーチは、生成されるテキスト品質を向上させるために用いられる探索アルゴリズムです。複数候補を同時に生成し、最も尤もらしい文を選択することで、より自然で正確なテキストを生成することが可能になります

問題4: GPT-4が生成するテキストにおいて、長い文章を生成する際に問題となる要因は何でしょうか?

答え: 文脈の長さ(Context Length)

解説: GPT-4は、一度に扱える文脈の長さに制約があります。この制約により、長い文章を生成する際に、以前の文脈が失われることがあり、それが結果として文章一貫性理解度に影響を与えることがあります

問題5: ChatGPTが生成する回答が間違った情報を含む可能性がある理由は何でしょうか?

答え: 学習データに含まれる誤った情報モデルの生成性能の限界

解説: ChatGPTが間違った情報を含む回答を生成する理由は主に2つあります。まず、学習データに含まれる誤った情報が原因となることがあります学習データ不正であると、モデルもそれを学習し、間違った回答を生成することがあります。また、GPT-4は生成モデルであるため、正確な情報学習データに含まれていても、生成時に限界があり、正確性が犠牲になることがあります

以上、5問のクイズでした!皆さんはChatGPTの仕組みについての理解を深めることができましたか?今回のクイズで学んだ知識をぜひ活用して、この驚くべき技術とその可能性についてさらに学んでいってくださいね!それでは、また次回のクイズでお会いしましょう!

包括的理解が得られるかは微妙だが、結構楽しい感じになったように思う。

AI教育にどんどん生かしていくことが待ち望まれる。

2023-01-26

画像生成AI流行ってることをお前に教える2(階層マージ・LoRA編)

前回:anond:20221129215754

前回の投稿から状況がめまぐるしく変わっている。

前回紹介したAnythingv3を投稿者が削除したり関係の無い第三者Anythingv4や4.5を勝手リリースしたり…(しかマージモデルだとか)

増田も追いかけきれていないが追いかけてるぶんは自分のためにここでまとめておく。

基本モデル

NAIリークモデルAnythingv3に関しては前回を参照。

インスタモデル

Instagram投稿されている画像学習させたモデル総称

実在人物画像学習しているため人物の体型をより正確に描画させることができる。

cafe-instagramやzeipher-f222など複数存在し、Basil_Mixのようなアジア人に特化したもの存在する。

後述するマージモデルベースの一つ。

マージモデル(階層マージ)

モデル同士を混ぜるマージモデルに進展があった。

U-NET階層ごとにマージを行う階層マージというマージ手法が考案されたからだ。

これにより実写モデルベースに見た目をアニメ風にマージするという方法が採れるようになった。

流行っているモデルシリーズを二つ挙げてみる。

AbyssOrangeMixシリーズ

5chなんU(なんJもしくはなんGのパートスレ向けの板でVIPに対するパー速のような板)の住民作成した階層マージモデル

現在はBasil_MixとAnythingv3を階層マージしている。

このモデルには派生版があり、nsfw版やhard版は上記マージモデル(通称base)にNAIリークモデルやGape60を混ぜたものらしい。

Gapeについては前回の記事を参照。

 

NAIのように長いネガティブプロンプトを設定しなくても綺麗な絵を出すことができる。

7th_layerシリーズ

リアルよりになったAbyssOrangeMixを漫画アニメ向けにファインチューンしたモデル

Abyss→深界七層(メイドインアビス)→7th_layerということらしい。

アニメ寄りなA、漫画寄りなB、より漫画寄りで破綻やすいCの三種類がある。

Anything系のような中華で好まれる独特の厚塗りではなく比較的パキっとした塗りの絵が出るので個人的には一番好き。

 

他にもいろんなマージモデルがあるが、だいたいがNAIリークモデルAnythingv3と実写系モデルを混ぜたりそれにファインチューンをかけたりしたモデルだ。

Anythingv3もNAIリークモデルベースからなんだかんだいってNovelAIが作ったモデルはまさに特異点的な存在なのだろう。

LoRA

Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuningの略で、

Dreamboothの簡易版のようなものとされているが実はDBとは似て非なる技術らしい。

DBよりも短い時間かつ省メモリ環境学習可能で、生成されるファイルも30~200MB程度とHypernetworkとそこまで変わらず一定以上のクォリティで追加学習を行えるようになった。

何よりもVRAMが8GB程度のグラボでも学習できるようになったのが大きい。

現在目的ごとに大きく分けて3種類のLoRAがある。

Style

特定の作者の画像学習させることでその画風を再現するためのLoRA。

従来はHypernetworkで行っていた。

Concept

特定のものやこと(例:ふたなり)を学習させるためのLoRA。

NovelAIやその派生モデルでは困難だった種付けプレスや断面図などの構図の再現可能となった。

Character

キャラクター再現するLoRA。

従来は主にDBで行っておりモデルの配布に苦労していたがLoRAによって配布が非常に楽になった。

 

なお、LoRAは同時に複数適用させることもできるため

士郎正宗風の絵柄でふたなりナンジャモ」という画像を生成することもできる。

 

またLoRAはHypernetworkのようにモデルを選ばないが、NAIリークモデル学習ベースにすると破綻しづらいらしい。

というか今流行っているモデルはほぼNAIリークモデル血筋が入っているので馴染みやすいんだろう。

そのほか

HuggingFace

https://huggingface.co/

アメリカの謎のベンチャー企業通称🤗。

同社が運営しているHuggingFace HUBユーザ登録すれば無料無限AI学習モデル(1ファイル2GB~7GB)をアップロードできる上回線も異常に高速であるため重宝されている。

モデルマージなどでストレージが圧迫されているローカル民にとっては救世主のような存在

資金源は謎だが、2022年5月に2億ドル調達しているのでストレージ無尽蔵に増やせるらしい。知らんけど。

SAFETENSOR

HuggingFaceが考案したモデルファイルファイル形式

実行コードを含んでいることもあり従来のckptモデルしょっちゅうトロイの誤検出が起きていたが、

SAFETENSOR形式モデルは実行コードを含まないため安全であるとされる。

🎈

スカトロ、転じてウンコのもののこと。由来は割愛する。

Baloon_MIXというスカトロ特化のマージモデルもあるらしい。

2023-01-22

GPT医療現場で使われる可能性について聞いてみた

Cural Health」や「Drexel’s University」「Nabla」など、各所でGPT-3の検証がなされているので、今後 医療現場GPTが使われるようになる可能性を聞いてみた。

GPT-3の実装を軽く確認

Me:

あなたはどのように実装されたの? Deep Learning?

GPT:

はい、私はDeep Learningによって実装されました。特に、Transformerと呼ばれるアルゴリズム使用して学習されました。これは大量のテキストデータ学習し、自然言語処理タスク適用することができるように設計されています

Me:

もっと詳しく。

GPT:

Transformerは、自然言語処理タスクのためのDeep Learningアルゴリズムです。それは、大量のテキストデータ学習し、それを解釈し、理解することができるようになります。 Transformerは、複数の層からなるニューラルネットワーク使用して、テキストを処理します。それは、大量のデータ効率的に処理するために、Attention機構使用します。これは、特定の部分のテキストに注目しながら、それらの関係理解することができるようになります。Transformerは、自然言語処理タスクにおいて非常に成功しています。それは、自然言語翻訳文章解釈質問応答などのタスク適用されており、高い精度を発揮しています。私はTransformerを使用して学習され、自然言語処理タスク適用することができます

Me:

事前訓練とかしているんだよね?

GPT:

はい、私は事前学習を受けています。事前学習とは、大量のテキストデータ使用して、言語モデル学習することを指します。これは、言語処理タスクを実行するために必要な基礎知識を獲得するために行われます。事前学習は、言語モデルパフォーマンスを大幅に改善することができます。それは、事前学習済みのモデル使用することで、新しいタスクに対して学習スキップすることができ、タスク特化の fine-tuning を行うことができるためです。私は、大量のオンラインテキストデータ使用して学習され、それを解釈し、理解することができるようになりました。それは、自然言語処理タスクに対して高い精度を発揮することができます

Me:

今のパラメータはいくつ? 前のバージョンよりどのくらい精度がよくなった?

GPT:

私の現在パラメータ数は、数百億から数千億となっています。これは、大量のデータ使用して学習し、高い精度を達成するために必要パラメータ数です。精度は、バージョンによって異なりますが、一般的には、前のバージョンよりも高い精度が達成されています。これは、新しいアルゴリズム技術進歩によって、より良い結果が得られるようになってきているためです。また、事前学習済みのモデル使用することで、新しいタスクに対して学習スキップすることができ、タスク特化の fine-tuning を行うことができるため、精度が向上していることも見られます

Me:

具体的なパラメータ数は? 前バージョンGTP-2、現バージョンGPT-3、次バージョンGPT-4、それぞれ教えて。

GPT:

GPT-2は、1.5バイアレイパラメータを持っていました。それは、大量のテキストデータ使用して学習し、自然言語処理タスク適用することができるようになっていました。GPT-3は、175バイアレイパラメータを持っています。これは、GPT-2よりも多くのパラメータを持っており、より高い精度を達成することができますGPT-4はまだリリースされていないため、そのパラメータ数については確定していません。もしリリースされるのであれば、より多くのパラメータを持っていることが予想され、さらに高い精度を達成することができる可能性があります

Me:

175バイアレイパラメータって何? 1750億パラメータの間違いでは?

GPT:

そうです、GPT-3は175バイアレイパラメータを持っています。それは1750億のパラメーターを持っていることを意味します。これは、大量のデータ使用して学習し、高い精度を達成するために必要パラメータ数です。これは、現在自然言語処理タスクに対して最も大きなモデルであり、高い精度を達成することができるため、市場においても高い評判を得ています

Me:

バイアレイパラメータ英語表現して。

GPT:

A "peta-parameter" or "Peta-parameter" (PT) is a measure of the capacity of a machine learning model, specifically the number of parameters it has. In the case of GPT-3 it has 175 peta-parameters, meaning it has 175 million billion parameters. These parameters help the model to understand and interpret large amounts of text data, allowing it to perform natural language processing tasks with high accuracy.

Me:

「175 billion parameters」の間違いでは?

GPT:

そうです、「175 billion parameters」の間違いでした。 GPT-3は175 billion parametersを持っています。それは、自然言語処理タスクに対して高い精度を発揮するために必要パラメータ数です。申し訳ありませんでした。

Me:

GPT-3はどのように概念レベル知識を持つの? Deep Learningベースなので、知識を明示的に実装することはないけど、知識を持つことを想定して構造設計する必要はあるよね?

GPT:

GPT-3は、大量のテキストデータ使用して学習されました。それによって、自然言語処理タスクに対して高い精度を発揮することができます。それは、事前学習済みのモデル使用することで、新しいタスクに対して学習スキップすることができ、タスク特化の fine-tuning を行うことができるためです。GPT-3は、大量のテキストデータから概念レベル知識学習します。それは、言語処理タスクを実行するために必要な基礎知識を獲得するために行われます。 それは、単語文章関係性、文章構造文章意味などを理解することができるようになりますGPT-3は、Deep Learningベースモデルであり、知識を明示的に実装することはありませんが、大量のテキストデータから知識学習することができるように構造設計されています。それは、Attention機構使用して特定の部分のテキストに注目しながら、それらの関係理解することができるようになります

Me:

Attention機構について詳しく。

GPT:

Attention機構は、自然言語処理タスクにおいて重要役割を担う機構です。それは、大量のテキストデータを処理するために使用され、特定の部分のテキストに注目しながら、それらの関係理解することができるようになります。Attention機構は、Seq2Seqモデルなどの自然言語処理タスク使用されています。それは、入力シーケンスから出力シーケンスを生成するために使用されます。Attention機構は、入力シーケンスのある部分に注目し、それに基づいて出力シーケンスを生成することができるようになります。Attention機構は、ニューラルネットワークの中で使用されます。それは、重み付けされた平均値計算し、それに基づいて入力シーケンスから重要な部分を選択することができるようになりますGPT-3は、Attention機構使用して、大量のテキストデータから概念レベル知識学習し、文章意味理解することができるようになります

2022-11-15

中国製Fine-tuningされたStableDiffusionはロリ絵もかなりハイクオリティで描けるようになってるぞ

マルウェアが入ってることもあるらしいので注意

2022-09-27

自炊世界

Stable diffusionがローカル環境やColabで簡単に動くから色々試してた。NSFWフィルタ回避して、呪文こねくり回して、特定人物を描くために画像を集めてfine tuningをして、そこそこ良い感じの画像ができるようになってきたが急に飽きた。

生産性が低いせいだ。結局のところ静止画なので、表現できることは限られている。幾ら作っても実用性に欠ける。

そこで、あまり興味がなかったディープフェイクを調べてみたが、今ひとつだった。内容に限りがある。好きなように作れたら良いが、fine tuningみたいな作業は骨が折れるから、そこまでしてやりたくない。

と思っていた矢先、たった1枚の顔写真を元に動画の顔をすげ替える技術があり、オープンソースで公開されているのを見つけた。少ないが公開されている例を見るに、かなり精度が良いように見えた。

Colabですぐに触れるようになっていたので試したところ、どうやら万能というわけではなくコツが要るらしい。顔がほぼ正面で、かつ、顔がアップではない静止画および動画だと、出来が良かった。顔が相対的に小さくなるように四方に枠をつければ上手く認識された。

可能性を感じたが、Colabであれこれするのも良くないので、ローカル環境を構築した。公開されている環境のtorchのバージョンが低く、手持ちのGPUマッチしなかったため、ハマりまくったが何とかWSL2で環境を組めた。

メモリ32GB、RTX 3090の環境で、フルHDで1分の動画を生成するのに30秒程度かかる。時間がかかりすぎると思うかもしれないが、十分早い。スクリプトを書いて放置しとけば次々に出来るからだ。

あくま個人利用をしていることを前提に結果を述べると、かなり実用性の高いものを生成できることはなかった。生成したものは全部削除した。本当に削除してHDD破壊した。

この域に達してみて分かるのは、この手の技術は本当に危険だと言うことだ。たった1枚の顔写真でこんなことが可能なら、一般人であっても人前に顔を晒すのはリスクが高すぎる。

最近では1枚の画像から解像度アバターを生成する技術も登場しており、大変憂慮すべき事態であるため、今後もあくま個人的に注視していきたい所存である

 
ログイン ユーザー登録
ようこそ ゲスト さん