はてなキーワード: tuningとは
Allow your posts as well as your interactions, inputs, and results with Grok to be used for training and fine-tuning
てーことは鍵アカならここの設定がどうなってようが投稿は使いませんよって事やね
making your account private prevents your posts from being used to train Grok’s underlying model or to generate responses to user queries.
まさにプライベートモードか
Instrument: Sheng
https://www.youtube.com/watch?v=qkkA5yWrvww
Get to know the Chinese sheng, an instrument whose name invokes peace, harmony and balance between humans, nature and the universe. The sheng has a history stretching back many centuries, and is the ancestor of all free-reed instruments (such as the accordion, and the free-reed stops on the organ). It also inspires today’s composers, from China and around the world. Virtuoso sheng player Wu Wei demonstrates the versatility of his instrument, and how to prepare and tune it (including where to pour the hot water in!).
Discover the rest of our videos on the woodwind section in our playlist: • Woodwind Instruments (Philharmonia Or...
CHAPTERS
00:05 - Introducing the sheng
00:39 - Parts of the sheng
03:14 - Mounting the reed (part I)
06:33 - Meaning of sheng
13:03 - Mounting the reed (part II)
13:41 - Tuning
17:49 - Hot water
19:18 - Different sizes
20:07 - Learning the sheng
単に教科書を読むだけより問いかけられたほうが脳が考えようとするし能動的に学習できる。
プロンプト:「ChatGPTの仕組み」の包括的な理解が得られる文章を、クイズ番組の司会風に書いてください。クイズは5問ほど出題してください。それぞれの問題の後に答えと解説を発表してください。
出力:
皆さんこんにちは!今日は特別なクイズ番組にようこそ!私たちはあなたに、OpenAIが開発した驚くべき技術、ChatGPTの仕組みについての包括的な理解を得るためのクイズを出題します。さあ、問題を出題していきましょう!
問題1: ChatGPTの基本となるAIアーキテクチャは何でしょうか?
答え: GPT-4
解説: ChatGPTは、OpenAIが開発したGPT-4(Generative Pre-trained Transformer 4)というアーキテクチャを基盤としています。GPT-4は、自然言語処理タスクに優れた性能を発揮することで知られています。
問題2: GPT-4はどのような学習手法で訓練されていますか?
答え: 事前学習(pre-training)と事後学習(fine-tuning)
解説: GPT-4は、2段階の学習プロセスで訓練されています。最初の段階は事前学習で、大量のテキストデータから言語モデルを学習します。次の段階は事後学習で、特定のタスクに適した性能を発揮するようにモデルを微調整します。
問題3: ChatGPTが生成するテキストの品質を向上させるために用いられる技術は何でしょうか?
解説: ビームサーチは、生成されるテキストの品質を向上させるために用いられる探索アルゴリズムです。複数の候補を同時に生成し、最も尤もらしい文を選択することで、より自然で正確なテキストを生成することが可能になります。
問題4: GPT-4が生成するテキストにおいて、長い文章を生成する際に問題となる要因は何でしょうか?
答え: 文脈の長さ(Context Length)
解説: GPT-4は、一度に扱える文脈の長さに制約があります。この制約により、長い文章を生成する際に、以前の文脈が失われることがあり、それが結果として文章の一貫性や理解度に影響を与えることがあります。
問題5: ChatGPTが生成する回答が間違った情報を含む可能性がある理由は何でしょうか?
答え: 学習データに含まれる誤った情報とモデルの生成性能の限界
解説: ChatGPTが間違った情報を含む回答を生成する理由は主に2つあります。まず、学習データに含まれる誤った情報が原因となることがあります。学習データが不正確であると、モデルもそれを学習し、間違った回答を生成することがあります。また、GPT-4は生成モデルであるため、正確な情報が学習データに含まれていても、生成時に限界があり、正確性が犠牲になることがあります。
以上、5問のクイズでした!皆さんはChatGPTの仕組みについての理解を深めることができましたか?今回のクイズで学んだ知識をぜひ活用して、この驚くべき技術とその可能性についてさらに学んでいってくださいね!それでは、また次回のクイズでお会いしましょう!
前回紹介したAnythingv3を投稿者が削除したり関係の無い第三者がAnythingv4や4.5を勝手にリリースしたり…(しかもマージモデルだとか)
増田も追いかけきれていないが追いかけてるぶんは自分のためにここでまとめておく。
NAIリークモデルやAnythingv3に関しては前回を参照。
Instagramで投稿されている画像を学習させたモデルの総称。
実在の人物画像を学習しているため人物の体型をより正確に描画させることができる。
cafe-instagramやzeipher-f222など複数存在し、Basil_Mixのようなアジア人に特化したものも存在する。
U-NETの階層ごとにマージを行う階層マージというマージ手法が考案されたからだ。
これにより実写モデルをベースに見た目をアニメ風にマージするという方法が採れるようになった。
5chなんU(なんJもしくはなんGのパートスレ向けの板でVIPに対するパー速のような板)の住民が作成した階層マージモデル。
現在はBasil_MixとAnythingv3を階層マージしている。
このモデルには派生版があり、nsfw版やhard版は上記マージモデル(通称base)にNAIリークモデルやGape60を混ぜたものらしい。
Gapeについては前回の記事を参照。
NAIのように長いネガティブプロンプトを設定しなくても綺麗な絵を出すことができる。
リアルよりになったAbyssOrangeMixを漫画アニメ向けにファインチューンしたモデル。
Abyss→深界七層(メイドインアビス)→7th_layerということらしい。
アニメ寄りなA、漫画寄りなB、より漫画寄りで破綻しやすいCの三種類がある。
Anything系のような中華で好まれる独特の厚塗りではなく比較的パキっとした塗りの絵が出るので個人的には一番好き。
他にもいろんなマージモデルがあるが、だいたいがNAIリークモデルやAnythingv3と実写系モデルを混ぜたりそれにファインチューンをかけたりしたモデルだ。
Anythingv3もNAIリークモデルがベースだからなんだかんだいってNovelAIが作ったモデルはまさに特異点的な存在なのだろう。
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuningの略で、
Dreamboothの簡易版のようなものとされているが実はDBとは似て非なる技術らしい。
DBよりも短い時間かつ省メモリの環境で学習が可能で、生成されるファイルも30~200MB程度とHypernetworkとそこまで変わらず一定以上のクォリティで追加学習を行えるようになった。
何よりもVRAMが8GB程度のグラボでも学習できるようになったのが大きい。
特定の作者の画像を学習させることでその画風を再現するためのLoRA。
従来はHypernetworkで行っていた。
特定のものやこと(例:ふたなり)を学習させるためのLoRA。
NovelAIやその派生モデルでは困難だった種付けプレスや断面図などの構図の再現が可能となった。
従来は主にDBで行っておりモデルの配布に苦労していたがLoRAによって配布が非常に楽になった。
「士郎正宗風の絵柄でふたなりのナンジャモ」という画像を生成することもできる。
またLoRAはHypernetworkのようにモデルを選ばないが、NAIリークモデルを学習のベースにすると破綻しづらいらしい。
というか今流行っているモデルはほぼNAIリークモデルの血筋が入っているので馴染みやすいんだろう。
同社が運営しているHuggingFace HUBはユーザ登録すれば無料で無限にAI学習モデル(1ファイル2GB~7GB)をアップロードできる上回線も異常に高速であるため重宝されている。
モデルマージなどでストレージが圧迫されているローカル民にとっては救世主のような存在。
資金源は謎だが、2022年の5月に2億ドル調達しているのでストレージを無尽蔵に増やせるらしい。知らんけど。
HuggingFaceが考案したモデルファイルのファイル形式。
実行コードを含んでいることもあり従来のckptモデルはしょっちゅうトロイの誤検出が起きていたが、
SAFETENSOR形式のモデルは実行コードを含まないため安全であるとされる。
「Cural Health」や「Drexel’s University」「Nabla」など、各所でGPT-3の検証がなされているので、今後 医療現場でGPTが使われるようになる可能性を聞いてみた。
Me:
あなたはどのように実装されたの? Deep Learning?
GPT:
はい、私はDeep Learningによって実装されました。特に、Transformerと呼ばれるアルゴリズムを使用して学習されました。これは大量のテキストデータを学習し、自然言語処理タスクに適用することができるように設計されています。
Me:
もっと詳しく。
GPT:
Transformerは、自然言語処理タスクのためのDeep Learningアルゴリズムです。それは、大量のテキストデータを学習し、それを解釈し、理解することができるようになります。 Transformerは、複数の層からなるニューラルネットワークを使用して、テキストを処理します。それは、大量のデータを効率的に処理するために、Attention機構を使用します。これは、特定の部分のテキストに注目しながら、それらの関係を理解することができるようになります。Transformerは、自然言語処理タスクにおいて非常に成功しています。それは、自然言語の翻訳、文章の解釈、質問応答などのタスクに適用されており、高い精度を発揮しています。私はTransformerを使用して学習され、自然言語処理タスクに適用することができます。
Me:
事前訓練とかしているんだよね?
GPT:
はい、私は事前学習を受けています。事前学習とは、大量のテキストデータを使用して、言語モデルを学習することを指します。これは、言語処理タスクを実行するために必要な基礎知識を獲得するために行われます。事前学習は、言語モデルのパフォーマンスを大幅に改善することができます。それは、事前学習済みのモデルを使用することで、新しいタスクに対して学習をスキップすることができ、タスク特化の fine-tuning を行うことができるためです。私は、大量のオンラインテキストデータを使用して学習され、それを解釈し、理解することができるようになりました。それは、自然言語処理タスクに対して高い精度を発揮することができます。
Me:
今のパラメータはいくつ? 前のバージョンよりどのくらい精度がよくなった?
GPT:
私の現在のパラメータ数は、数百億から数千億となっています。これは、大量のデータを使用して学習し、高い精度を達成するために必要なパラメータ数です。精度は、バージョンによって異なりますが、一般的には、前のバージョンよりも高い精度が達成されています。これは、新しいアルゴリズムや技術の進歩によって、より良い結果が得られるようになってきているためです。また、事前学習済みのモデルを使用することで、新しいタスクに対して学習をスキップすることができ、タスク特化の fine-tuning を行うことができるため、精度が向上していることも見られます。
Me:
具体的なパラメータ数は? 前バージョンのGTP-2、現バージョンのGPT-3、次バージョンのGPT-4、それぞれ教えて。
GPT:
GPT-2は、1.5バイアレイパラメータを持っていました。それは、大量のテキストデータを使用して学習し、自然言語処理タスクに適用することができるようになっていました。GPT-3は、175バイアレイパラメータを持っています。これは、GPT-2よりも多くのパラメータを持っており、より高い精度を達成することができます。GPT-4はまだリリースされていないため、そのパラメータ数については確定していません。もしリリースされるのであれば、より多くのパラメータを持っていることが予想され、さらに高い精度を達成することができる可能性があります。
Me:
175バイアレイパラメータって何? 1750億パラメータの間違いでは?
GPT:
そうです、GPT-3は175バイアレイパラメータを持っています。それは1750億のパラメーターを持っていることを意味します。これは、大量のデータを使用して学習し、高い精度を達成するために必要なパラメータ数です。これは、現在の自然言語処理タスクに対して最も大きなモデルであり、高い精度を達成することができるため、市場においても高い評判を得ています。
Me:
バイアレイパラメータを英語で表現して。
GPT:
A "peta-parameter" or "Peta-parameter" (PT) is a measure of the capacity of a machine learning model, specifically the number of parameters it has. In the case of GPT-3 it has 175 peta-parameters, meaning it has 175 million billion parameters. These parameters help the model to understand and interpret large amounts of text data, allowing it to perform natural language processing tasks with high accuracy.
Me:
「175 billion parameters」の間違いでは?
GPT:
そうです、「175 billion parameters」の間違いでした。 GPT-3は175 billion parametersを持っています。それは、自然言語処理タスクに対して高い精度を発揮するために必要なパラメータ数です。申し訳ありませんでした。
Me:
GPT-3はどのように概念レベルの知識を持つの? Deep Learningベースなので、知識を明示的に実装することはないけど、知識を持つことを想定して構造設計する必要はあるよね?
GPT:
GPT-3は、大量のテキストデータを使用して学習されました。それによって、自然言語処理タスクに対して高い精度を発揮することができます。それは、事前学習済みのモデルを使用することで、新しいタスクに対して学習をスキップすることができ、タスク特化の fine-tuning を行うことができるためです。GPT-3は、大量のテキストデータから概念レベルの知識を学習します。それは、言語処理タスクを実行するために必要な基礎知識を獲得するために行われます。 それは、単語や文章の関係性、文章の構造、文章の意味などを理解することができるようになります。GPT-3は、Deep Learningベースのモデルであり、知識を明示的に実装することはありませんが、大量のテキストデータから知識を学習することができるように構造設計されています。それは、Attention機構を使用して特定の部分のテキストに注目しながら、それらの関係を理解することができるようになります。
Me:
Attention機構について詳しく。
GPT:
Attention機構は、自然言語処理タスクにおいて重要な役割を担う機構です。それは、大量のテキストデータを処理するために使用され、特定の部分のテキストに注目しながら、それらの関係を理解することができるようになります。Attention機構は、Seq2Seqモデルなどの自然言語処理タスクに使用されています。それは、入力シーケンスから出力シーケンスを生成するために使用されます。Attention機構は、入力シーケンスのある部分に注目し、それに基づいて出力シーケンスを生成することができるようになります。Attention機構は、ニューラルネットワークの中で使用されます。それは、重み付けされた平均値を計算し、それに基づいて入力シーケンスから重要な部分を選択することができるようになります。GPT-3は、Attention機構を使用して、大量のテキストデータから概念レベルの知識を学習し、文章の意味を理解することができるようになります。
Stable diffusionがローカル環境やColabで簡単に動くから色々試してた。NSFWフィルタを回避して、呪文こねくり回して、特定の人物を描くために画像を集めてfine tuningをして、そこそこ良い感じの画像ができるようになってきたが急に飽きた。
生産性が低いせいだ。結局のところ静止画なので、表現できることは限られている。幾ら作っても実用性に欠ける。
そこで、あまり興味がなかったディープフェイクを調べてみたが、今ひとつだった。内容に限りがある。好きなように作れたら良いが、fine tuningみたいな作業は骨が折れるから、そこまでしてやりたくない。
と思っていた矢先、たった1枚の顔写真を元に動画の顔をすげ替える技術があり、オープンソースで公開されているのを見つけた。少ないが公開されている例を見るに、かなり精度が良いように見えた。
Colabですぐに触れるようになっていたので試したところ、どうやら万能というわけではなくコツが要るらしい。顔がほぼ正面で、かつ、顔がアップではない静止画および動画だと、出来が良かった。顔が相対的に小さくなるように四方に枠をつければ上手く認識された。
可能性を感じたが、Colabであれこれするのも良くないので、ローカルに環境を構築した。公開されている環境のtorchのバージョンが低く、手持ちのGPUとマッチしなかったため、ハマりまくったが何とかWSL2で環境を組めた。
メモリ32GB、RTX 3090の環境で、フルHDで1分の動画を生成するのに30秒程度かかる。時間がかかりすぎると思うかもしれないが、十分早い。スクリプトを書いて放置しとけば次々に出来るからだ。
あくまで個人利用をしていることを前提に結果を述べると、かなり実用性の高いものを生成できることはなかった。生成したものは全部削除した。本当に削除してHDDを破壊した。
この域に達してみて分かるのは、この手の技術は本当に危険だと言うことだ。たった1枚の顔写真でこんなことが可能なら、一般人であっても人前に顔を晒すのはリスクが高すぎる。
最近では1枚の画像から高解像度のアバターを生成する技術も登場しており、大変憂慮すべき事態であるため、今後もあくまで個人的に注視していきたい所存である。