はてなキーワード: 音声合成とは
AIによる音声合成技術が発達してフェイクビデオを作ったりネカマになったりは随分楽になった。
だけどコンピューター歌手の歌唱力はまだまだリアルと全く違う。
機械的であることを売りにした「ドモアリガトミスターロボット」のような楽曲を完成させることさえもまだまだ遠いように見える。
人間にもなれずロボットにもなりきれないモラトリアムの隙間に潜り込むことで永遠の何かを手にしようとしている節さえある。
最近ではボカロソングよりもボイロを楽器化した楽曲の方が可能性を感じるような節さえある。
結局初音ミクは圧倒的で絶対的な人間以上の歌手には至らなかった。
サブカルチャーの世界に強烈な地位を築き上げることは出来たが人間を超えることはなかった。
あの頃夢見た未来はまだまだ遠い。
海外:https://www.youtube.com/watch?v=GPWxcTOJfR0&ab_channel=Thoughty2
日本:https://www.youtube.com/watch?v=5iTmMvGAOU0
クオリティの差は言うまでもない
海外は動画やアニメーションをふんだんに使用して理解しやすく没入しやすい配慮がなされている。ナレーションも上手いし堂々としていて聞きやすい
一方日本は静止画中心で、何のために動画メディアを使っているのかわからないような編集
霊夢と魔理沙のいい加減うんざりするようなクッソくだらない茶番劇をいつまでも擦り続け、化石レベルの音声合成技術を使用しているゆっくりボイスは壊滅的に聞き取りにくい
こんな低レベルな動画フォーマットが氾濫してしまったせいで日本のYoutubeは未だに石器時代レベルの動画を量産し続けている
論旨
無断で数千人の声優を学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセントも不安定で「演技泥棒」には程遠いです。
最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。
音声合成の学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います。
演技というものは台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います。
文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。
文章で想定している(文章を構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります。
音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパスの文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります。
加えて、現在の音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。
上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体がデータに適さない場合もあるため、それらの選別も必要です。
音声合成用に収録された音声コーパスであれば、読み方やアクセント、ノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。
このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります。
AIイラストの成功には、イラストへの人力でのタグ付けが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?
AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています。
また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています。
AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合、データの提供者たる声優と相互理解のある関係を保ちつつ発展してきたことを強調しておきます。
もともとナレーションの分野においては、既に十分な品質の音声合成ソフトが存在します。
AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています。
そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。
自炊した書籍のPDFデータとかをOCRに噛ませる→更に音声合成システムに噛ませてオーディオブック化するっていうのを試してる
テキスト化までは成功してて、試しにvoiceboxに読ませてみたんだが流石に誤読が多すぎる
adidasもエーディーアイディーエーエスって読むからなんのこっちゃってなった、まあそういう用途は想定されてないわな
Amazon PollyかGCPのText to Speechのデモ試したら良い感じだったからこっち試そうかな
毎月400~500万文字くらい無料らしい、そこそこぶ厚めの技術書でも文字数は10万とかだったりするからまあ事足りるかな
明日はそっち試してみよっと
「誇大広告と現実の違いを理解する必要がある」これはAIにしろ量子コンピュータにしろ言えることだ。
ロケットに関しても、火星に移住するようなレベルに達するのかというと、それよりも地球上で様々な問題が顕在化するのが先だろう。
AGIについては、誰もその方法を知らないと言える。ここ10年で起こったことを踏まえたら、それはヒントにはなるだろうが、その多くは非常に単純な技術である。
2030年にAGIが誕生する可能性はどのぐらいあるのか。50%でも希望的観測だと考えている。
ディープフェイク、チャットボット、音声合成、画像生成など色々あるように思うが、本質は「transformerにポン」だ。進歩しているのは莫大な計算資源を扱う人間のスキルであり、数学的な進歩はそれほどあったとは思わない。
「シンギュラリティ!」と発狂しながら言っている他界系は沢山いるが、「特定の能力を持ったAIを仕事に配備して何でも自動化する」ということが可能になる範囲には確かに興味がある。
例えば「新しい漫画を作りたい、そのために必要なリソースを設定してアウトプットを出してくれ。ストーリーは大体こんな感じだ」とAIに命令する。「リソースの見積もりができました。それを実行するためには500ドル必要です。支払いますか」「はい。支払います。ポチ」「しばらくお待ちください...出力がダウンロードできます」みたいなものだ。
現在のアレクサやらSiriやらは全然ダメで、特殊化されすぎているし、仕様もなんとなく投げやりである。この方向ではAGIにはなりそうもない。「人の声」なんてインターフェイス部分は本質ではない。
GPTなどの巨大言語モデルは、学習後のパラメータが巨大ではあるものの、ソースコードはとても単純で短い。
つまり今後進歩が望めるとすれば、一つはハードウェア的な進歩であり、1)ハードウェアの能力, 2)ハードウェアの価格, 3)ハードウェアが誰でも使いやすくなる、といった方向だろう。
AIの最先端企業で働く連中は「集団思考」に陥っており、それを避けるために独立して研究開発する人々もいる。投資先としての魅力があるかはわからないが、一つは潤沢にハードウェアを使えるかどうかが鍵だろう。
しかしダメな投資先とは、「OpenAIのAPIを使ってちょっぴりファインチューニングして画像生成とテキスト生成をしました」というタイプの連中だ。これは一時的な炎上で資金は貰えるかもしれないが、優位性がすぐに失われる。
長文を読ませても何なので、まずは要点から。
特定人物の絵柄をパクる新機能が水面下の野良で氾濫し始めている。
これが問題だと思った人は読み進んでほしい。
とはいえ、混み入った話をするつもりは無いので、多少かいつまんで解説する。
この話に興味がある人なら、NovelAIはご存知のはずだ。各所で手足が雑でまともにラーメンが食べられない画像を何度も見た人も多いだろう。
少し前の話になるが、NovelAIのサーバーがハッキングの被害を受け、プログラムのほぼ全てを盗まれて若干アンダーグラウンドな界隈に全公開されてしまった。
この中には、NovelAIの次期リリースに向け開発が進められていた新機能も含まれていた。
それが、今回の主役であるhypernetworkだ。
hypernetworkとは、それほど手間をかけずにAIの出力を追加調整する機能で、
そう、言うなればハイパーmimicとでも言うべき追加機能が、アンコントローラブルな状態でいきなり野に放たれたのだ。
親切な方々がセーフっぽいプロセスやアウトっぽい(?)プロセスを経て構築したサンプル画像がTwitterにいくつか上がっているので、
ご興味のある方はTwitterで「hypernetwork」で検索してみるとよい。(見た勢いでクソリプを送るのは全くお勧めしない。)
で、放たれて早々例のアジア2ヶ国のAI画像コミュニティが活性化し、完全にアウトな行動をとり始めた。
有名絵師の絵柄を学習させ始めたのだ。そしてそのデータを絵師の名前付きで配布している。ド直球だ。
アウトだ。名前を伏せて分かる奴だけ使え的に配布すればまだマシなんじゃないかという、モラルの大分終わったトンデモ思考を持っている私からしてもこれはアウトだ。
諸外国のAI学習法制はよく知らないが、よく言われる日本の著作権法ではAI学習用途ならセーフという話は少なくとも破ったポジションにある。
(絵柄を似せるために少量の絞り込んだデータセットを故意に組んでいる、模倣を目的としなおかつ名指しをしている等々という点で。)
そして、日本のコミュニティも当然やっている奴が居る。配布している奴も居る。アレコレ言ったところで底辺はそう変わらないので。
というか他の国のコミュニティに潜り込んで配布されている絵柄のデータをわざわざ輸入してきている。
なので今までAI絵で遊んでいた立場ながら告発に至った。これは既に、そして進行している惨状である。
何をして欲しいとかこうするべきだ等は一切言わない。そういう立場にない。
ただ、AI絵師は「とりあえず見ないことにしておく」では済まない方向にとてつもない速度で悪用され始めている。
mimicを潰したから日本の技術がどうこうという時間軸ではない。事はStableDiffusionが公開された瞬間に第二宇宙速度を超えていたのだ。
hypernetworkという存在自体広めるのもどうかと考えたが、放置してもどうせどこかで発火するため仕方ないと判断してこの文を書いている。
もう少し事がうまく運べばいいのに、私にはどうすることもできない。
ここからはこぼれ話である。もう少し暇潰しが必要な人はこの先も読むとよいだろう。
そもそも、NovelAI特有の奇妙に整った、それでいてさらりとしている例の絵柄はデフォルト設定で使用すると出るものだ。
当然のように他の絵柄も出すことができる。つまり、巷でNovelAIの絵柄とされているものを出している人達はここら辺を一切いじっていない。
NovelAIの場合意図的に抑制されているが、それでも大型商業作品を手掛ける絵師や、大型作品名をプロンプトにうまく指定して生成させると、
上述のhypernetworkを用いずとも既に絵柄を似せられる状況にある。
某自称有名大物AI絵師様は最近これにご執心のようで、見れば分かるレベルに目元やタッチを真似た謎の絵達を半無言投稿で垂れ流していらっしゃるところである。
誰に似せたか書かずともプロンプトに入れている時点で故意なのでもう少し考えて頂きたい。
某国にて声優の声を勝手に投入し、特定のキャラの声で好き勝手喋らせるように作っている奴が居る。何だったら既にデモページもある。
こぼれ話はここまで。反響があれば、ここら辺も続けて書くようにしたい。
最後に、擁護する必要があるかは謎だが一応NovelAIの名誉に関わる部分について言及しておくと、
NovelAIはhypernetworkを好き勝手ユーザーが作れるハイパーmimicを作ろうとしていた訳では無いはずで、
プリセットを内々でいくつか作り、お手軽に絵柄の傾向を変えられる(誰に似せた傾向かは言わない)機能としてリリースする予定だったはずだ。
そして、現在hypernetworkを悪用するにあたりNovelAIの正規サービスを理活用する必要は一切無く、NovelAIが機能の無効化等をできる状況にもない。
元々初音ミクあたりの第一次ブームはほそぼそと続いていたんだけど、最近は歌唱ではなくてナレーションがメインになりつつある。
特にVoiceVoxという無料音声合成ソフトが極めて強くて、キャラクターは既に10人以上。つい数週間前に3名追加されたと思ったら、また3名ほど加わるときている。しかも既存キャラにも感情表現が追加されるなどアップデートが凄まじい。
ほかにもCoeiroInkとかShareVoxとかも出てきて、各方面のキャラがこういうものに参加するのがちょっとしたトレンドになってきている。
有料版のAIVoiceとかにもまた新キャラがここにきて加速度的に増えてきた。
もともとゆっくりボイスが主流で解説といえばゆっくりだらけだった。それがYoutube側からの大幅な規制を受けるようになり、ゆっくりだけが理由ではないにしろ確実にVoiceVoxとかのシェアが増えていった。とくにVoiceVoxのずんだもんが人気になったのが後押ししたんだろうな。
正直そのクオリティに驚いたよ。
でも絵だけじゃなくて、今後はAIによる音声合成もより滑らかになっていくだろうね。
下手したら、声優の代わりにAIでいいんじゃないか?ってぐらいになるかもしれない。
そしてAIによる小説の精度も上がっていき、ある程度のシナリオなんかはAIでも作れるような時代が来る。
容易に想像できる。将来的にはAIが作ったエ○ゲーが出るだろうなって事が。
登場する女の子も得ろシーンも全部AIが描き、喋り声から喘ぎ声までAIが作る。
シナリオも全部AIが書き下ろしたもので、俺はそのシナリオに感動するわけ。
すべてが人工物で、すべてがまがい物の世界に、だ。
AIの描いた女の子に俺は恋して、AIの作った声に俺はドキドキする。
AIの描いた女の子の裸体に俺は興奮し、AIの作った喘ぎ声を聞いて俺は果てる。
すべてが人工物で、すべてまがい物に過ぎない世界に囲まれながら。
俺は果てた末に、じっと画面を見入る。
搾り取られたのは俺の精液じゃない。
俺はそこで気づくのだ。
東方のゆっくりボイスや音声合成を使った2人のかけあいによる解説動画、ようはゆっくり解説がどこにでもある。
あれの良い点は、視聴者に直接語りかけずに聞き手を用意できる点にある。
基本的に教える側は誰にどのくらいのないようを伝えるかに苦心する。詳しく書きたいが視聴者のレベルがわからないと単なる独り言になる。だから自身を先生役・生徒役にすることで視聴者をオーディエンスという立ち位置でき、テレビを見ている感覚にさせられる。
見ている方は理解できない場合でも生徒役にそれを代弁してもらえればハードルは下がる。なにより面白く作りやすい。
逆に視聴者を固定化していたり、内容が固い場合、あるいは物作り系などは中身に集中させたいので掛け合いが少ない。というより作るのが手間なんだよね
ところでこういう解説系のフォーマットってそろそろ新しいのが出てこないかな
いまあるのは