法律によって制限を設けることは個人的には賛成だが、実際に可能なのか疑問に思う（法律に関する知識がないので詳しい言及は避ける）
AI音声合成がAIイラストと同じ轍を踏むとは現時点では考えにくい（以下に述べる）
- 学習手法が十分に成熟していない
- アニメ声優のデータセットが整備されていない
- AI イラストに見られるような対立構造を持たない

演技音声の学習

無断で数千人の声優を学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセントも不安定で「演技泥棒」には程遠いです。

最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。

音声合成の学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います。

演技というものは台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います。

データセットの問題

文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。

文章で想定している（文章を構文解析することによって得られる）読み方と、音声における実際の発音が異なる場合があります。

音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパスの文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります。

加えて、現在の音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。

上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体がデータに適さない場合もあるため、それらの選別も必要です。

音声合成用に収録された音声コーパスであれば、読み方やアクセント、ノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。

このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります。

AI イラストの成功には、イラストへの人力でのタグ付けが寄与していることはよく知られていますが、果たして AI音声という分野において人力による音声コーパスの整備が進むでしょうか？

声優との関係性

AI 音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています。

また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています。

AI イラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合、データの提供者たる声優と相互理解のある関係を保ちつつ発展してきたことを強調しておきます。

その他

動機付け

もともとナレーションの分野においては、既に十分な品質の音声合成ソフトが存在します。

AI イラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています。

ASMRにおける課題

そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAI イラストほどの脚光を浴びるとは考えづらいです。

Permalink | 記事への反応(0) | 17:57

2023-03-09

■anond:20230309231620

ゆっくりというか音声合成界隈は、解説か劇場が主戦場だからね

ターゲット層が明確な分たいへんだよ

Permalink | 記事への反応(1) | 23:29

2023-02-07

■オレオレAudbleを作ろうとしてる

自炊した書籍のPDF データとかをOCRに噛ませる→更に音声合成システムに噛ませてオーディオブック化するっていうのを試してる

法的にはよく知らんけど私的利用なら多分大丈夫？

テキスト化までは成功してて、試しにvoiceboxに読ませてみたんだが流石に誤読が多すぎる

adidasもエーディーアイディーエーエスって読むからなんのこっちゃってなった、まあそういう用途は想定されてないわな

Amazon PollyかGCPのText to Speechのデモ試したら良い感じだったからこっち試そうかな

毎月400～500万文字くらい無料らしい、そこそこぶ厚めの技術書でも文字数は10万とかだったりするからまあ事足りるかな

明日はそっち試してみよっと

Permalink | 記事への反応(0) | 01:39

2023-02-06

■[qrng] AGIって結局どうなったの？

「誇大広告と現実の違いを理解する必要がある」これはAIにしろ量子コンピュータにしろ言えることだ。

ロケットに関しても、火星に移住するようなレベルに達するのかというと、それよりも地球上で様々な問題が顕在化するのが先だろう。

AGIについては、誰もその方法を知らないと言える。ここ10年で起こったことを踏まえたら、それはヒントにはなるだろうが、その多くは非常に単純な技術である。

2030年にAGIが誕生する可能性はどのぐらいあるのか。50%でも希望的観測だと考えている。

ディープフェイク、チャットボット、音声合成、画像生成など色々あるように思うが、本質は「transformerにポン」だ。進歩しているのは莫大な計算資源を扱う人間のスキルであり、数学的な進歩はそれほどあったとは思わない。

「シンギュラリティ！」と発狂しながら言っている他界系は沢山いるが、「特定の能力を持ったAIを仕事に配備して何でも自動化する」ということが可能になる範囲には確かに興味がある。

例えば「新しい漫画を作りたい、そのために必要なリソースを設定してアウトプットを出してくれ。ストーリーは大体こんな感じだ」とAIに命令する。「リソースの見積もりができました。それを実行するためには500ドル必要です。支払いますか」「はい。支払います。ポチ」「しばらくお待ちください...出力がダウンロードできます」みたいなものだ。

現在のアレクサやらSiriやらは全然ダメで、特殊化されすぎているし、仕様もなんとなく投げやりである。この方向ではAGIにはなりそうもない。「人の声」なんてインターフェイス部分は本質ではない。

GPTなどの巨大言語モデルは、学習後のパラメータが巨大ではあるものの、ソースコードはとても単純で短い。

つまり今後進歩が望めるとすれば、一つはハードウェア的な進歩であり、1)ハードウェアの能力, 2)ハードウェアの価格, 3)ハードウェアが誰でも使いやすくなる、といった方向だろう。

AIの最先端企業で働く連中は「集団思考」に陥っており、それを避けるために独立して研究開発する人々もいる。投資先としての魅力があるかはわからないが、一つは潤沢にハードウェアを使えるかどうかが鍵だろう。

しかしダメな投資先とは、「OpenAIのAPIを使ってちょっぴりファインチューニングして画像生成とテキスト生成をしました」というタイプの連中だ。これは一時的な炎上で資金は貰えるかもしれないが、優位性がすぐに失われる。

優位性という意味では、メインストリームではないアイデアを模索しているところも投資先としては魅力的かもしれない。

Permalink | 記事への反応(1) | 13:05

2023-01-31

■Colaboと東京都を叩く時事系VTuber共が

音声合成で「都」と「みやこ」と読ませるのはわざとなのか？

自分の作った動画を点検しないのか？

やっぱり知能の低い連中は格が違うなｗ

Permalink | 記事への反応(0) | 20:15

2023-01-23

■「草々」を「くさくさ」って読んでColabo批判する犬型時事系YouTuber

音声合成じゃなくて音声変換だからレベル低すぎ

Permalink | 記事への反応(1) | 11:44

2023-01-20

■解説 動画ってどう作ればいいんだろう

音声合成アプリと動画編集ソフトはある

けれど根本的にどうすればいいのかよくわからない

いろいろな動画をみてはいるけど実はスライドを参考にしたほうがいいんだろうか

あと、合成音声だと聞き取りづらいからと思い字幕をいれているが、それだと肝心の中身にかぶってしまい手間と見づらさが増している

かといって中身だけでは差別化できないのでキャラ同士の簡単な掛け合いを必要とするため、やはりゲーム風に字幕があったほうがいいんだろうか

書く内容は決まっているのに動画にすると滅茶苦茶難しい

ただ、作っているうちに自分の書いた内容を強制的に読み返すこととなり内容の不備を客観的に理解するには助力している

Permalink | 記事への反応(2) | 15:02

2023-01-14

■feat.という、やたらと目にする謎の歌手

何者なの？

声の幅も広くて男声も女声もやるから、同一人物ではないよね？

初音ミクとかずんだもんみたいな音声合成キャラクターなの？

Permalink | 記事への反応(4) | 23:30

2023-01-10

■anond:20230109184216

音声認識・音声合成で ChatGpt と連携させてるけど、結構いい感じだぞ

Permalink | 記事への反応(1) | 01:25

2022-12-06

■anond:20221206070652

シーケンサーとシンセサイザーの出現で自分で弾かなくても好きな音楽が演奏できるようになっても、ギターやピアノをやる若者は絶滅していない

将来、音声合成が人間と同等の声を出せるようになっても歌を歌う若者は絶滅しないだろう

Permalink | 記事への反応(1) | 11:58

2022-11-07

■anond:20221106160447

・さっき英単語人力学習中の増田が知らない英単語いれてＡＩにかかせて「あ～こういうことね」ってなるっていってた

・さっきいらすとやを学習させてみた人が「やっぱ画家名でクローンするのたちわりぃな」っていってた

・さっき描画ＡＩではなく音声合成ＡＩで日本語声優さん２８００名ぶちこまれてる人が「これもヤバい、いらすとや本人なら仕事につかえそうだ」っていってた

結局、調教したり、「これが心地いい」って判定するのは人間なんだよな

でも秘伝のタレみたいに「うちの家系はこの呪文をＡＩにいれれば代々安泰だ」みたいになるとおもしろいね

代々魔術をうけつぐ家で…蟲の絵とかみせつけられて脳内レイプだの虐待されるんやで…

Permalink | 記事への反応(1) | 19:16

2022-11-04

■アニメ キャラ2890名分の音声を学習した音声合成が中国で出てるらしい

https://twitter.com/superwadorude/status/1587775494623141888

githubで公開されている音声自動生成AIが日本のアニメキャラ2890名分の音声を学習素材に超速度で進化中
各キャラごとの声質に寄せつつ、日本語以外にも英語中国語韓国語で話させるという芸当も可能なようだ

包含2890名动画角色的VITS语音合成模型 https://t.co/zl6zGGZlXx

(続く)— 鄧晟鉉 (@superwadorude) November 2, 2022

Permalink | 記事への反応(0) | 18:46

「音声合成」を含む日記

■琴葉茜の件は外野がうるせーって思う

■音声合成のYoutube動画

■ポスト岸田

■音声合成技術ソフト、本人の承認を得られず発売延期

■１６年かけてもボカロはシャロン・アップルにはならなかった

■日本の音声合成＋立ち絵文化って独特だよな

■ゆっくり解説が日本のYoutubeを破壊した

■人型ロボットの未来