「音声合成」を含む日記 RSS

はてなキーワード: 音声合成とは

2024-06-22

琴葉茜の件は外野がうるせーって思う

ぶっちゃけ、例の人の事は何にも知らない

知っているのは琴葉茜のイラストでなんか活動していることだけ

それに対して自称ファンが怒るのは何となくわかる

だって絆星あかりや琴葉茜使った動画だしているからね

なんら政治的でない解説動画でも、"そういう人達"によるコメントがついたらスゲー気持ち悪いし、シンプルキャライメージを歪曲して定着されかねないので嫌な気分になる

けど、それを公式に問い合わせるのは違うし、公式だってあいしかないだろ

でなければ今までの緩いガイドラインを見直さなければならない

音声合成界隈は、昔から結構やばめなコッショリも多い

利用規約自体結構ガバから

そういう文化の元で産まれたし

なので大抵は怒られない

とはいえずんだもん系は流石に色々あったが


今回の件、俺は投票権ないし本人に関心もないかスルーしている

公式だってそんな泡沫が当選するわけないと思っているから、選挙までの一時的ものスルーするつもりだったんだろうが、外野が騒ぎすぎなんだよな


とりあえず、あかねちゃんかわいいやったーー、とだけいっとけ

2024-06-20

音声合成Youtube動画

「その方は、お帰りになりました」みたいな人間を指す「方」をほぼ100%、「ホウ」って読んでる。

「そのカタは・・・」と読んでるゆっくりとかボイスロイド(?)の動画を見たことがない。

めっちゃ気になる。

あいう音声ソフトって、読み方を修正させるのって手間がかかるの?

人間若いYoutuberが「ホウ」と言ってるのも見たことあるけど、こういう誤用が広まってるってことはないよな。

2024-06-18

anond:20240617214341

声優を使った商用音声合成エンジンでも人の手でチューニングしなきゃいけないか

チューニングせずに実用に足る精度になるのは10年以上かかると思ってる

2024-05-11

ポスト岸田

自民党に限ると、

 

上川原稿読むだけの人力音声合成ずんだもんでも代理できそう。

高市安倍の後光がなくなって空気

石破→党内は勿論、自民の固定支持層から無党派層まで幅広く嫌われている。カリスマ性0。

河野官僚無駄敵対してミンスの二の舞いになりそう。

野田→元暴力団員の嫁。反社の長としては最も適性が高い。

進次郎→カリスマ全振りの電波無能ではあるがコントロールやすい。お飾り適性が高く、最も首相の器がある。

 

上川高市野田あたりに任せて、選挙惨敗して、政権運営が行き詰まって「やっぱ女の政治家は駄目だな!」って空気を作って、合法的政治男尊女卑を維持するか、進次郎に任せて電波発言で耳目を集めている間に、他の議員官僚粛々と実務を進めていくか。自民党は前途多難だ。

 

河野と石破はさすがにない。

2024-04-16

音声合成技術ソフト、本人の承認を得られず発売延期

最初文句言わない契約書とか作らないんですかね。過去ソフトでもやらかしてるらしい。人変えなよ。めんどくせー奴でサンプリングするからこうなる。

2024-03-17

見えます……

近い将来、リアルタイムAI画像生成と音声合成によって、ライブ配信で完全に若い女性として振る舞うオジと、それに性的興奮を覚え、スパチャで金を吸い取られるオジの姿が……

まり技術に対するリテラシーの違いで、奪うオジと奪われるオジに別れるのです

オジとオジによるウロボロスの完成です

2023-09-01

16年かけてもボカロシャロン・アップルにはならなかった

AIによる音声合成技術が発達してフェイビデオを作ったりネカマになったりは随分楽になった。

だけどコンピューター歌手歌唱力はまだまだリアルと全く違う。

機械的であることを売りにした「ドモアリガトミスターロボット」のような楽曲を完成させることさえもまだまだ遠いように見える。

人間にもなれずロボットにもなりきれないモラトリアムの隙間に潜り込むことで永遠の何かを手にしようとしている節さえある。

最近ではボカロソングよりもボイロを楽器化した楽曲の方が可能性を感じるような節さえある。

結局初音ミクは圧倒的で絶対的人間以上の歌手には至らなかった。

サブカルチャー世界に強烈な地位を築き上げることは出来たが人間を超えることはなかった。

あの頃夢見た未来はまだまだ遠い。

2023-08-27

日本音声合成立ち絵文化って独特だよな

合成音声界隈は間違いなく日本が独走しているけど、これって日本以外ではあんまり流行っていない気がする

特に合成音声にキャラ立ち絵を組み合わせるってのは日本くらいしかやらないんじゃない?

Youtubeとかで海外の人の動画を見ても、日本のようなタイプってまず見かけない

地声や本人が出てくるパターンが多いんだよな

匿名文化日本が強いってのも理由にあるんだろうし、その需要を満たす程度には合成音声界隈が活発かつ立ち絵豊富ってのもあるんじゃない?

仮説というか感覚でしゃべってるから事実とは異なるだろうけどさ

ちなみに動画原稿が書けなくなったので気分転換につぶやいてる

2023-05-21

ゆっくり解説日本Youtube破壊した

まずこの2つの動画を見比べてほしい

海外https://www.youtube.com/watch?v=GPWxcTOJfR0&ab_channel=Thoughty2

日本https://www.youtube.com/watch?v=5iTmMvGAOU0

クオリティの差は言うまでもない

海外動画アニメーションをふんだんに使用して理解やすく没入しやす配慮がなされている。ナレーションも上手いし堂々としていて聞きやす

一方日本静止画中心で、何のために動画メディアを使っているのかわからないような編集

霊夢と魔理沙のいい加減うんざりするようなクッソくだらない茶番劇いつまでも擦り続け、化石レベル音声合成技術使用しているゆっくりボイスは壊滅的に聞き取りにくい

こんな低レベル動画フォーマットが氾濫してしまったせいで日本Youtubeは未だに石器時代レベル動画を量産し続けている

そんなものをありがたがっている視聴者視聴者である

2023-03-21

人型ロボット未来

ボストン・ダイナミクスロボットは、すでに体操選手のような凄い動きまで身につけているが、人との会話機能はなかった。

ここにChatGPTと、音声認識音声合成つんで、もうちょっと高性能になればいい。

人型ロボット技術要素はそろっちゃったんだな。

2003年4月7日から20年ほど遅れたが、未来きた感ある。

2023-03-19

anond:20230318142416

消えてはいないがプラットフォームが変わった

また、ハードウェアPCスマホになったことが大きい

加えて、音声合成ナレーションの分野のほうが需要あるからそちらにシフトしている

2023-03-17

anond:20230317111314

出てるでしょ

音声合成ホットな分野だしどんどん改善されてる

歌とかも人間が歌ってるのと区別ができないレベルになってるよ

2023-03-10

AI音声合成齧ってたので私見を述べる

論旨


演技音声の学習

無断で数千人の声優学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセント不安定で「演技泥棒」には程遠いです。

最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。


音声合成学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います

演技というもの台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います


データセットの問題

文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。

文章で想定している(文章構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります

音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパス文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります

加えて、現在音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。

上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体データに適さな場合もあるため、それらの選別も必要です。

音声合成用に収録された音声コーパスであれば、読み方やアクセントノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。


このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります

AIイラスト成功には、イラストへの人力でのタグけが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?


声優との関係

AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています

また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています

AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合データ提供者たる声優相互理解のある関係を保ちつつ発展してきたことを強調しておきます


その他

動機付け

もともとナレーションの分野においては、既に十分な品質音声合成ソフトが存在します。

AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています


ASMRにおける課題

そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。


2023-02-07

オレオレAudbleを作ろうとしてる

自炊した書籍PDFデータとかをOCRに噛ませる→更に音声合成システムに噛ませてオーディオブック化するっていうのを試してる

法的にはよく知らんけど私的利用なら多分大丈夫

テキスト化までは成功してて、試しにvoiceboxに読ませてみたんだが流石に誤読が多すぎる

adidasもエーディーアイディーエーエスって読むからなんのこっちゃってなった、まあそういう用途は想定されてないわな

Amazon PollyかGCPText to Speechデモ試したら良い感じだったからこっち試そうかな

毎月400~500万文字くらい無料らしい、そこそこぶ厚めの技術書でも文字数は10万とかだったりするからまあ事足りるかな

明日はそっち試してみよっと

2023-02-06

[] AGIって結局どうなったの?

誇大広告現実の違いを理解する必要がある」これはAIしろ量子コンピュータしろ言えることだ。

ロケットに関しても、火星移住するようなレベルに達するのかというと、それよりも地球上で様々な問題顕在化するのが先だろう。

AGIについては、誰もその方法を知らないと言える。ここ10年で起こったことを踏まえたら、それはヒントにはなるだろうが、その多くは非常に単純な技術である

2030年にAGIが誕生する可能性はどのぐらいあるのか。50%でも希望的観測だと考えている。

ディープフェイク、チャットボット音声合成画像生成など色々あるように思うが、本質は「transformerにポン」だ。進歩しているのは莫大な計算資源を扱う人間スキルであり、数学的な進歩はそれほどあったとは思わない。

シンギュラリティ!」と発狂しながら言っている他界系は沢山いるが、「特定能力を持ったAI仕事配備して何でも自動化する」ということが可能になる範囲には確かに興味がある。

例えば「新しい漫画を作りたい、そのために必要リソースを設定してアウトプットを出してくれ。ストーリーは大体こんな感じだ」とAI命令する。「リソース見積もりができました。それを実行するためには500ドル必要です。支払いますか」「はい。支払いますポチ」「しばらくお待ちください...出力がダウンロードできます」みたいなものだ。

現在アレクサやらSiriやらは全然ダメで、特殊化されすぎているし、仕様もなんとなく投げやりである。この方向ではAGIにはなりそうもない。「人の声」なんてインターフェイス部分は本質ではない。

GPTなどの巨大言語モデルは、学習後のパラメータが巨大ではあるものの、ソースコードはとても単純で短い。

まり今後進歩が望めるとすれば、一つはハードウェア的な進歩であり、1)ハードウェア能力, 2)ハードウェア価格, 3)ハードウェアが誰でも使いやすくなる、といった方向だろう。

AI最先端企業で働く連中は「集団思考」に陥っており、それを避けるために独立して研究開発する人々もいる。投資先としての魅力があるかはわからないが、一つは潤沢にハードウェアを使えるかどうかが鍵だろう。

しかダメ投資先とは、「OpenAIAPIを使ってちょっぴりファインチューニングして画像生成とテキスト生成をしました」というタイプの連中だ。これは一時的炎上資金は貰えるかもしれないが、優位性がすぐに失われる。

優位性という意味では、メインストリームではないアイデア模索しているところも投資先としては魅力的かもしれない。

2023-01-31

Colaboと東京都を叩く時事系VTuber共が

音声合成で「都」と「みやこ」と読ませるのはわざとなのか?

自分の作った動画点検しないのか?

やっぱり知能の低い連中は格が違うなw

2023-01-23

「草々」を「くさくさ」って読んでColabo批判する犬型時事系YouTuber

音声合成じゃなくて音声変換だからレベル低すぎ

2023-01-20

解説動画ってどう作ればいいんだろう

音声合成アプリ動画編集ソフトはある

けれど根本的にどうすればいいのかよくわからない

いろいろな動画をみてはいるけど実はスライドを参考にしたほうがいいんだろうか

あと、合成音声だと聞き取りづらいからと思い字幕をいれているが、それだと肝心の中身にかぶってしまい手間と見づらさが増している

かといって中身だけでは差別化できないのでキャラ同士の簡単な掛け合いを必要とするため、やはりゲーム風に字幕があったほうがいいんだろうか

書く内容は決まっているのに動画にすると滅茶苦茶難しい

ただ、作っているうちに自分の書いた内容を強制的に読み返すこととなり内容の不備を客観的理解するには助力している

2023-01-14

feat.という、やたらと目にする謎の歌手

何者なの?

声の幅も広くて男声も女声もやるから、同一人物ではないよね?

初音ミクとかずんだもんみたいな音声合成キャラクターなの?

2022-12-06

anond:20221206070652

シーケンサーシンセサイザーの出現で自分で弾かなくても好きな音楽演奏できるようになっても、ギターピアノをやる若者絶滅していない

将来、音声合成人間と同等の声を出せるようになっても歌を歌う若者絶滅しないだろう

2022-11-07

anond:20221106160447

・さっき英単語力学習中の増田が知らない英単語いれてAIにかかせて「あ~こういうことね」ってなるっていってた

・さっきいらすとや学習させてみた人が「やっぱ画家名でクローンするのたちわりぃな」っていってた

・さっき描画AIではなく音声合成AI日本語声優さん2800名ぶちこまれてる人が「これもヤバいいらすとや本人なら仕事につかえそうだ」っていってた

 

結局、調教したり、「これが心地いい」って判定するのは人間なんだよな

でも秘伝のタレみたいに「うちの家系はこの呪文AIにいれれば代々安泰だ」みたいになるとおもしろいね

代々魔術をうけつぐ家で…蟲の絵とかみせつけられて脳内レイプだの虐待されるんやで…

2022-11-04

アニメキャラ2890名分の音声を学習した音声合成中国で出てるらしい

https://twitter.com/superwadorude/status/1587775494623141888

ログイン ユーザー登録
ようこそ ゲスト さん