はてなキーワード: 音声合成ソフトとは
生成AIは特にイラストに関わってる身である私としても現状見る限り非常に問題で、人の作品を学習データに無断で用いられる問題、意図的に元ある作品の構図を寄せて生成できる技術を使って作品を生成される問題、学習データに用いられる問題が肖像権とかに触れているレベルで問題視されてる問題等々、上げたらキリがないほど問題が山積みです。
悪用している人らもそんな被害を受けた作家を煽るなどを行ってるらしく、この問題を深刻化させ、作家の憎悪を募らせている。
挙句の果てには作品を無断で学習データにさせられ、望まぬ形の生成データを作られ更には嫌がらせなどを受けてついに筆を置くことになってしまった作家さんの事件を目にし、私は心を痛めました。
同じ作家としてもこのような被害を受けたくはありませんし、何より同じような悲劇を繰り返すべきではありません、作家の被害をこれ以上増やさないためにも、この問題は終わらせなければならない。
だからこそ、この問題を終わらせるためにも、生成AIに反対、生成AIを問題視してる人たちには問題に取り組む上で押さえてほしいポイントをいくつかお伝えしたいことがあります。
昨今の生成AIの事件を見る限りや、現行法で起きてる事件に対して対応が難しいのであれば法整備をするのが当然と思います。
中にはAIそのものに「規制をすべき」といった意見もありますが、正直のところ言えば私は単に規制するのでは被害を防いだり、被害者を救うことはできないと思います。
「事例があるから一律禁止にしましょう」とやったとしても守るべき被害者を助けることができず、当事者であるはずなのに取り締まりの対象になってしまったり、かえって被害者までも負担になったり…なんてケースはありえなくない話です。
もしかしたらそういう動きを利用して形だけの手抜きな法律を作られたり、人権を無視した国民のコントロールを目的とした法を作られたりする動きを狙ってる人がいると考えてもおかしくありません。
昨今の生成AIの問題に注目が集められ、作家やファンが問題視し声を上げ、政治にも関わるのは民主主義としてあるべき姿であると感じる傍ら、このままで大丈夫なのかと心配な面と不安が大きくなってしまってます。
法を変えることは当然ながら副作用も存在します。安直で雑な規制はAIではない創作活動を萎縮させかねなかったり、ボーカロイド等の音声合成ソフトウェアが潰されてしまう可能性も0ではないことも忘れてはなりません。
私は法整備に関わってる人たちが安直で雑な法整備をせず、被害者である作家を救い、被害を的確に防げる方法で且ついたずらに創作活動に萎縮をもたらすようなことがないように整備してもらうことを切に願うと共に、この問題はしっかり注視していく所存です。
生成AIに好意的だったり、利点や展望を考察したり、規制に慎重な意見に対して、生成AIに反対する人たちからは「生成AI推進派だな」とか「作家の権利を無視してるのだな」と思われるかもしれません。
これだけはきちんと言わせていただきますが生成AIに好意的だからと言って作家の権利を無視してるとかこのままでいいと思ってるわけではないことも事実です。
「規制では解決しない」で書いた理由を気にしてる方もいらっしゃいますし、利点と展望、問題の解決を考察し正常化を図ることで安全な技術発展を目指す方もいらっしゃいます。まぁ、現実そんな姿勢を示してる人を見かけたのは少数ではありますが(表で見えてない可能性も念のためご留意下さい)、典型的な先入観がかえって生成AIを問題視する私たちを不利にしてしまうことにもなります。
意見が合いづらさを感じるのも、疑念を抱く気持ちもわかりますが、決めつけるのは気を付けた方がいいと思います。
生成AIに対して肯定的であれ、否定的であれ「それ、思い込みで言ってない?」って意見をあふれるほど見かけました。
これはこの問題を考えていく上で大切である「前提」が伝わってないのかもしれません。
AIの仕組みや法律等を正しく知ることは問題を解決することに於いて大事なことだと思います。特に生成AIをどうにかしたい、一刻も早く解決させたい人ほど尚更大事なことです。
また、SNSは不特定多数が利用しているので、全員が全員同じ認識ではないことはおろか、そもそも全く知らないなんてことも不思議なことではありません。
トラブルを最低限避けるためにも知ってる人ならそう思って当然って感じる常識も丁寧に説明するのが一番いいかもしれません。
生成AIの問題が思った以上に深刻であり、一刻も早い解決をすべきとも考えていますが、やはり解決していくにあたってどうすればいいかはちゃんと冷静になって取り組んでいかなければ明後日の方向にとんでしまうのではないかと危惧しています。
最近ある人物について気になってるからちょくちょく検索して動画を積極的に探している。
で、見つけたらほとんど再生されてないような動画も見てみるけど、内容がおかしい。
日本語としてはおかしくはないけど、内容が「その人物周辺でそんなことあった?ほかのチャンネルでは一切触れてないけど」と思うようなのばっかり。
そういえばチャットAIが話題になった頃に、自動で動画を作成する方法みたいな動画を見かけたけど、ああいうのを地味に実践してる人なのかね。
動画作成からアップまで完全自動化できるなら労力かからないし、やってみたって感じかもしれんけど、ほとんど再生されてないしそう簡単には儲からないようだ。
論旨
無断で数千人の声優を学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセントも不安定で「演技泥棒」には程遠いです。
最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。
音声合成の学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います。
演技というものは台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います。
文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。
文章で想定している(文章を構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります。
音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパスの文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります。
加えて、現在の音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。
上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体がデータに適さない場合もあるため、それらの選別も必要です。
音声合成用に収録された音声コーパスであれば、読み方やアクセント、ノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。
このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります。
AIイラストの成功には、イラストへの人力でのタグ付けが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?
AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています。
また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています。
AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合、データの提供者たる声優と相互理解のある関係を保ちつつ発展してきたことを強調しておきます。
もともとナレーションの分野においては、既に十分な品質の音声合成ソフトが存在します。
AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています。
そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。
昨年話題になったアニメ、「ぼっち・ざ・ろっく!」について少し語らせて欲しい。
アニメ制作・音楽制作陣の制作にかける熱量の高さが見る側にも伝播している作品のようにも思うし、
制作・音楽に対しては語られる機会も多いので、今回は主人公、ぼっちこと後藤ひとり役の声優、青山吉能の魅力について語らせて欲しい。
主人公らしさも残しつつ、相反する陰キャ感の再現、キャラクターを失わない範囲でどこから出しているのか解らない奇声の数々。
最終話のBGMでかかったアジカンのカバー曲「転がる岩、君に朝が降る」の、自信の無い感じだが、ちゃんと聴かせる歌唱。
どれも「キャラクターとして」きちんと再現していて、彼女からも他制作陣に負けない気迫のようなものを感じた。
「ぼっち・ざ・らじお」というアニメのラジオ企画。無料でYouTubeでも聞けるので是非聞いて欲しい。
http://www.youtube.com/watch?v=__P57MTTjyw
アニメの中のバンドメンバーがゲストに出る回もあれば、1時間近くを青山吉能がフリートークをしている回もあるのだがとにかく面白い。
時には好きなフレッシュネスバーガーのスパムバーガーという限定商品が終わってしまうという、アニメに全くのない話を長々とし、
フレッシュネスバーガーの下北沢店でぼっち・ざ・ろっく!とのコラボも決まるなど、青山吉能のフリートークの面白さも素晴らしければ、
その才能を理解して自由奔放に語らせる判断をした「ぼっち・ざ・ろっく!」制作陣の素晴らしさをここでも発見することができる。
ぼっち・ざ・ろっく!のコンテンツではないが、青山吉能が書いているコラムも独特の文章とリズムで書いてあり、面白い。
トークも文章も、どこか噺家のようなリズムを感じるのは気のせいだろうか。
https://www.animatetimes.com/tag/details.php?id=10140
彼女の演技力、フリートーク、文章の面白さはどこから来るのだろうか?
勿論、努力があってのことだが、そのキャリアを見ると少しだけ紐解くことができると思う。
声優・青山吉能のキャリアのスタートは「Wake, Up Girls!(WUG)」というエイベックスが制作したコンテンツだった。
当時はまだ熊本の高校生で、金曜日の夜に東京に出てきて日曜日の夜に帰る生活だったそう。
そのWUGにおいて、7人のメンバーの中でリーダーという立場の「七瀬佳乃」役を担当することになる。
リーダーではありつつも、熊本に住んでいるが故に在京のメンバーより露出も少なく、できる仕事も少ない。
また、メンバー内には山下七海、田中美海といった現在も大活躍している人気のメンバーもおり、
他のメンバーよりも少ない仕事の中でできる限り自分をアピールしなければならない。
メンバーが日替わりで書いていたブログも、そういった理由からか、このブログで1人でもファンを掴みたいというのが感じるものがあったし、
また、WUGは中の人がライブでアニメのキャラクターとして立つ、いわゆる2.5次元コンテンツであったが
エイベックスが制作しているせいか、時間をかけてレッスンを積んでいるのが感じられ、
ダンスパフォーマンス・歌唱に関しては声優ユニットと呼んでいいか解らないくらい定評があった。
WUGで数多くの生放送の出演機会があったし、メディアへの露出の機会もあった。
現在まだ26歳だが業界歴は中堅どころに入り、フリートークと文章・表現力の面白さ・歌唱力はWUG時代に研鑽されていったように思う。
ただ、アニメ好きの人はご存知の通り、WUGは人気が伸び悩んだコンテンツでもあった。
だからより一層それを跳ね返そうというのをメンバー7人からも感じられるコンテンツでもあったし、
ファンとしても中の人含めこんなに素晴らしいところもあるのに。と長年思ってきた。
青山吉能が声を担当している音声合成ソフト、小春六花の制作のクラウドファンディングでは一番高い20万円のコース(10枠)が一瞬で完売した。
https://www.youtube.com/watch?v=MKM1cKzfNjA
そして今、「ぼっち・ざ・ろっく!」で多くの苦悩と努力の末に、声優 青山吉能が評価されている。
報われたと思った。ファンも、そしてきっと本人も。
個人の視点から振り返るものなので客観性や網羅性、資料的価値はない。
何があったかよりも、それについてどう感じたか、どう思ったかを書く。
2018年にはみんな知り合いのようだったVtuber界隈も年々リスナーの囲い込みが進み、同じVtuberを名乗るものであってもだんだん交流しなくなっていった。しかしそんな風潮の中でも、なんだかんだキズナアイは、2022年に消える直前の時期でも、箱を超えた大型企画をやっていて、にじさんじのような最大手から、Re:actのような小さな箱、そしてその他個人勢まで広く繋がりを持っていた。
そのおかげで、キズナアイが集めた場においては、普段ならまず関わることのない大手Vと弱小Vとの交流があったりして、地位や立場は大きく違えど、同じVtuberとしての一体感があった(と自分個人は感じていた)。
そんなみんなのハブとなっていたキズナアイが消えて1年、Vファンの囲い込みはますます進んだ。箱を超えた大型イベントなど誰も企画しない。大手V同士のいつメンコラボや弱小箱のいつメンコラボならあるが。小さく狭い繋がりはより深まったのかもしれない。でも、広く、浅く、ゆるく、同じ「Vtuber」と名乗る者としての一体感はもうないんじゃなかろうか。
正直これでよかったという見方もあるだろう。
大手のVからすれば弱小Vと関わるメリットなどないし、下手に繋がるのはリスクでしかないのだから、今の流れが当然で、むしろ誰彼構わず繋がろうとするキズナアイが異常だったと。
2022年夏にお絵かきAIが、2023年初めにChatAIが、爆発的に普及し始めた。この流れの中で、本物のAItuberが誕生し、リスナーをそこそこ満足させる配信をできるようになった。インテリジェントなスーパーAI(という設定)のVtuberがSiri相手にコントを繰り広げていたときから6年、とうとうここまできたかと感慨深くなった。今キズナアイがいたらどんな動画をとったんだろう?どんなコラボをAItuberとしたんだろうか、と。
後述する音声ソフトと対話AIを組み合わせたら本当にアップデートしたキズナアイとして復活するシナリオもあるんでは、と妄想している。
消える時に発表された子分の音声ソフト、kzn。昔のVocaloidなどとは違い、歌声がほぼキズナアイ。見た目がほぼ同じ3Dモデルもある。秋ごろからたまにDJ配信をしたり、オンラインライブをやったりしている。事情をよく知らない人がみたら、キズナアイって引退したんじゃないの?なんでまだ活動してるの?と混乱するんじゃなかろうか。
ワンピース様様、ado様様なのだが、キズナアイの親会社、activ8が制作を担当した3Dモデルのキャラがactiv8の演出で、2022年の年末にMステやCDTV、紅白というV界隈の総リスナーの何十倍もの視聴者がいるメディアでパフォーマンスすることができた。そこで披露された技術、演出の数々はキズナアイのライブで培われたものだったので、activ8もようやく日の目をみたんだねと後方親戚面で感慨深くなっていた。
これも消える時に発表されたものだけど、キズナアイのアニメができることになっている。PVを見た感じ、アイドルものっぽい?キズナアイは脇役だった。
4月から放送されるらしいんだが、放送前からYouTubeでキャスト集めて配信したりしている。見てみたが雰囲気がラブライブやアイマスのネット番組みたいだった。そこにプラスしてバーチャルな飛び道具が仕込まれている。特にライブパートの力の入れようがすごくて、モーション流し込みや別撮りじゃないのに、あれだけ細かく複雑な動きを破綻なく生で見せるのは裏方の技術・演者の技量的にかなりすごいことをやっている。ただ同接3桁の過疎配信だったので本放送始まる前からこれで大丈夫なの?って感じ。普段Vを見てるタイプはこの手の番組見なさそうだし、有名声優がいないので普段声優番組見てる層も見なさそう。
新しくて変わったことやってるけど、多くの人が見て面白いことなのかはわからない。昔からactiv8はそんなところあるのである意味通常運転。まあでもラブライブの新シリーズのネット番組よりはバーチャルの扱いが上手かったのでそこはさすがだなと思った。バーチャルって表情の操作や手指の細かい動きができなかったら情報量が少なすぎてめちゃくちゃチープになるからね。ラブライブの能面着ぐるみアバターはちょっとに正視に耐えなかった。
Vtuberに一体感がなくなって、リスナーにも一体感がなくなって、他所の箱や個人勢を目にする機会がゼロに近づく中で、唯一新たな出会いを提供してくれたのがYouTubeショートだった。ウケる動画をちゃんと作れば、知名度ゼロでもバズるチャンスをくれるショートは弱小Vの希望の光だろう。この1年、ショートのフォーマットにうまく適応して銀盾に行きついたVが何人もいる。一方で、4年5年とやってる古参Vでありながら、惰性としかいえない配信を繰り返し、ずっと停滞してるVもいる。やはりどんな業界であっても、変化し続けることは大事なのだなと思わされた。
Vtuberは今年もさらに囲い込みが進んでいくんだろうなと思う。「Vtuber界隈」というくくりはなくなって、ホロ界隈、にじ界隈、古参Vtuber界隈などへと分化、深化していって、話が通じなくなっていくのかなと。
上ではあげてないけどVtuber文化の成長・成熟を感じさせるニュースはいっぱいあった。
大手V企業が上場したり、V史上最速100万登録達成する大型新人が現れたり、ファーストテイクに出るVだったり、有名アニメのED歌ってMADのネタ提供するVだったり、tiktokでバズる音源作り出すVだったり。個々の企業、個々のVの力はまだまだ伸び続けるし、一般社会へもますます浸透していくんだろう。
でもそれと反比例して、Vtuberたちを隔てる垣根はどんどん高くなっている。
「みんなと繋がりたい」を掲げていたキズナアイが、いつか戻ってくる時があったとして、そのとき彼女の居場所は残っているのかな?
元々初音ミクあたりの第一次ブームはほそぼそと続いていたんだけど、最近は歌唱ではなくてナレーションがメインになりつつある。
特にVoiceVoxという無料音声合成ソフトが極めて強くて、キャラクターは既に10人以上。つい数週間前に3名追加されたと思ったら、また3名ほど加わるときている。しかも既存キャラにも感情表現が追加されるなどアップデートが凄まじい。
ほかにもCoeiroInkとかShareVoxとかも出てきて、各方面のキャラがこういうものに参加するのがちょっとしたトレンドになってきている。
有料版のAIVoiceとかにもまた新キャラがここにきて加速度的に増えてきた。
もともとゆっくりボイスが主流で解説といえばゆっくりだらけだった。それがYoutube側からの大幅な規制を受けるようになり、ゆっくりだけが理由ではないにしろ確実にVoiceVoxとかのシェアが増えていった。とくにVoiceVoxのずんだもんが人気になったのが後押ししたんだろうな。
タイトル通り。
「○○を知らない奴はにわか」
「友達の自称ボカロ厨が○○?知らないとか言ってて(^ω^💢)」
新参「ねえボカロ曲何が好き?私ボカロ厨だからなんでもわかるよ!フフン」
古参「うーん、○○かな」
古参「」
みたいな自称古参・ボカロ廃による発言がかれこれ十年以上も繰り返されてる。
これいつまでやるんだ。そしてその自称ボカロ厨の友達は実在するのか。
カ○プロ、脳○炸○ガール、その他新しい"爆発的な流行り"が出てくると必ず湧いてくる。
実際にどのジャンルにも、知ったかぶって人を不快にさせる新参がいるのは紛れもない事実だと思う。
また同様に、そういった"仮想敵"を作って排除しようとする古参もボカロ厨に限った話ではなく、どこにでもいる。
なので主語を大きくしすぎるのはよくない、よくないが。
それにしてもボカロ厨は酷すぎると思う。
ずっと何年も何年も繰り返してる。流石に異常だ。
声高に主張する人、自ら発信はしないが静かにその意見に乗っかる人。そういった数があまりに多すぎる。
この十年で全く同じ人物だけが残っているのかと思うほどに、驚くほど同じことを繰り返しているのだ。
━━━━━━━━━━━━━━━
そもそも、乱暴な言い方にはなるがボーカロイドは音声合成ソフト。いわば楽器なのだ。
勿論私は初音ミクをはじめとしたボーカロイド達もキャラクターとして大好きだ。
でも、彼女らが歌う曲は何百何千といった"ボカロP"と呼ばれるクリエイター達が作っている。
同じ「ボカロの曲が好き」でも、ロック系が好きな人と落ち着いた曲が好きな人では当然聴きたいと感じる曲が変わってくるわけで。
何が窓口であってもいい、偏っていてもいい。その選択肢の多さも魅力のひとつではないんだろうか。
何故「○○を聴いていない奴はにわか」だと断言してしまうのだろうか。
確かに昔から存在するボーカロイド達を「プロセカの」と言われるのは不快だろう。ただ、プロセカで各セカイ毎に味付けされたバーチャルシンガーが好きな人もいて当然なのではないだろうか。(例えば私はニゴミクやダショルカが好きだ)
もう少し大人になったらどうだろうか。
━━━━━━━━━━━━━━━
あとこれはボカロ厨に限った話では無いが、「○○は××の曲!」みたいなそういう目立つお馬鹿さんは果たしてほんとに盲目新参オタクなんだろうか?
「あなたのせいでAちゃんやBくんが配信を始められないから早く終わってくれないか?」といったコメントをする者がいた。
が、蓋を開けてみればそれは別事務所のVTuberの視聴者だったということが過去のコメント履歴等から判明した。
こんな風に、ネットでは簡単に誰かを装って、別の誰かを貶めることが出来てしまうのだ。
少しはその頭で考えてみてほしい。
━━━━━━━━━━━━━━━
ここまで読んで、「じゃあお前が非難していた"ボカロ厨"はどうなんだ」となるかもしれないが、確かにそれも言えるかもしれない。
が、そうだとするにはあまりにも数が多すぎる故に、例えばTwitterに絞ったとして、その発言をする者、またそれに賛同する者、それらの該当アカウントの日頃の発言を見ても120%しっかりボカロ厨なパターンが多すぎるのだ。
なんだったら「○○はプロセカの曲!」みたいな発言をしているアカウントの方が正体不明の新規垢だったりしてしまうのだ。なぜそんなアカウントを本物の害悪だと信じてしまうんだ。
何年もの間ボカロ厨に擬態しているアンチが何百人もいるとかならわからないが、果たしてそれは現実的だろうか。
一度、「そんなことない!」と思考停止せずに考えてみてほしい。
それでもう少しマシな世界になってほしい。
動画編集ソフトのダビンチは基本的に実写動画の加工がメインだ。どちらかというと映画などで使われることが多くて、日本のようなアニメーションを多用する切り貼り動画にはあんまり向いていない。
その上に元々がカラーグラデーションの調整に特化したソフトということから、AdobePremireとかの本格的な動画編集ソフトより使い勝手や機能は劣っている。しかも珍しくノードを基準にしているので、レイヤーで考える普通の動画編集ソフトよりとっつきにくい。海外産ということもあってQ&Aもあまりなくて日本語ローカライズが中途半端ってところから、日本の利用率ってあんまりない。
無料な高機能ソフトなのでチャレンジした人もいるはずだけど、ちょっとしたVLOGの切り貼りならともかく、ゆっくり動画とかには全然使えなかった。なにせ矢印や四角形を置くこと一つが手間を要すんだもの。
特にゆっくりのキャラに口パクさせたり自在に動かすってのはダビンチには向いていない。
というのは1年位前までで、最近になってその考えがちょっとだけ変わってきた。
VoiceVoxやゆっくりボイスを簡易的に連携させたり、口パクやキャラの動きをつけたりといったことが楽になるツールが開発されているからだ。最初こそ補助的に使えるかなってものだったが、もはや立ち絵と音声合成ソフトがあれば十分に使えるレベルにまでなっている。YMM4の使い勝手にはあと1年程度で追いつくんじゃないかな。
そのころにはYoutubeの解説動画関係が軒並み下火になっているかもしれないが、なんにせよ日本語でダビンチのツールが開発中ってところにオラワクワクすんぞ。
そのため彼らの楽曲にどれだけの楽器が用いられているかで原理主義の度合いがわかる。
Nasheed(ナシード)と呼ばれる伝統的な音楽は声で構成されているが、世俗的な国だとリズム隊が加わることがある。あとラッパ。
Maden Kal Sayf - Abo Ali
https://www.youtube.com/watch?v=8NTrHRhp1Qk
メロディが美しいのと、原理主義には叩かれがちなハンドクラップを避けて足踏みを使用したチャレンジングな部分が素晴らしい。
高音で出ていったボーカルが帰ってきてコーラスと重なるところたまらん
ちなみにSoundCloudだともっと世俗的な曲やゆったりした曲も聞けるぞ!
https://soundcloud.com/tags/nasheed/popular-tracks
でも自分は勇ましい曲や無旋律が好きだぞ! 西洋音楽も中世の教会音楽すこ
ところでこんな事があった
タリバン、人気歌手を殺害…「イスラムでは音楽は禁止」と述べた数日後に
https://www.businessinsider.jp/post-241317
これでアフガニスタンのタリバンの宗教指導は極めて原理主義的なことが判明した。
そんな彼らにとって人力ボーカロイド(いわゆる本家のVOCALOIDのような音声合成ソフトではなく、手作業で肉声を切った張ったの音声編集して作られる音源)は許されるのだろうか?
誰か問うてみてほしい。
GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。
2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。
はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AIの記事を見た人も中にはいるだろう。
人の歌声と区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。
人間のボーカルを録音してピッチ修正をしている人だと、Melodyneでピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、
歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。
実際にソフト開発側もわかっていて、マニュアルで修正する手段を用意しているので、それに引きずられてしまうのだが、
声は複数の周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。
実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。
また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。
機械音声の場合、ゆらぎがなく、〇〇周波数がピタッと出ており±15Hz揺らぐといったことがない。
ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。
見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、
これについて言及した文献を探せていない。
さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。
「あ~」のように伸ばした音の場合、ピッチ調整で波打つようなのを手書きしたことがあるDAW経験者はいるだろうが、
人の声を調べると倍音の数が徐々に変わっていたりする。
現行のソフトでピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、
この辺りが機械学習で解決しているかというと、あまりなっていないように感じている。
思っていたよりクオリティが低いのだ。
なぜか。
一つの仮説だが、RNNやTransformerといった、ニューラルネットの構成ばかりに気にしていて、
何かしらかの演算で前処理を行ってからニューラルネットに入力するわけだが、
前処理段階で捉えられていない特徴量があるのではないだろうか。
また統計処理を行う際に、計算精度によって丸め込まれてしまっているのではないだろうか。
プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフトは自動化が出来ない。
何年経ったとしても、良くならないのだ。
この辺り、修正前と修正後のデータがあるのだから、学習していってより便利になればいいのだが、そうはならない。
スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。
ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。
日をまたぐと体調も変わってくる。
同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。
自分で合成音声をやってみるとわかるが、学習に計算リソースがかなりかかる。
家にいないといけないので、何かやることはないかということで、
Youtuberで稼ごうとは思っていないけど、動画はよく見ていたのでWindowsのデフォルトビデオエディタでいいので動画作成でもしてみようかしらと思って
Softalkでもいいのだけど、よくボイスロイドやCevioの色々な動画見ていたので、せっかくだし買ってみようと思って買うことにした。
某ブクマカのアイコンでおなじみ結月ゆかりから吉田くんや今月でた、ガイノイドトーク『flower』までいろいろ調べて悩んだけれど、
ちょうどCevioがVectorで2割引セールをしていたのでお試しで安かったので、トークスターターだけを買ってそれを選択。お値段は5,280円
(なお歌を歌わせる機能も欲しいならさとうささらちゃんのセットをソースネクストで買うのが実は安い、体験版でかえるのうたを2小節作るだけで面白かった。いいなこれ)
動画ででるような挨拶だけさせても、なかなかかわいらしくて面白いけれど、
メニューの中にあったのが「青空文庫ファイル」を読み込む機能、これはボイスロイドでも似たようなことができるらしいが、ルビも読んでくれるかもしれない。
さっそく適当な作品を読んでデフォルト設定で読ませてみたけど、
何かいい、いろいろ忘れて浸れる感じ。
調子にのってうっかり吉川三国志1巻全部読み込ませたらコンピューターのスペックが追い付かないので無理だった。
でもちゃんと細かくファイルを区切ってあげたら、ラジオ深夜便風にいろいろな作家の作品が読めるし、
はてな民が好きな「隴西の李徴は~」で始まる山月記やら走れメロスやら色々な声を読ませると楽しそう。
そういうことなので、夜をリラックスして過ごしたい人にも音声合成ソフトはおすすめだということでした。
そんなこんなで引きこもり生活をゆっくりしていってね!!
他の増田も言ってるけど、適正のある仕事についてる奴らばかりの社会なら褒められるわけないだろ。カーナビの「お疲れ様でした」みたいな機械的な褒めが欲しいなら、音声合成ソフトで作った音声をタイマーででも流しておけ。
何にも適正が無い奴を淘汰とかそれこそエネルギーの無駄だろ。単純労働しかできない奴には娯楽は無駄だから給料などなくして奴隷化するとか、エサだけ与えて擦り切れるまで働かせて使い捨てるとかする方が効率的だろ。人間扱いしなくていいならそれが一番効率がいい。
淘汰といわず遺伝子操作、遺伝子管理が許されるなら繁殖も管理して、しかも受精卵検査を実施して劣等な遺伝子は産まれる前に排除するとかすりゃいいんじゃね?単一化されて遺伝子プールが画一化すると、その種の先は長くなさそうだけど。
まんまガタガだな。
ただただ生きてて許される時代は終わったんだ。
元増田はこんな事言ってるけど、与えられた「適正のある仕事」を機械的にこなして、繁殖管理されて、遺伝子操作されてるのが「人間」なの?家畜の間違いでは?
ぶっちゃけ淘汰や処分は効率が悪いので、人権を奪って奴隷化する方が効率的だよな。
まぁ、今のワープアの人たちは半分くらいそれに近づいてきてるけどな。