「音声合成ソフト」を含む日記 RSS

はてなキーワード: 音声合成ソフトとは

2024-02-05

生成AI問題視する作家として伝えたい

生成AI特にイラストに関わってる身である私としても現状見る限り非常に問題で、人の作品学習データに無断で用いられる問題意図的に元ある作品の構図を寄せて生成できる技術を使って作品を生成される問題学習データに用いられる問題肖像権かに触れているレベル問題視されてる問題等々、上げたらキリがないほど問題が山積みです。

悪用している人らもそんな被害を受けた作家を煽るなどを行ってるらしく、この問題を深刻化させ、作家憎悪を募らせている。

挙句の果てには作品を無断で学習データにさせられ、望まぬ形の生成データを作られ更には嫌がらせなどを受けてついに筆を置くことになってしまった作家さんの事件を目にし、私は心を痛めました。

同じ作家としてもこのような被害を受けたくはありませんし、何より同じような悲劇を繰り返すべきではありません、作家被害をこれ以上増やさないためにも、この問題は終わらせなければならない。

からこそ、この問題を終わらせるためにも、生成AIに反対、生成AI問題視してる人たちには問題に取り組む上で押さえてほしいポイントをいくつかお伝えしたいことがあります

規制では解決しない

昨今の生成AI事件を見る限りや、現行法で起きてる事件に対して対応が難しいのであれば法整備をするのが当然と思います

中にはAIのものに「規制をすべき」といった意見もありますが、正直のところ言えば私は単に規制するのでは被害を防いだり、被害者を救うことはできないと思います

「事例があるから一律禁止しましょう」とやったとしても守るべき被害者を助けることができず、当事者であるはずなのに取り締まり対象になってしまったり、かえって被害者までも負担になったり…なんてケースはありえなくない話です。

しかしたらそういう動きを利用して形だけの手抜きな法律を作られたり、人権無視した国民コントロール目的とした法を作られたりする動きを狙ってる人がいると考えてもおかしくありません。

昨今の生成AI問題に注目が集められ、作家ファン問題視し声を上げ、政治にも関わるのは民主主義としてあるべき姿であると感じる傍ら、このままで大丈夫なのかと心配な面と不安が大きくなってしまってます

法を変えることは当然ながら副作用存在します。安直で雑な規制AIではない創作活動を萎縮させかねなかったり、ボーカロイド等の音声合成ソフトウェアが潰されてしま可能性も0ではないことも忘れてはなりません。

私は法整備に関わってる人たちが安直で雑な法整備をせず、被害である作家を救い、被害を的確に防げる方法で且ついたずらに創作活動に萎縮をもたらすようなことがないように整備してもらうことを切に願うと共に、この問題はしっかり注視していく所存です。

AI肯定的作家権利無視してる」はやめた方がいい

生成AI好意的だったり、利点や展望考察したり、規制に慎重な意見に対して、生成AIに反対する人たちからは「生成AI推進派だな」とか「作家権利無視してるのだな」と思われるかもしれません。

これだけはきちんと言わせていただきますが生成AI好意的からと言って作家権利無視してるとかこのままでいいと思ってるわけではないことも事実です。

規制では解決しない」で書いた理由を気にしてる方もいらっしゃいますし、利点と展望問題解決考察正常化を図ることで安全技術発展を目指す方もいらっしゃいます。まぁ、現実そんな姿勢を示してる人を見かけたのは少数ではありますが(表で見えてない可能性も念のためご留意下さい)、典型的先入観がかえって生成AI問題視する私たちを不利にしてしまうことにもなります

意見が合いづらさを感じるのも、疑念を抱く気持ちもわかりますが、決めつけるのは気を付けた方がいいと思います

やっぱりAIについても法律についても正しく知る必要がある

生成AIに対して肯定的であれ、否定的であれ「それ、思い込みで言ってない?」って意見をあふれるほど見かけました。

これはこの問題を考えていく上で大切である「前提」が伝わってないのかもしれません。

AIの仕組みや法律等を正しく知ることは問題解決することに於いて大事なことだと思います特に生成AIをどうにかしたい、一刻も早く解決させたい人ほど尚更大事なことです。

また、SNS不特定多数が利用しているので、全員が全員同じ認識ではないことはおろか、そもそも全く知らないなんてことも不思議なことではありません。

トラブルを最低限避けるためにも知ってる人ならそう思って当然って感じる常識も丁寧に説明するのが一番いいかもしれません。

だいぶ長く書いてきましたが

生成AI問題が思った以上に深刻であり、一刻も早い解決をすべきとも考えていますが、やはり解決していくにあたってどうすればいいかちゃんと冷静になって取り組んでいかなければ明後日の方向にとんでしまうのではないか危惧しています

かくもいう私も具体的な解決方法を見出せているわけではありませんが、判断を見誤らず、厳密な議論必要だと思います

2023-09-20

YoutubeAIボット

最近ある人物について気になってるからちょくちょく検索して動画積極的に探している。

で、見つけたらほとんど再生されてないような動画も見てみるけど、内容がおかしい。

映像は固定で喋ってるのも音声合成ソフト

日本語としてはおかしくはないけど、内容が「その人物周辺でそんなことあった?ほかのチャンネルでは一切触れてないけど」と思うようなのばっかり。

そういえばチャットAI話題になった頃に、自動動画作成する方法みたいな動画を見かけたけど、ああいうのを地味に実践してる人なのかね。

動画作成からアップまで完全自動化できるなら労力かからないし、やってみたって感じかもしれんけど、ほとんど再生されてないしそう簡単には儲からないようだ。

2023-03-10

AI音声合成齧ってたので私見を述べる

論旨


演技音声の学習

無断で数千人の声優学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセント不安定で「演技泥棒」には程遠いです。

最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。


音声合成学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います

演技というもの台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います


データセットの問題

文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。

文章で想定している(文章構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります

音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパス文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります

加えて、現在音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。

上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体データに適さな場合もあるため、それらの選別も必要です。

音声合成用に収録された音声コーパスであれば、読み方やアクセントノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。


このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります

AIイラスト成功には、イラストへの人力でのタグけが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?


声優との関係

AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています

また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています

AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合データ提供者たる声優相互理解のある関係を保ちつつ発展してきたことを強調しておきます


その他

動機付け

もともとナレーションの分野においては、既に十分な品質音声合成ソフトが存在します。

AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています


ASMRにおける課題

そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。


2023-03-03

ぼっち・ざ・ろっく!主人公声優 青山吉能の魅力

昨年話題になったアニメ、「ぼっち・ざ・ろっく!」について少し語らせて欲しい。

アニメ制作音楽制作陣の制作にかける熱量の高さが見る側にも伝播している作品のようにも思うし、

私もすっかり作品の熱にあてられてしまったおっさんの1人だ。

そうするとオタクおっさん早口で語りたくなる。

制作音楽に対しては語られる機会も多いので、今回は主人公ぼっちこと後藤ひとり役の声優青山吉能の魅力について語らせて欲しい。

主人公らしさも残しつつ、相反する陰キャ感の再現キャラクターを失わない範囲でどこから出しているのか解らない奇声の数々。

最終話BGMでかかったアジカンカバー曲「転がる岩、君に朝が降る」の、自信の無い感じだが、ちゃんと聴かせる歌唱

どれも「キャラクターとして」きちんと再現していて、彼女からも他制作陣に負けない気迫のようなものを感じた。

ぼっち・ざ・らじお」というアニメラジオ企画無料YouTubeでも聞けるので是非聞いて欲しい。

http://www.youtube.com/watch?v=__P57MTTjyw

アニメの中のバンドメンバーゲストに出る回もあれば、1時間近くを青山吉能フリートークをしている回もあるのだがとにかく面白い

時には好きなフレッシュネスバーガースパムバーガーという限定商品が終わってしまうという、アニメに全くのない話を長々とし、

フレッシュネスバーガー下北沢店でぼっち・ざ・ろっく!とのコラボも決まるなど、青山吉能フリートーク面白さも素晴らしければ、

その才能を理解して自由奔放に語らせる判断をした「ぼっち・ざ・ろっく!」制作陣の素晴らしさをここでも発見することができる。

ぼっち・ざ・ろっく!のコンテンツではないが、青山吉能が書いているコラムも独特の文章リズムで書いてあり、面白い

トーク文章も、どこか噺家のようなリズムを感じるのは気のせいだろうか。

https://www.animatetimes.com/tag/details.php?id=10140

彼女演技力フリートーク文章面白さはどこから来るのだろうか?

勿論、努力があってのことだが、そのキャリアを見ると少しだけ紐解くことができると思う。

声優青山吉能キャリアスタートは「Wake, Up Girls!(WUG)」というエイベックス制作したコンテンツだった。

当時はまだ熊本高校生で、金曜日の夜に東京に出てきて日曜日の夜に帰る生活だったそう。

そのWUGにおいて、7人のメンバーの中でリーダーという立場の「七瀬佳乃」役を担当することになる。

リーダーではありつつも、熊本に住んでいるが故に在京メンバーより露出も少なく、できる仕事も少ない。

また、メンバー内には山下七海田中美海といった現在も大活躍している人気のメンバーもおり、

他のメンバーよりも少ない仕事の中でできる限り自分アピールしなければならない。

なにせリーダーなのだ

メンバーが日替わりで書いていたブログも、そういった理由からか、このブログで1人でもファンを掴みたいというのが感じるものがあったし、

高校卒業後もそのスタンスは変わらないように見えた。

また、WUG中の人ライブアニメキャラクターとして立つ、いわゆる2.5次元コンテンツであったが

エイベックス制作しているせいか時間をかけてレッスンを積んでいるのが感じられ、

ダンスパフォーマンス歌唱に関しては声優ユニットと呼んでいいか解らないくらい定評があった。

WUGで数多くの生放送の出演機会があったし、メディアへの露出の機会もあった。

現在まだ26歳だが業界歴は中堅どころに入り、フリートーク文章表現力の面白さ・歌唱力はWUG時代研鑽されていったように思う。

ただ、アニメ好きの人はご存知の通り、WUGは人気が伸び悩んだコンテンツでもあった。

監督の件などでネガティブな事が話題になることも多かった。

からより一層それを跳ね返そうというのをメンバー7人からも感じられるコンテンツでもあったし、

ファンとしても中の人含めこんなに素晴らしいところもあるのに。と長年思ってきた。

青山吉能が声を担当している音声合成ソフト小春六花の制作クラウドファンディングでは一番高い20万円のコース10枠)が一瞬で完売した。

彼女の声が評価されることをファンも喜んだからだ。

https://www.youtube.com/watch?v=MKM1cKzfNjA

そして今、「ぼっち・ざ・ろっく!」で多くの苦悩と努力の末に、声優 青山吉能評価されている。

報われたと思った。ファンも、そしてきっと本人も。

ようやく成仏できるよ・・・

といいたいところだが、これから活躍が楽しみなので長生きしたい。

2023-02-27

キズナアイが消えて1年がたった

この一年間にあったことを振り返ろうと思う。

個人視点から振り返るものなので客観性網羅性、資料価値はない。

何があったかよりも、それについてどう感じたか、どう思ったかを書く。

 

この1年であったこ

 

1.Vtuber(のリスナーから体感が失われた

2018年にはみんな知り合いのようだったVtuber界隈も年々リスナーの囲い込みが進み、同じVtuberを名乗るものであってもだんだん交流しなくなっていった。しかしそんな風潮の中でも、なんだかんだキズナアイは、2022年に消える直前の時期でも、箱を超えた大型企画をやっていて、にじさんじのような最大手からRe:actのような小さな箱、そしてその他個人勢まで広く繋がりを持っていた。

そのおかげで、キズナアイが集めた場においては、普段ならまず関わることのない大手Vと弱小Vとの交流があったりして、地位立場は大きく違えど、同じVtuberとしての一体感があった(と自分個人は感じていた)。

そんなみんなのハブとなっていたキズナアイが消えて1年、Vファンの囲い込みはますます進んだ。箱を超えた大型イベントなど誰も企画しない。大手V同士のいつメンコラボや弱小箱いつメンコラボならあるが。小さく狭い繋がりはより深まったのかもしれない。でも、広く、浅く、ゆるく、同じ「Vtuber」と名乗る者としての一体感はもうないんじゃなかろうか。

正直これでよかったという見方もあるだろう。

大手のVからすれば弱小Vと関わるメリットなどないし、下手に繋がるのはリスクしかないのだから、今の流れが当然で、むしろ誰彼構わず繋がろうとするキズナアイが異常だったと。

ただ自分はさみしく思う。

 

2.本物のAI時代が来た

2022年夏にお絵かきAIが、2023年初めにChatAIが、爆発的に普及し始めた。この流れの中で、本物のAItuberが誕生し、リスナーをそこそこ満足させる配信をできるようになった。インテリジェントなスーパーAI(という設定)のVtuberSiri相手コントを繰り広げていたときから6年、とうとうここまできたかと感慨深くなった。今キズナアイがいたらどんな動画をとったんだろう?どんなコラボAItuberとしたんだろうか、と。

後述する音声ソフト対話AIを組み合わせたら本当にアップデートしたキズナアイとして復活するシナリオもあるんでは、と妄想している。

 

3.キズナアイ音声合成ソフトができた

消える時に発表された子分の音声ソフト、kzn。昔のVocaloidなどとは違い、歌声がほぼキズナアイ。見た目がほぼ同じ3Dモデルもある。秋ごろからたまにDJ配信をしたり、オンラインライブをやったりしている。事情をよく知らない人がみたら、キズナアイって引退したんじゃないの?なんでまだ活動してるの?と混乱するんじゃなかろうか。

 

4.フィルムレッドの大ヒット、ウタの紅白デビュー

ワンピース様様、ado様様なのだが、キズナアイ親会社activ8が制作担当した3Dモデルキャラactiv8の演出で、2022年年末MステCDTV紅白というV界隈の総リスナーの何十倍もの視聴者がいるメディアパフォーマンスすることができた。そこで披露された技術演出の数々はキズナアイライブで培われたものだったので、activ8もようやく日の目をみたんだねと後方親戚面で感慨深くなっていた。

 

5.アニメができそう

これも消える時に発表されたものだけど、キズナアイアニメができることになっている。PVを見た感じ、アイドルものっぽい?キズナアイは脇役だった。

4月から放送されるらしいんだが、放送からYouTubeキャスト集めて配信したりしている。見てみたが雰囲気ラブライブアイマスネット番組みたいだった。そこにプラスしてバーチャルな飛び道具が仕込まれている。特にライブパートの力の入れようがすごくて、モーション流し込みや別撮りじゃないのに、あれだけ細かく複雑な動きを破綻なく生で見せるのは裏方の技術演者技量的にかなりすごいことをやっている。ただ同接3桁の過疎配信だったので本放送始まる前からこれで大丈夫なの?って感じ。普段Vを見てるタイプはこの手の番組見なさそうだし、有名声優がいないので普段声優番組見てる層も見なさそう。

新しくて変わったことやってるけど、多くの人が見て面白いことなのかはわからない。昔からactiv8はそんなところあるのである意味通常運転。まあでもラブライブの新シリーズネット番組よりはバーチャルの扱いが上手かったのでそこはさすがだなと思った。バーチャルって表情の操作や手指の細かい動きができなかったら情報量が少なすぎてめちゃくちゃチープになるからね。ラブライブ能面着ぐるみアバターちょっとに正視に耐えなかった。

 

6.ショート動画ドリーム

Vtuberに一体感がなくなって、リスナーにも一体感がなくなって、他所の箱や個人勢を目にする機会がゼロに近づく中で、唯一新たな出会い提供してくれたのがYouTubeショートだった。ウケる動画ちゃんと作れば、知名度ゼロでもバズるチャンスをくれるショートは弱小Vの希望の光だろう。この1年、ショートフォーマットにうまく適応して銀盾に行きついたVが何人もいる。一方で、4年5年とやってる古参Vでありながら、惰性としかいえない配信を繰り返し、ずっと停滞してるVもいる。やはりどんな業界であっても、変化し続けることは大事なのだなと思わされた。

 

7.総評

Vtuberは今年もさらに囲い込みが進んでいくんだろうなと思う。「Vtuber界隈」というくくりはなくなって、ホロ界隈、にじ界隈、古参Vtuber界隈などへと分化、深化していって、話が通じなくなっていくのかなと。

上ではあげてないけどVtuber文化の成長・成熟を感じさせるニュースはいっぱいあった。

大手V企業上場したり、V史上最速100万登録達成する大型新人が現れたり、ファーストテイクに出るVだったり、有名アニメED歌ってMADネタ提供するVだったり、tiktokバズる音源作り出すVだったり。個々の企業、個々のVの力はまだまだ伸び続けるし、一般社会へもますます浸透していくんだろう。

でもそれと反比例して、Vtuberたちを隔てる垣根はどんどん高くなっている。

「みんなと繋がりたい」を掲げていたキズナアイが、いつか戻ってくる時があったとして、そのとき彼女の居場所は残っているのかな?

2022-10-22

最近音声合成界隈が賑わっている

元々初音ミクあたりの第一ブームはほそぼそと続いていたんだけど、最近歌唱ではなくてナレーションがメインになりつつある。

特にVoiceVoxという無料音声合成ソフトが極めて強くて、キャラクターは既に10人以上。つい数週間前に3名追加されたと思ったら、また3名ほど加わるときている。しか既存キャラにも感情表現が追加されるなどアップデートが凄まじい。

かにもCoeiroInkとかShareVoxとかも出てきて、各方面キャラがこういうものに参加するのがちょっとしたトレンドになってきている。

有料版のAIVoiceとかにもまた新キャラがここにきて加速度的に増えてきた。

その理由はたぶんYoutube規制にある。

もともとゆっくりボイスが主流で解説といえばゆっくりだらけだった。それがYoutubeからの大幅な規制を受けるようになり、ゆっくりけが理由ではないにしろ確実にVoiceVoxとかのシェアが増えていった。とくにVoiceVoxのずんだもんが人気になったのが後押ししたんだろうな。

解説だけじゃなくて普通に寸劇もできるから

ちなみにDLSiteで25%オフクーポンがあったので俺はAIVoice買った

2022-10-08

ボカロ厨の十年以上に及ぶ自浄作用の無さ

タイトル通り。

「○○を知らない奴はにわか」

友達自称ボカロ厨が○○?知らないとか言ってて(^ω^💢)」

新参「ねえボカロ曲何が好き?私ボカロ厨だからなんでもわかるよ!フフン」

古参「うーん、○○かな」

新参「えっなにそれ知らないwww

古参「」

みたいな自称古参ボカロ廃による発言がかれこれ十年以上も繰り返されてる。

れいつまでやるんだ。そしてその自称ボカロ厨の友達実在するのか。

カ○プロ、脳○炸○ガール、その他新しい"爆発的な流行り"が出てくると必ず湧いてくる。

実際にどのジャンルにも、知ったかぶって人を不快にさせる新参がいるのは紛れもない事実だと思う。

また同様に、そういった"仮想敵"を作って排除しようとする古参ボカロ厨に限った話ではなく、どこにでもいる。

なので主語を大きくしすぎるのはよくない、よくないが。

それにしてもボカロ厨は酷すぎると思う。

ずっと何年も何年も繰り返してる。流石に異常だ。

声高に主張する人、自ら発信はしないが静かにその意見に乗っかる人。そういった数があまりに多すぎる。

この十年で全く同じ人物けが残っているのかと思うほどに、驚くほど同じことを繰り返しているのだ。

━━━━━━━━━━━━━━━

そもそも乱暴な言い方にはなるがボーカロイド音声合成ソフト。いわば楽器なのだ

勿論私は初音ミクをはじめとしたボーカロイド達もキャラクターとして大好きだ。

でも、彼女らが歌う曲は何百何千といった"ボカロP"と呼ばれるクリエイター達が作っている。

同じ「ボカロの曲が好き」でも、ロック系好きな人と落ち着いた曲が好きな人では当然聴きたいと感じる曲が変わってくるわけで。

それが特定ボカロPの曲だけを聴くとかもあっていいと思う。

何が窓口であってもいい、偏っていてもいい。その選択肢の多さも魅力のひとつではないんだろうか。

何故「○○を聴いていない奴はにわか」だと断言してしまうのだろうか。

最近だとプロセカの登場が余計にこれに拍車をかけている。

かにから存在するボーカロイド達を「プロセカの」と言われるのは不快だろう。ただ、プロセカで各セカイ毎に味付けされたバーチャルシンガー好きな人もいて当然なのではないだろうか。(例えば私はニゴミクやダショルカが好きだ)

もう少し大人になったらどうだろうか。

━━━━━━━━━━━━━━━

あとこれはボカロ厨に限った話では無いが、「○○は××の曲!」みたいなそういう目立つお馬鹿さんは果たしてほんとに盲目新参オタクなんだろうか?

それ、ただのアンチ愉快犯じゃないかとか疑わないのか?

少し前に、某事務所所属VTuber卒業配信

あなたのせいでAちゃんやBくんが配信を始められないから早く終わってくれないか?」といったコメントをする者がいた。

当然、AやBの視聴者非難される。

が、蓋を開けてみればそれは別事務所VTuber視聴者だったということが過去コメント履歴から判明した。

こんな風に、ネットでは簡単に誰かを装って、別の誰かを貶めることが出来てしまうのだ。

少しはその頭で考えてみてほしい。

━━━━━━━━━━━━━━━

ここまで読んで、「じゃあお前が非難していた"ボカロ厨"はどうなんだ」となるかもしれないが、確かにそれも言えるかもしれない。

が、そうだとするにはあまりにも数が多すぎる故に、例えばTwitterに絞ったとして、その発言をする者、またそれに賛同する者、それらの該当アカウントの日頃の発言を見ても120%しっかりボカロ厨なパターンが多すぎるのだ。

なんだったら「○○はプロセカの曲!」みたいな発言をしているアカウントの方が正体不明新規垢だったりしてしまうのだ。なぜそんなアカウントを本物の害悪だと信じてしまうんだ。

何年ものボカロ厨に擬態しているアンチが何百人もいるとかならわからないが、果たしてそれは現実的だろうか。

一度、「そんなことない!」と思考停止せずに考えてみてほしい。

それでもう少しマシな世界になってほしい。

2022-09-10

最近DavinciResolve界隈が中々楽しくなっている

動画編集ソフトダビンチは基本的に実写動画の加工がメインだ。どちらかというと映画などで使われることが多くて、日本のようなアニメーションを多用する切り貼り動画にはあんまり向いていない。

その上に元々がカラーグラデーションの調整に特化したソフトということから、AdobePremireとかの本格的な動画編集ソフトより使い勝手機能は劣っている。しかも珍しくノード基準にしているので、レイヤーで考える普通動画編集ソフトよりとっつきにくい。海外産ということもあってQ&Aもあまりなくて日本ローカライズ中途半端ってところから日本の利用率ってあんまりない。

無料な高機能ソフトなのでチャレンジした人もいるはずだけど、ちょっとしたVLOG切り貼りならともかく、ゆっくり動画かに全然使えなかった。なにせ矢印や四角形を置くこと一つが手間を要すんだもの

特にゆっくりキャラ口パクさせたり自在に動かすってのはダビンチには向いていない。

というのは1年位前までで、最近になってその考えがちょっとだけ変わってきた。

VoiceVoxやゆっくりボイスを簡易的に連携させたり、口パクキャラの動きをつけたりといったことが楽になるツールが開発されているからだ。最初こそ補助的に使えるかなってものだったが、もはや立ち絵音声合成ソフトがあれば十分に使えるレベルにまでなっている。YMM4の使い勝手にはあと1年程度で追いつくんじゃないかな。

そのころにはYoutube解説動画関係が軒並み下火になっているかもしれないが、なんにせよ日本語でダビンチのツールが開発中ってところにオラワクワクすんぞ。

2022-06-02

マイクで録音するだけで誰でも「結月ゆかり」や「琴葉 茜・葵」の声に

マイクで録音するだけで誰でも「結月ゆかり」や「琴葉 茜・葵」の声になれるAI音声合成ソフト「Seiren Voice」を使ってみた

わいみたいなドブボイスのおっさん朗報やん

営業とかで使えるか?

https://gigazine.net/news/20220601-seiren-voice/

2022-05-18

各種音声合成ソフト、柚葉に勝手ライセンス制限加えられたような状態だと思うのだが

2022-05-16

ゆっくり解説動画って、なんであの寒いかけあいフォーマット守ってるんだろう。

あのイントネーションの変な、音声合成ソフトを使い続けるのも意味不明だし。

2021-08-30

イスラム原理主義的に人力ボーカロイドってセーフなんだろうか

イスラーム原理主義原則的楽器を使った音楽禁止である

そのため彼らの楽曲にどれだけの楽器が用いられているか原理主義の度合いがわかる。

Nasheed(ナシード)と呼ばれる伝統的な音楽は声で構成されているが、世俗的な国だとリズム隊が加わることがある。あとラッパ。

おすすめのナシード

Maden Kal Sayf - Abo Ali

https://www.youtube.com/watch?v=8NTrHRhp1Qk

メロディが美しいのと、原理主義には叩かれがちなハンドクラップを避けて足踏みを使用したチャレンジングな部分が素晴らしい。

高音で出ていったボーカルが帰ってきてコーラスと重なるところたまら


ちなみにSoundCloudだともっと世俗的な曲やゆったりした曲も聞けるぞ!

https://soundcloud.com/tags/nasheed/popular-tracks

でも自分は勇ましい曲や無旋律が好きだぞ! 西洋音楽中世教会音楽すこ

閑話休題

ところでこんな事があった

タリバン、人気歌手殺害…「イスラムでは音楽禁止」と述べた数日後に

https://www.businessinsider.jp/post-241317

これでアフガニスタンタリバン宗教指導は極めて原理主義的なことが判明した。

そんな彼らにとって人力ボーカロイド(いわゆる本家VOCALOIDのような音声合成ソフトではなく、手作業で肉声を切った張ったの音声編集して作られる音源)は許されるのだろうか?

誰か問うてみてほしい。

ついでに淫夢音MAD日本の音声サンプリング音楽界の最大手)もOKか訪ねてみてほしい。

しかしたらアフガンに一大市場を切り開けるかもしれない。

2021-08-13

声は音声合成ソフトで、動画はいらすとやの素材を使って作成というYoutubeチャンネルをみつけた。

技術的にはおれでも作れそうだけど、内容はぜったいそのチャンネルほどは面白くできない。

「ブサだし喋り方もキモいちゃんと喋れたらおれもYoutuberやるのに」と思ってたけど、それをクリアしても俺にはYoutubeは無理なようだ。

2021-02-22

もうちょっとアニメっぽい動画個人で作るの、楽になって欲しい

絵を描いて、動かすための差分を描いて、

目パチ、口パクの設定をして、

BGM探してきたり、簡単なのは作ったりして、

SE音を探してきて、

エフェクトを作る。

音声合成ソフトで音声を作る。


だるい


動画編集ソフト」というのが、ビデオ撮影した動画素材をつなぎ合わせるのを前提としてるので、

動かすとなると、考えられてないのかなって感じる。


みんなよく無理矢理にでも使って作ってるなーって。


クールジャパンっていうなら、アニメ作るソフトの整備とかしてほしいな。(業務用のはあるのはしってるけど)

2021-01-29

AI使った合成音声ソフトについて

GoogleがWaveNetを出してから、合成音声も機械学習を使うようになった。

2021年では日本でも機械学習を使ったソフトウェアがいくつか販売される。

はてな的にはAIきりたんのNEUTRINOが話題となった。1/29に発表されたCevio AI記事を見た人も中にはいるだろう。


ここでは個人的感想を書いていきたいと思う。


個人的にはもっとクオリティが上がるものだと思っていた

人の歌声区別できないとニュースタイトルでは付いているが、個人的はまだまだ違和感がある。

人間ボーカルを録音してピッチ修正をしている人だと、Melodyneピッチ合わせすぎると機械っぽい音声になるから、わざと修正しないといったことを行うわけだが、

歌声合成ソフトでは「しゃくり」といった、わざと外して人間っぽさを出す。

実際にソフト開発側もわかっていて、マニュアル修正する手段を用意しているので、それに引きずられてしまうのだが、

それ以前のところで人間ぽさが必要だと考えている。


声は複数周波数を重ねてできたものであり、各周波数ごとに分解すると、基本周波数の2倍、3倍といった周波数の音が出ているのがわかる。

実際の人の声を分析すると、時間方向に微妙な揺らぎが存在するのがわかる。

また口を閉じた状態から声を出そうとすると、口が開くまでの音の変化など、ちゃんとした周波数が出ていない箇所がある。

機械音声の場合、ゆらぎがなく、〇〇周波数ピタッと出ており±15Hz揺らぐといったことがない。


ゆらぎについても、人間の声の場合、±50Hzから±15Hzへ変化するといったことが起こっているように見える。

見えると言っているのは、自分が声のデータを処理しているとなっているように見えているからであり、

これについて言及した文献を探せていない。


さきほど声には倍音があるといったが、倍音の数も人間の声では変化するが、機械音声ではずっと同じ数のままだ。

「あ~」のように伸ばした音の場合ピッチ調整で波打つようなのを手書きしたことがあるDAW経験はいるだろうが、

人の声を調べると倍音の数が徐々に変わっていたりする。

現行のソフトピッチ補正で波を手書きしても、元から上手く伸ばした声にならないといった苦労をした人がいると思うが、

この倍音が変化する機能がないからではないかと考える。


この辺りが機械学習解決しているかというと、あまりなっていないように感じている。

思っていたよりクオリティが低いのだ。


なぜか。


つの仮説だが、RNNやTransformerといった、ニューラルネット構成ばかりに気にしていて、

音声をよくよく観測できていないのではないか

何かしらかの演算で前処理を行ってからニューラルネット入力するわけだが、

前処理段階で捉えられていない特徴量があるのではないだろうか。

また統計処理を行う際に、計算精度によって丸めまれしまっているのではないだろうか。



使い込んでいくと、より良い結果を出してくれるわけではない

プログラミングであれば徐々に自動化をする箇所を増やせるが、音声合成ソフト自動化が出来ない。

何年経ったとしても、良くならないのだ。

この辺り、修正前と修正後のデータがあるのだから学習していってより便利になればいいのだが、そうはならない。



データも少ないのでは

スマートスピーカーが出たり、日常的に音声を聞いているわけだが、音声を合成しようとしたときに使えるデータは案外少ない。

ちゃんとしたスタジオで録音したり、無響音室での録音した音声はない。

マイクの配置などでも変わってしまう。

ずっと声を出していると最初最後で声も変わってくる。

日をまたぐと体調も変わってくる。


同じ条件でデータを揃えるといった場合、音声はデータが少ないんだろうなと思うのだ。


計算リソースも足りてない

自分で合成音声をやってみるとわかるが、学習計算リソースがかなりかかる。

日本語だと日本市場しかなく、しかも人の声のクオリティを超えているわけではないので、市場は小さい。

そのくせ機械学習には大量の計算リソース必要となる。

2020-04-10

家にいて暇なので音声合成ソフトを買って青空文庫を読ませたら楽しかった

家にいないといけないので、何かやることはないかということで、

Youtuberで稼ごうとは思っていないけど、動画はよく見ていたのでWindowsデフォルトビデオエディタでいいので動画作成でもしてみようかしらと思って

Softalkでもいいのだけど、よくボイスロイドやCevioの色々な動画見ていたので、せっかくだし買ってみようと思って買うことにした。


ブクマカアイコンでおなじみ結月ゆかりから吉田くんや今月でた、ガイノイドトークflower』までいろいろ調べて悩んだけれど、

ちょうどCevioがVectorで2割引セールをしていたのでお試しで安かったので、トークスターターだけを買ってそれを選択。お値段は5,280円

(なお歌を歌わせる機能も欲しいならさとうささらちゃんのセットをソースネクストで買うのが実は安い、体験版かえるのうたを2小節作るだけで面白かった。いいなこれ)


動画ででるような挨拶だけさせても、なかなかかわいらしくて面白いけれど、

メニューの中にあったのが「青空文庫ファイル」を読み込む機能、これはボイスロイドでも似たようなことができるらしいが、ルビも読んでくれるかもしれない。


さっそく適当作品を読んでデフォルト設定で読ませてみたけど、

「あ!これでラジオ深夜便ごっこができるじゃん!」楽しいわ。

もちろんプロ朗読にくらべたらくらべものにならないけど、

かいい、いろいろ忘れて浸れる感じ。


調子にのってうっかり吉川三国志1巻全部読み込ませたらコンピュータースペックが追い付かないので無理だった。

でもちゃんと細かくファイルを区切ってあげたら、ラジオ深夜便風にいろいろな作家作品が読めるし、

はてな民が好きな「隴西の李徴は~」で始まる山月記やら走れメロスやら色々な声を読ませると楽しそう。

学生学習気分転換にもいいかもしれない。


そういうことなので、夜をリラックスして過ごしたい人にも音声合成ソフトおすすめだということでした。

そんなこんなで引きこもり生活ゆっくりしていってね!!

2019-04-22

anond:20190422002407

他の増田も言ってるけど、適正のある仕事についてる奴らばかりの社会なら褒められるわけないだろ。カーナビの「お疲れ様でした」みたいな機械的な褒めが欲しいなら、音声合成ソフトで作った音声をタイマーででも流しておけ。

何にも適正が無い奴を淘汰とかそれこそエネルギー無駄だろ。単純労働しかできない奴には娯楽は無駄から給料などなくして奴隷化するとか、エサだけ与えて擦り切れるまで働かせて使い捨てるとかする方が効率的だろ。人間扱いしなくていいならそれが一番効率がいい。

淘汰といわず遺伝子操作遺伝子管理が許されるなら繁殖管理して、しか受精検査実施して劣等な遺伝子は産まれる前に排除するとかすりゃいいんじゃね?単一化されて遺伝子プールが画一化すると、その種の先は長くなさそうだけど。

まんまガタガだな。

ただただ生きてて許される時代は終わったんだ。

元増田はこんな事言ってるけど、与えられた「適正のある仕事」を機械的にこなして、繁殖管理されて、遺伝子操作されてるのが「人間」なの?家畜の間違いでは?

あー、淘汰されたい、処分されたい。早くそんな社会がこないかなー

ぶっちゃけ淘汰や処分効率が悪いので、人権を奪って奴隷化する方が効率的だよな。

まぁ、今のワープアの人たちは半分くらいそれに近づいてきてるけどな。

元増田脳みそ花畑だなー。

2018-04-27

anond:20180427113401

VOICEROIDの親クラスたるVOCALOIDから考えると、

個性音声合成ソフトキャラクター性を獲得したことで、

しろ利用者キャラクター性を無視するように働いたのに対し、

VOCALOID利用者あくまプロデューサーであって歌そのものは「初音ミクの歌」と解されるような風潮)

YouTuberはもとから演者個性を前面に押し出し活動をしていて、

その発展としてのVtuber演者個性が保たれていると言えるのでは。

たとえば月ノ美兎の演者は月ノ美兎とほぼ同一視されており、

それはボカロP初音ミク関係性とは異なる。

ここには本質的な違いがあるように思うが、それについては如何。

anond:20180427112315

クラス同士を比較するんじゃなくて、「対象概念とその上位クラスの違い」を比較するんだよ

 

VtuberYoutuberから見て特殊化されている部分は、制作者をマスクして、架空キャラクターに仮託していることだろう

"ゆっくり実況とか"においても、この「制作者をマスクして、架空キャラクターに仮託する」という部分は非常に大きいと判断して、本質的に同じと評した。

 

元の増田で「とか」とつけたように、ここでは特定音声合成ソフトウェアを利用していることは重視していない。

 
ログイン ユーザー登録
ようこそ ゲスト さん