はてなキーワード: 発音とは
これは夜に発作的に書きたくなったポエムなので苦手な人はリターンして欲しい。文章も書きなれてないから読みにくいと思うが吐き出したいだけなので勘弁して欲しい。
アナ。突然思い出した。本名はリン。本名を聞いたのは出会って半年経った頃だった。
俺は一時期自暴自棄になっていた。理由は特になかったが30代になり人生のコースが見えてきた頃未来に希望が持てず貯金を使い果たして死のうと思っていた。
と言っても音楽くらいしか趣味がなく、大きな買い物をするでもなく、なんとなく贅沢なご飯を食べたり良い服を買ったりしながら、300万あった貯金を100万円ほどまで減らした。パーっと使って気持ちよく死のうと思っていたが、そんなお金の使い方をしてもあまり達成感はなかった。
そんなときに、近所にチャイエスがあるのに気づいた。チャイエスというのはチャイナエステ、中国人や東南アジア系の女性が洗体をしてくれたりマッサージをしてくれたりする所だ。それ以上の性的なサービスはあったり無かったりする。
俺は風俗には行ったことがなかったしいわゆるメンズエステやチャイエスというのは存在こそ知っていたが未知の世界だった。グレーゾーンでアングラな雰囲気は自分にとっては普通の風俗よりも刺激的な気がして、鬱屈とした生活の中でいい意味で異物になりそうだと思った。予約もせず飛び込んでみた。
雑居ビルにある一室の呼び鈴を押して出てきたのは見た目20代くらいの女の子。キャミソール姿で、見た目は水原希子に似ていた。
コースは90分1万円。マッサージにしては高いのかなと思ったがまぁ露出の多い女の子がマッサージをしてくれるわけだし何よりお金なんてどうでもよかった。
部屋は広いフロアをベニヤの壁で区切ったような個室。間接照明だけの薄暗い空間にマットレスだけがある、
そこで服を脱ぐように言われお風呂場に通される。
お風呂場にはベッドがある。明るいお風呂場で見るとハッキリした顔立ちに意志の強そうな目が印象的だった。
そこで体を洗ってもらいながら、色々話しかけてみた。日本語はたどたどしいながらも簡単な会話くらいはできるようだった。名前はアナ。ベトナム出身。日本に来て半年。31歳。日本の冬は寒い。最初はそんな程度だったと思う。
個室に戻りマッサージをしてもらいながら話を続ける。
ベトナムの事は高校世界史と地理レベルの知識しかなかったのが興味があったので色々聞きたいと思った。スマホでGoogle翻訳の世話になりながら、何という街で生まれたのか、好きな食べ物は何か、聞いてその都度検索して画像を確認した。後から聞いたのだがそんな事をするお客さんは珍しかったらしく印象的だったらしい。日本人みんなエッチだよ、そのために来るよ、なんて言っていた。
性的なサービスはあった、といってもその日は手だけだったが。それよりも外国の女の子から現地のことを聞くというのはなかなかない体験だったので面白いと思ったし、よく喋ってくれる子だったのと顔が綺麗だったので俺はチャイエスが気に入った。
ほどなくしてまたその店に入った。今度はアナの名前で予約をして。
アナは笑顔で迎えてくれた。風俗とか水商売とか、それまでは偽りだらけの世界で言葉も笑顔も全て作り物で無意味だと冷めた目で見ていたのだが、目の前で笑ってくれると正直嬉しいものだ。
また体を洗ってもらい、マッサージを受ける。
今度は名前を聞かれた。たつや。発音が難しいらしく、たちゅや、になる。
たちゅやは結婚しているのか、何の仕事をしているのか。スマホの翻訳を通しながら会話をする。
俺も質問をする。
何のために日本に来たのか。お金を稼ぎたかった。最初はレジ打ちをしていたが稼げないからツテでこの店に入った。元々エステや美容に興味がある。お金を稼いだらベトナムで自分のエステ店を持ちたい。
実家はどんなところか。農家。たくさん兄弟がいる。チャイエスで稼いだお金を仕送りして家を建てた。
俺は美容に興味が強くスキンケアもわりとしていたのでその話で打ち解けた。何度も店に通うようになった。
何度目だったか忘れたが、特別サービスだと言って服を全て脱いでくっついてくれるようになった。くっつきながらかなりプライベートな話も聞いた。最近ゲームで知り合った彼氏ができた。彼氏は優しくベトナムのご飯を送ってくれたりする。いつか結婚するかもしれない。
話したことを書き出すとキリがないので強く印象に残ったことだけ書く。
お店に通いだしたのは夏だったが、その頃にはもうコートが必要になっていた。アナは来年にはベトナムに帰るつもりだということだった。
でも、帰ったあとどう生きていけばいいかわからない、地元ではみんな20歳くらいで結婚して子供を産むのが普通だ。私はもう31歳で、稼いだお金は仕送りをして、結婚もしていなくて、普通の人生を送れる気がしない。普段は明るく喋ってくれるアナが曇った顔で話していた。
外国に来て体ひとつで稼ぐこと。辛くないわけがない。しかし散々今までアナを買っておきながらそんな偽善的なことを思う自分が嫌になって考えるのをやめた。
春になって、アナはベトナムに帰る日を決めた。その頃には仄かにアナの事を好きになっていた。アナは全裸になって俺とくっつきながら、今まで一度も他の女の子の事を指名しなかったよね、たくさん話をしてくれてありがとうと言った。
最後にアナに会った日、マッサージの前に国外に出るために必要な書類のことを聞かれた。手続きの事がよくわからないらしい。見るとどうやら仲介人のような人物がいてチケットを手配してくれているようだったが、色々印刷して持っていくものがあるようだった。
アナのスマホにデータはあるようだったので、エアドロで俺のスマホにそれを送ってもらい、服を着て一緒に近くのコンビニでプリントをした。ついでにご飯を買って個室に戻り一緒に食べながら話をした。俺はアナと離れたくなかったし連絡先を聞きたかったが、ベトナム人はLINEでなく他のチャットツールを使っているらしく、Facebookだけを交換した。
色々ありがとう、じゃあね。と言ってドアを閉められる。
もっとドラマチックな別れを想像していたが、いつも通りの終わり方だった。
当然、その後アナとは会っていない。一度だけFacebookで「元気にしてる?」とメッセージをベトナム語で送ってみたが返事はなかった。
しばらくして一度その店を訪れてみたが、中国人の女の子とほとんど会話もせずマッサージと手だけのサービスをしてもらい、何も得られなかった気がして二度とそのお店に行くことはなかった。
顛末だけ書けばよくある話で、愛想のいいベトナムの女の子と都合のいいお客さんの関係が終わっただけのことだ。自分でもよくわかっている。
でもふとあの時は楽しかったなと今でも思い出すし、いつかベトナムの中でも田舎だというその街を見てみたいなと思う。
見た目はモデルのような綺麗な女の子なのに、たちゅやは川の蟹食べたことある?昔は川でよく蟹を取って食べてたよ、なんて言うギャップも好きだった。
俺は、今でも死にたい気持ちに囚われている。何も変わっていない。
以上だ、つまらない話でごめん。
オーウェン・ホプキンス「名建築の歴史図鑑」の用語集によれば「インド建築に特徴的な丈夫にドームが乗る開放的な別棟の建造物(パヴィリオン)」。
元の綴りがChhatriで、発音が本当にチャハトリかどうかはわからない。ェン・ホプキンス「名建築の歴史図鑑」の用語集によれば「インド建築に特徴的な丈夫にドームが乗る開放的な別棟の建造物(パヴィリオン)」。
ググってもヒットしない用語の一つ。
元の綴りがChhatriなのだが、英語の発音が本当にチャハトリかどうかはわからない。
wiktionaryによれば「Borrowed from Hindi छतरी (chatrī, “umbrella, canopy”).」なんだが、何で英語になるとhが連続するんだろ。
あれか、छが帯気音で、インドだとcだけでチの音になるからか。それなら発音はチャトリに近い。
……とここまで書いて調べたら「チャトリ」でヒットする。なーんだ。
ポイ活サイト「モッピー」は、動画視聴後のクイズで30銭を獲得できるシステムを提供しています。しかし、たった30銭のために、不明瞭な発音のナレーションを聞きながらクイズに答えるのは、なんとも滑稽な作業に思えます。サイトマップのアップデートがあり、ガチャの画面からはなれたところに動画クイズがうごいたので、興味を完全に失ってしまったというのは、皮肉なものです。モッピーは、日常のネットショッピングや広告サービスを利用するだけでポイントが貯まるサービスを提供しており、ポイントは現金や電子マネー、マイルに交換可能です。しかし、そのリワードがほとんどのユーザーにとっては馬鹿げていると感じられることもあるのですか。
こんなことしてるヒマあったら銀行にでかけていって
例えば「volunteer」と言って伝わらなかったら、
「person who helps other people for free」とか噛み砕いたり、
「As a volunteer, I helped many victims of a disaster.」とか例文を言ってみたり、
アルファベットを一文字ずつ「V・O・L・...」と言っていったりする。
正しく発音する方向で頑張ってはいけない。たとえ正しく発音できてても基本的に伝わらないから。
喋ってて「こいつ俺の話を言語レベルで理解できてないな」というのはネイティブにはすぐ分かる。
分かってないのに相槌打ってるとすぐバレて、あーコイツ俺の話聞く気無いんだと萎えられて会話が終了する。
(それが単にいっぱいいっぱいなだけだと分かってくれる理解ある人を見つけたら、その縁は大事にしよう。)
複数人での会話は最悪諦めて激流に身を任せるとしても、スキあらばちゃんと何の話か分からんと言おう。
稀に、お前の英語は下手だと言うニュアンスで何言ってるのか分からんと言ってくる奴がいる。
英語が本当に下手だった頃は単純に英語頑張ろうと健気に思ってたけど、今ではそれが分からん訳がないのが明白なのにあえてそう言ってる奴がいる事が分かってきた。
それかその言葉を受け入れると仕事が増えたり、眼の前のアジア人をカモれないから。
こういう時どうすればいいだろう。
第三者を巻き込むとか、舐めてんのかと怒ったりして対応してきたが、正直、最適解はまだ出てない。
次回は相手の前で会話を録音し始めるというのも、プレッシャーを与える意味で良いかも知れない。
とりあえずこちらが折れたら相手の思うつぼなら折れないこと。自分の利益に関わることなら特に。逆に今相手は瀕死なんだとポジティブに考えよう。
意味がないとか趣味程度とか言われがちな芸術系の習い事で得たもののおかげで、今とても生きやすい
絵を習っていたおかげか化粧に抵抗がなく、はじめからそこそこうまいことできた
きらぎらしい素顔ではないけど、化粧姿がデフォになってからは美人だと言ってもらえることが増えた すると素顔もわりと美人判定してもらえるようになる 不思議だけどありがたい
なんというか、今ルッキズムが厳然として存在するからこそルッキズムをわざわざ否定しようとするわけで、つまり見た目がある程度良いほうが人生イージーモードなのは事実だ
他にもピアノをやっていたおかげか英語もまあいい感じの発音で話せる(=流暢、ではないけど)とか
会社でピアノを披露することなんてないけど、間接的には仕事に役立っている
ある程度成長してからだけど、茶道を習ったのもよかった まあこれは作法という意味では直接的かもしれない
マ ク ド ナ ル ド
かっこいいと思ってるの?
なんでマック?
そういうとマックシェイクがあるじゃないかと反論するやつがいるが
吉野家に牛丼という商品があるが、だからといって吉野家を牛丼とは略さない
マックシェイクの「マック」がマクドナルド由来であるかもわからない
ここは中立的に「マクナル」あたりで手を打とうと提案しているのに
関西人はマクナルを受け入れる準備が整っているのに
てかさ慇懃な場において「マックドナルド」と発音しているならまだ可愛げがある
これが正しいと認識しているのだ。
なんなん?
「プロキシマ ケンタウリ」とケンタウルス座の生存可能性のある惑星を呼称するが、どうも英語発音的には「ケンタウリ」は「セントーリ(トーにアクセント)」と発音するようだ。
Netflexでロストインスペースを英語で見ていて気付いた。
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。
DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。
それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。
最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。
それの学習元に、エロゲーのテキスト音声データが使われているのではないかという話。
まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)
現時点では何のフィルターもなく、どのような卑語や卑猥なセリフも発話させられる。
ただ、ある特定の雰囲気のパターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。
それは「ちゅぱちゅぱれろれろ」だ。
他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」や「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。
ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。
一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」や「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。
さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」は発音される。その他、適当な意味をなさない「ちゅかちゅほぱれもふい」等のランダムな文字列にしても発音される。
他にも、私が試してみた限りでは、上述の謎の雰囲気のテキスト群以外の文章はほぼ正確に文字通りに発音される。
以上のことから、学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気のセリフに対して、「その文字の通常の発音通りでないような音声」が対応しているようなデータが使われていることが推測される。
(念の為に書いておくと、音声合成の学習にあたっては、音声とその音声が何を喋っているかというテキストのペアを、大量に学習させる。)
余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くからの音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語からの情報も音声合成に入力していること推測できる。
元の日本語テキストに対して、その音素列に加えて、大規模言語モデルのエンコーダーモデル、いわゆるテキスト埋め込みも音声合成のテキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである。
音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフの意味」も理解する、というわけである。
例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、「はてなは、匿名性を活かした自由な表現が可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音のテンション等が変わること等も、これらの帰結である。
さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキストが文字通りの発音と対応しない、そのような状況を知っているはずである。そう、エロゲーだ。
エロゲーにはチュパ音という文化がある。これはヒロインが主人公にフェラチオをするシーンで、ヒロインの声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである。
そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり水音出しまくり啜りまくりの演技が音声として与えられる。
よって上記挙動から、DMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。
界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般)からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成や音声認識等の音声に関するAIの研究においては非常に貴重なデータとなっている。
よって、大量の「テキストと音声のペア」が必要な音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定の声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語の発音の仕方をAIが学ぶときに必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである。
ましてやDMMである。エロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZAに依存していることをすでに知っているだろう(いつもお世話になっております)。
以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそものきっかけは、それより前に、単純にいろんなキャラで音声合成させて遊んでいたら、
少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたからである。
久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身でそれから表に出てきて大成功していることで有名)
月城 美蘭ちゃんのキャラは某シリーズの某キャラがめっちゃ好きです。
他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。
さらに実験を重ねていると、エロゲーが学習に使用されていると推測されるもう一つの事象を発見した。
それは「おちんちん」という単語を含んだセリフを音声合成させると、不自然に「おちんちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である。
(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)
このことから、「おちんちん」という単語がそのまま発話されないデータが学習元に多いのではないかと推測できる。
エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。
このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。
このことも、エロゲーの音声データがDMMボイスの学習元として使われているという推測を支持している。
追記。ブコメ等で、「膣」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく: anond:20241105060042
端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから、本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。
引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」を音声合成させてみるのを試してみるとよいだろう。
DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライの文章から抜粋する。
https://x.com/1230yuji/status/1852914053326483685
「音声学習データは音声データの大量購入、機械合成、収録で取得しています。具体的な情報は企業秘密にあたるため開示できません。」
ここで「音声データの大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストのペアのデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
さらにまた、DMMボイスはアニメ調のキャラクターの音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
つまり、ここでの大量購入はエロゲーの大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。
追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく: https://www.youtube.com/watch?v=tkBGBVjOIZk
(以前ここで第8条1(1)について書いたいたが、この文言自体は利用規約で一般的なもののようだ、申し訳ない)
音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバーや声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。
これは、声優たちが、自分たちの声が無断でAI学習に使用され、その上で収益化をされていることに対して反対して展開している運動だ。
(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)
また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から、法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。
このようなAIと音声の権利については最近の柿沼弁護士の記事が参考になるので詳しくはそちらを読んでほしい。
https://storialaw.jp/blog/11344
私自身は法律の専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。
音声AIの法的議論では「パブリシティ権」という概念が重要になる。これはざっくり言うと、有名女優の肖像を勝手に商品の宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである。
このパブリシティ権は現在の日本の法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。
しかし有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービスを提供していたら、正式に契約を結んでいた場合に得られたであろう声優の利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。
だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。
声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権の侵害にあたるかは、おそらくかなりグレーで判例待ち事案である。
そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。
何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近の声優たちやアンチ生成AIの人達による運動に対しては、事態を注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である。
また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論や判例が進むかもな」といった程度の感想である。
(そしてDMMボイスのような技術が可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自身一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)
しかし、最近の声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。
技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しかし音声合成する際には非実在の人物による声音の音声合成が可能である(例えば声優二人の中間の声等)。
それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないかと個人的には感じている。
(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利の議論の難しいところである。)
公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーがDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。
また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能性である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーのセリフが堂々と出ていたことから、それの学習元にエロゲーが入っていることはほぼ確実である。
また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能性である。前に少し触れた通り、現在の生成AIには学習に大量のデータが必要であり、まず音声AIが発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータが必要である。そのような学習は非常にお金と時間がかかるため、生成AIでは「まず大規模なデータで学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者のデータで少量追加学習する」というアプローチが取られる場合がほとんどである。この Permalink | 記事への反応(18) | 07:53
都会(特に東京)と田舎の文化格差とそれによる「人生の差」「不利益」について語る際、話題にあがりがちなのは美術館がどーのこーのだったり、映画館がどーのこーのだったりする
田舎出身で地元に大学も職もなく、成人してから大都市に住み働く身として感じるのは、都会と田舎の文化格差は間違いなく存在するが、その文化格差は美術館が近いとか音楽祭が開催されているとかそういう問題ではなく、
田舎で育った我々は教室で勉強しようものなら「ガリ勉キモい」と蔑まれ、教育熱心な親は地域からどころか先生からも白い目で見られる環境で18年間育った。
そして18才で小4から1日10時間勉強を続けてきた都会っ子たちと「よーいドン」で「平等な試験」を受け合否を判定されたわけで、これこそがまさに都会との格差であり深刻な不利益だった。
田舎出身者からするとこんなグロテスクな事実から目を背けてフェルメールやら劇団四季やらタサキ真珠やらの話をする人間は吐き気がするような馬鹿だと言わざるを得ない。
むしろ田舎に本籍があっても日本は都会っ子と同じ試験を受けることができて、平等に評価される。試験内容は教科書通りで、わりと簡単。
こんなに平等で恵まれてるので、教室のプークスクスなんか気にせず「トメィトゥ」と発音し勉学に勤しめば都会っ子と十分戦えるし、まあ医者にも弁護士にもエリサラにもなれる(医学部は階級固定の世界だけど)。
S君が入社したのは1年くらい前。最初はほとんど日本語が話せなくて、基本的には英語オンリー。
でも、挨拶とかそういった基本的なものは頑張って覚えてきてくれてて、「おはよございます!」とか、やたら元気よく言うんだよね。
ちょっとアクセントが独特で面白いんだけど、まあ言いたいことは分かるし、そんな風に少しでも日本語で話そうっていう姿勢に、周りも「S君、頑張ってるなー」って応援モードだった。
しかし、そんなS君の日本語の中で唯一謎だったのが、「ありがとう」を「クロコダイル」って言うこと。
最初にそれを聞いたのは、私がコーヒーをいれてあげた時だった。
「どうぞ」ってカップを渡したら、S君が真剣な顔で「クロコダイル!」って言うんだよね。
え?クロコダイル?…と思って聞き返したんだけど、彼はにこにこして、特に訂正する様子もなく去って行った。
で、その後も、彼は何かしてもらうたびに「クロコダイル!」って言うの。
普通に考えて、なんでクロコダイル?って感じでしょ。私だけじゃなくて、社内でもちょっとした話題になってて、みんな「S君ってワニ好きなのかな?」とか、「クロコダイルのカバンでも持ってるのかな?」とか、そんな推測が飛び交ってた。
そんな状態も1カ月もすると収まって、S君とランチを食べに行ったときに、とうとう聞いてみた。
「ねえ、S君、そういえば『クロコダイル』ってどういう意味で言ってるの?」
そしたらS君、ハッとした顔して、それから顔をちょっと赤らめて笑いながら話してくれた。
S君が日本語を勉強してた時、どうも「ありがとう」の発音を「アリゲーター」に近い感じで覚えたらしくて、頭の中で「お礼の言葉=ワニ」っていう結びつきができちゃったらしい。
で、日本に来て、初めて会社の人にお礼を言おうとした時に、緊張してて、どうしても「ありがとう」が思い出せなかったんだって。