はてなキーワード: コーパスとは
自称インテリ語録は自分用コーパスの作成のために行っています。
意図は、箴言における「嘲る者(自分を賢いとみなし、他者を見下す傲慢な人)」を機械学習で見分けるモデルの作成です。
厳密なアノテーション基準はありませんが、アノテータがある程度の裁量で判断します。
「著作権侵害では?」と思われるかもしれませんが、差別は社会的に相応しくないため、コーパス作成は公益性があると判断し、また創作性のないものに絞っており、自己責任でやっております。
元々は自分の「自称インテリ」の概念の精密化のために行っておりましたが、Bing AIによって様々な分析をさせることが可能であることがわかったため、自然言語資源を作るという目標に変わりました。
論旨
無断で数千人の声優を学習したというのは、恐らくMoeGoeのことを指していると思われますが、アクセントも不安定で「演技泥棒」には程遠いです。
最新のモデルをもってしてもアニメの演技のような抑揚の大きい音声を学習させることは難しいことであって、実用レベルに押し上げるようなブレイクスルーもまだ起きていないのが現状です。
音声合成の学習には、データセットとして音声とそれに対応する文章を合わせた音声コーパスと呼ばれるものを用います。
演技というものは台本でいうところのト書きであって、文章に直接的に含まれている情報ではないことからも、文章から生成する音声に演技を付与させることの難しさが理解できると思います。
文章と音声があれば、即座にデータセットとして使えるかと言えばそうではありません。
文章で想定している(文章を構文解析することによって得られる)読み方と、音声における実際の発音が異なる場合があります。
音声合成は結局のところ文章の音素と音声を対応付けているだけなので、音声コーパスの文章と実際の音声に乖離がある場合には学習の精度が下がる恐れがあります。
加えて、現在の音声合成ではアクセントなどの情報を用いることが多いですが、アクセント辞書から得られた情報と実際のアクセントが異なる場合も演技音声では散見されるでしょう。
上に述べた抑揚の問題や、音声にBGMなどのノイズが混ざっている場合など、音声自体がデータに適さない場合もあるため、それらの選別も必要です。
音声合成用に収録された音声コーパスであれば、読み方やアクセント、ノイズ等に細心の注意を払って録音されていますが、一般の音声は必ずしもそうではないのです。
このような読み方やアクセント等の修正は、残念ながら人力に頼らざるを得ません。そもそも台本がない場合は一から書き起こす必要があります。
AIイラストの成功には、イラストへの人力でのタグ付けが寄与していることはよく知られていますが、果たしてAI音声という分野において人力による音声コーパスの整備が進むでしょうか?
AI音声合成ソフトの代表例とも言えるVOICEVOXはいまや多くの人気を集めており、多くのキャラクターが参加しています。
また、COEIROINKのように音声コーパスを用意することで自らの声を学習させた機械学習モデルを共有できるような音声合成ソフトも登場しています。
AIイラスト界隈における絵師との軋轢が援用されていますが、音声合成の分野においては多くの場合、データの提供者たる声優と相互理解のある関係を保ちつつ発展してきたことを強調しておきます。
もともとナレーションの分野においては、既に十分な品質の音声合成ソフトが存在します。
AIイラストと異なり、倫理的問題のある音声合成に手を出す動機付けが乏しいことが現時点において関心が集まらない要因となっています。
そもそもASMRには、バイノーラルという特色があるわけで、AIが生成したモノラル音声がAIイラストほどの脚光を浴びるとは考えづらいです。
「その文書の地域で何が起こっているのか?文書は人々からどのように受け止められているのか?文書の何が神経を逆なでするのか」について分析するという話を聞いたことがある。「文学的インフラ」とは、文学を資源として活用し、たとえば何らかの現象を予測するといった発想だ。物理現象を予測できないかもしれなが、社会現象ならどうか。
こういうものを評価してテキストのリスクを判別するというプロジェクトに聞き覚えがある。ユルゲン・ヴェルトハイマーという人は「作家は、読者が即座に世界を想像し、その中に自分自身を認識できるような方法で現実を表現する」と述べている。
例えば、以下のアルジェリアの例がある。
何が言いたいかというと、増田コーパスを使えば何かしらの社会現象の予兆を見つけることができるのではないか、ということ。
確かに「時間、場所、事象を非常に具体的なレベルで予測」となると不可能かもしれないが、「特定の政党の支持率」「どのような哲学主義が好まれているか」「どの国との関係性が良かったり悪かったりするのか」「自殺率が増加するのか減少するのか、凶悪犯罪はどうか」「博士課程に対する社会の許容度はどうか」といった大雑把なレベルなら予測できることがあるのではないか。