はてなキーワード: izotopeとは
https://anond.hatelabo.jp/20241021004208
典型的な誤解に基づいて書かれた考察があるので叩き台にしてタイトルについて語っていく
その生成AI自体について有用性や仕組みへの誤解についての議論はしない(例えばこの考察は明らかに生成AIの「学習」や「再利用」についても誤解しているがここでは無視する)が、最低限押さえておいて欲しい事を書く
読むのが面倒な人向けに概略を書いておくが勝手に自分の妄想上の西洋とか欧米を使うなよ、という話である
例えばCELSYSのCLIP STUDIO PAINTに生成AIが導入されるという議論の際に強い反発を受けた事を日本の後進性に基づいて言説が展開していたが
しかし、IR情報などを参照すれば解る様にそもそもユーザーの半分以上は海外であり、去年の売上も8割が海外からである
当時のコメントやそれにまつわる言説を読めばグローバルな、特に欧米のユーザーからの反発が最も苛烈であった事が無視されており
最近の例としてProcreateのかなり強硬な反AI声明を見れば明らかな様に現在では海外においては一定の見解として定着している
イラストを扱うコミュニティについて比較すれば国内とアジア圏で筆頭のPixivはタグ付けによる仕分け程度であり、クローズドなSNSの割にかなり寛容な方で
使用者の米国人比率が非常に高いRedditの自作アートの話題を扱うr/Artはかなり初期の時点で生成AIを禁止しているし、DeviantArtでの生成AI周りの導入に纏わる訴訟騒ぎは言うまでもない
そしてその締め付けが進んでいる最も顕著なジャンルであるこの文章を書いたらしい人間が所属している「音楽分野」では演技分野における声の扱いとセットの流れで生成AIは最も警戒されている
これは生成AIがハイプな話題として持ち上がる前史として、2010年代後半から著名な政治家やミュージシャンの声を使ってラップや演説を行ういわば「音楽版のディープフェイク」が流行していた事が要因になっている
例えばオバマ元大統領辺りがかなり厳ついラップをしたりする動画等は簡単に見つかるだろう
そういった事を踏まえた上でハリウッドでは組合による生成AIの脚本利用や俳優組合によるストライキが起こっているし、今年はテネシー州でELVIS法が制定されている
無論これはテネシーの出世頭エルヴィス・プレスリーの名から取られた法で、俳優やミュージシャンの声を財産として保護し無断使用に対して罰則を与える法律である
おそらく音楽分野では早い段階でiZotopeがやっている様にAIを利用したマスタリングツールが早い段階で誕生しているし、サンプリング文化等の下地もあるので
アメリカの音楽界隈は先進的、寛容というイメージを持っているのかもしれないが、個人の創作性に関する部分ではむしろ日本とは比べ物にならない程生成AIに対して強硬な反発をしており大間違いである
総じて生成AIの創作による利用に関して強い反発を行った事でアンタッチャブルになりつつあるのはアメリカとEU(ここでは多くは語らないがAI規制法が今年発効されており、汎用生成AIシステムでは透明性義務が必須となる)を中心とした欧米圏であり
むしろ日本は最近になって声優業界がかなり折り合いをつけた内容の声明を出した程度で、政治的にもAI戦略会議の内容を見れば国家戦略として5Gの使い道として取り込む目的もありかなり推進側にあるのは明らかである
元の文章では何故かパルワールドについて語っているが、これは欧米圏のゲーム文化における「不寛容」な任天堂の問題による
反発が加味されたものなで生成AIやフェアユースの議論の範疇だけで語る事はできない
特にMOD文化や大会開催等においては海外メーカーでは考えられない締め付けや法的措置を取ってくるのでその側面では任天堂の評判は非常に悪く、常に揶揄の対象になっている
それに対して冷水を浴びせかけたパルワールド、という立ち位置からの支持である事は忘れてはならない
元考察では欧米圏で「寛容」な理由として神から与えられたものとして創作の才能を扱っており、使命故に公益的な要素が大きかったという趣旨が語られているが
その要素はむしろパトロネージュにおける文化的な見解を極端にしたものであり、宗教的な原義からすれば真逆の見解を語る事ができる
例えば、欧米圏で「不寛容」な理由としてそういった神から与えられたものが機械で代替できる事への反発が大きいといった様な語りだ
この程度の見解はアブラハムの宗教における人間中心主義の位置付けを考えれば簡単に想定できるし
そもそも上位存在から与えられたものとして芸術を扱うのは欧米圏だけでなくアジア圏でも一般的な事であって固有のものではない
加えて創作論にはあまり踏み込む気はないが、元記事で無警戒に当てはめられている様な現代人の創作に対しての概念は近代以降のものであり
当時の感覚は全く異なっていて個人というよりも職人的に作られており音楽や絵画は信仰を広げる為のメディアとしての役割が非常に大きく、そのまま現代に結びつけて語る事は非常に危うい
自称ではあるが「クリエイターのレベルが高い」筈の分野に所属している人間ですら何故こういった事実や経緯を知らないのか?
ほとんどの日本人は英語が読めないし読む気がないし経緯や文化を理解する気もないからだ、と言ってしまうと身も蓋もないのだが多分この辺りが原因なのかなと思われる
少なくとも前半部分に関しては多少掘り下げて見てるだけでも幾らでも出てくる話なので、英語読めない以外の理由が思いつかない
それでもこのツッコミどころ満載の言説がなんとなく受け入れられているのは伝統的に欧米から先進的な流れを受容してきた日本、というステレオタイプがあるからなのでは無いだろうか
とりあえず存在しない「西洋の先進性と寛容さ」をでっち上げて議論を行うのは、少なくとも生成AIに関しては大間違いなので今すぐにでも止めるべきである
無論音楽業界で受け入れられてるのはコード聞き取り(Chord Tracker)や整音(izotope等)を自動でしてくれる前者
無論イラスト業界でも望まれてるのは前者なのに後者が出てきたからな
音楽AI 自体クリーンデータしか使わないってStable Diffusionが言ってるからそんなに盛り上がらないのが確定してるし
歌手、作曲家、アレンジャー、レコーディング/マスタリングエンジニアどれを取っても奥が深いし
万能調味料だけど整音にAIを使いすぎると尖った曲が生まれずハンコ絵みたいな薄っぺらい曲しか生まれないからあえて使わない奴や嫌ってるやつも居る
それだけの話し
ボイスチェンジャーで男声から女性声に変換したけれど、ノイズが酷いので取りたい。
「ノイズ」と言っているが、まずボイスチェンジャーで変換したときに出るノイズの名前がわからない。
マイクでの収録時に乗る、エアコンの音といった環境音を取るのはすぐに出てくるが、
フォルマントとピッチを変換した後の、機械音になってしまっているのを除去したい場合がわからない。
iZotope RX8だと、De-click、De-clip、De-ess、De-hum、ブレスの除去、音声ノイズ除去と言ったのはあるが、
音声自体が歪んでしまっているような場合を直すのは対応していない。
4kHz以上のスペクトルをリペアする機能もあるが、200Hz~の所から歪んでしまっているので効果がない。
突発的なノイズについては、前後のパタンから推測して修復する機能もあるが、理想の波形がどこにもないからマッチしない。
WavesのVitaminというのがエンハンスというのだから、違ったアプローチで直せれるかと思ったが、まったく効果がない。
EQで気になる箇所だけ削ればというのは正しいが、削っていくと残らない。
のどちらかなわけだが、見つからない。
GANやディープフェイクと言われている時代なのだから、あるだろうと思うのだがない。
英語だとLyrebird、Overdubといった有名どころは見つかるわけだが、日本語を使いたい。
モンスター声に変えるといったのはあるが、もっと自然に変えたいのだ。
どれもこもった音になる。