はてなキーワード: エンコーダとは
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。
DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。
それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。
最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。
それの学習元に、エロゲーのテキスト音声データが使われているのではないかという話。
まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)
現時点では何のフィルターもなく、どのような卑語や卑猥なセリフも発話させられる。
ただ、ある特定の雰囲気のパターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。
それは「ちゅぱちゅぱれろれろ」だ。
他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」や「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。
ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。
一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」や「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。
さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」は発音される。その他、適当な意味をなさない「ちゅかちゅほぱれもふい」等のランダムな文字列にしても発音される。
他にも、私が試してみた限りでは、上述の謎の雰囲気のテキスト群以外の文章はほぼ正確に文字通りに発音される。
以上のことから、学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気のセリフに対して、「その文字の通常の発音通りでないような音声」が対応しているようなデータが使われていることが推測される。
(念の為に書いておくと、音声合成の学習にあたっては、音声とその音声が何を喋っているかというテキストのペアを、大量に学習させる。)
余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くからの音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語からの情報も音声合成に入力していること推測できる。
元の日本語テキストに対して、その音素列に加えて、大規模言語モデルのエンコーダーモデル、いわゆるテキスト埋め込みも音声合成のテキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである。
音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフの意味」も理解する、というわけである。
例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、「はてなは、匿名性を活かした自由な表現が可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音のテンション等が変わること等も、これらの帰結である。
さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキストが文字通りの発音と対応しない、そのような状況を知っているはずである。そう、エロゲーだ。
エロゲーにはチュパ音という文化がある。これはヒロインが主人公にフェラチオをするシーンで、ヒロインの声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである。
そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり水音出しまくり啜りまくりの演技が音声として与えられる。
よって上記挙動から、DMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。
界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般)からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成や音声認識等の音声に関するAIの研究においては非常に貴重なデータとなっている。
よって、大量の「テキストと音声のペア」が必要な音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定の声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語の発音の仕方をAIが学ぶときに必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである。
ましてやDMMである。エロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZAに依存していることをすでに知っているだろう(いつもお世話になっております)。
以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそものきっかけは、それより前に、単純にいろんなキャラで音声合成させて遊んでいたら、
少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたからである。
久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身でそれから表に出てきて大成功していることで有名)
月城 美蘭ちゃんのキャラは某シリーズの某キャラがめっちゃ好きです。
他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。
さらに実験を重ねていると、エロゲーが学習に使用されていると推測されるもう一つの事象を発見した。
それは「おちんちん」という単語を含んだセリフを音声合成させると、不自然に「おちんちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である。
(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)
このことから、「おちんちん」という単語がそのまま発話されないデータが学習元に多いのではないかと推測できる。
エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。
このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。
このことも、エロゲーの音声データがDMMボイスの学習元として使われているという推測を支持している。
追記。ブコメ等で、「膣」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく: anond:20241105060042
端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから、本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。
引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」を音声合成させてみるのを試してみるとよいだろう。
DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライの文章から抜粋する。
https://x.com/1230yuji/status/1852914053326483685
「音声学習データは音声データの大量購入、機械合成、収録で取得しています。具体的な情報は企業秘密にあたるため開示できません。」
ここで「音声データの大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストのペアのデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
さらにまた、DMMボイスはアニメ調のキャラクターの音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。
つまり、ここでの大量購入はエロゲーの大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。
追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく: https://www.youtube.com/watch?v=tkBGBVjOIZk
(以前ここで第8条1(1)について書いたいたが、この文言自体は利用規約で一般的なもののようだ、申し訳ない)
音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバーや声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。
これは、声優たちが、自分たちの声が無断でAI学習に使用され、その上で収益化をされていることに対して反対して展開している運動だ。
(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)
また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から、法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。
このようなAIと音声の権利については最近の柿沼弁護士の記事が参考になるので詳しくはそちらを読んでほしい。
https://storialaw.jp/blog/11344
私自身は法律の専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。
音声AIの法的議論では「パブリシティ権」という概念が重要になる。これはざっくり言うと、有名女優の肖像を勝手に商品の宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである。
このパブリシティ権は現在の日本の法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。
しかし有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービスを提供していたら、正式に契約を結んでいた場合に得られたであろう声優の利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。
だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。
声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権の侵害にあたるかは、おそらくかなりグレーで判例待ち事案である。
そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。
何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近の声優たちやアンチ生成AIの人達による運動に対しては、事態を注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である。
また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論や判例が進むかもな」といった程度の感想である。
(そしてDMMボイスのような技術が可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自身一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)
しかし、最近の声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。
技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しかし音声合成する際には非実在の人物による声音の音声合成が可能である(例えば声優二人の中間の声等)。
それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないかと個人的には感じている。
(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利の議論の難しいところである。)
公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーがDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。
また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能性である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーのセリフが堂々と出ていたことから、それの学習元にエロゲーが入っていることはほぼ確実である。
また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能性である。前に少し触れた通り、現在の生成AIには学習に大量のデータが必要であり、まず音声AIが発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータが必要である。そのような学習は非常にお金と時間がかかるため、生成AIでは「まず大規模なデータで学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者のデータで少量追加学習する」というアプローチが取られる場合がほとんどである。この Permalink | 記事への反応(18) | 07:53
もう分断を煽るのはやめませんか
現在混乱を招いている要因は、おそらく以下の二つ
AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。
著作物は,次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は,この限りでない。
この辺りの解釈について紛糾している様子。
同30条の 4 は平成30年当時、事業者や研究者によるAI利用を想定していた。現在では一般市民にAIが広く普及し状況が変わってきたことから、同条の適応範囲について再整理を図るという趣旨で公開されたのが「AIと著作権に関する考え方について(素案)」
そして素案に対するパブリックコメントを募集した、というのが現在の流れ。
たぶん、CLIPのこと。テキストと画像の翻訳を行う。犬の画像を見て「犬」と識別することができる。
ネット上のあらゆる画像とテキストを学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。
画像生成AIはテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。
1. イラストを用意する
学習を繰り返しノイズを増やしていくと最後はただのノイズから画像を出力する 連想ゲーム絵師が誕生する。連想ゲーム絵師は連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。
どこかのイラストサイトかデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。
Pixivの主張は別におかしくない。このあたりは「AIと著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーのアクセスを制限しているにも関わらず、勝手に学習に使うことは「データベースの著作物の潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)
追加学習(LoRA)のこと。
既存のモデルに数枚のイラストを追加学習させることで絵柄を模倣(ファインチューニング)する。
特定の絵師さんのイラストを勝手に使う者がいるようでトラブルになっている。
絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。
著作権法30条の4 より
この辺りは「AIと著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。
(p6. 特定のクリエイターの著作物のみを用いてファインチューニングを行う場合〜を参照)
※ここははっきりとは断定していないので自分で読んだ方が良いと思う。
(私の読解:)
程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね
(私の読解終わり)
別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。
それが法律に記されているかどうかは関係ない。ただのお願いだ。
「AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん。
「AIと著作権に関する考え方について(素案)」にも再三出てくるがAI学習を技術的に回避することは禁止していない。30条の4は権利の制限であって、イラストを差し出せという強制ではない。
見ればわかりますが個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。
このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります。
晒しみたいになって悪いんだが、「島耕作描いてる人間はレコードの持ち方を知らない」って言うのがバズってるワケよ。
https://twitter.com/belmie2001/status/1709766808201527649
「正しい持ち方」っていうのは、レコードの端をもって盤面を指で触らない。指紋が付いて溝に脂が入ったり後でカビたりするから。
だけど、レコードっていうのは実はずっと現役メディアなんよ。何処でか?というとクラブDJで。
それでDJっていうのはそういう持ち方しない。普通に島耕作みたいな持ち方で扱う。
例えばこれは自宅でDJプレイしてようつべ配信している素人愛好家なんだが、島耕作持ちしてる。
https://youtu.be/afjS-Km6juU?si=1ldtDQ1E2mQpzdPs
他にもDJ配信してる人は多数居るが、皆マニア持ちじゃなくて耕作持ちしてる。
そういえば、シスコとかのレコード店でも商品なのに耕作持ちしてたな。
今レコード需要の主流って、しっとりとした音を楽しむオーディオマニアよりも、こういう感じでクラブ音楽流したりDJっぽいことしたりっていうのが主流なんで、持ち方は耕作持ちが主流って事になる。
島耕作は年齢的にディスコソウル~Hi-NRG(ハイエナジー)DJだったのかも知れないな。
あともう一つ、オーディオマニアが「テクニクスのダイレクトドライブが(マテ)」みたいな感じでテクニクスのダイレクトドライブが過去のものと思ってネタにしてるのもたまに見る。
いやいやいや、テクニクスのダイレクトドライブって現役なんよ。
ダイレクトドライブっていうのは、レコードの回転軸にそのままモーターが付いてる形式で、ハードディスクのスピンドルとか、今では当たり前の技術だ。
レコードというのは回転ムラがあると音がぐわんぐわんと揺れて(ワウ・フラッター)滑稽な感じになってしまう。
だからモーターを高速回転させて回転ムラを平準化して、ベルトで繋がれた重たいターンテーブルを回すっていうデザインにする事が多い。ターンテーブルが重いのはフライホイールマスにして回転ムラを無くすっていう手段だ。重いものは急に動かせないし急に止めれない。だから速度を一定にしやすい。
でもこれだと一度回転を止めると回転速度が元に戻るのにタイムラグがある。
テクニクスは松下ナショナルの高級オーディオブランドだが、1972年に冒険的な製品を開発した。それがSL-1200というターンテーブルで、回転軸に直接モーターが付いている。
そのままだと回転ムラが酷くなるが、松下はこれを電子技術で解決した。写真を見れば判るが、https://ja.wikipedia.org/wiki/Technics_SL-1200
ターンテーブルの横に赤い光が出ている箇所がある。これは、ターンテーブルの横に模様が描かれており、それを赤外線フォトトランジスタで読み取っているのである。今のマウスに使われているフォトエンコーダとかロータリーエンコーダの走りだ。
これで常に回転数をフィードバック制御している。この制御は今の光学ディスクやNC工作機械などのブラシレスDCモータと同じだ。今のは電線が4本出てる(電源+、アース、回転数読取、制御)が、SL-1200ではターンテーブル横のフォトトランジスタからのフィードバックになっている。
ただ、セイコーがクオーツ回路の特許を公開する前だったので初期型だけ水晶発振子が載っていない。故に少しづつ回転数ズレが起きるのでピッチコントローラのスライダを付けた。
普通に作ればいいのに、最近技術満載で作った異形のような野心作だったわけだ。
・回転が落ちても直ぐに戻る(ずっと回転数見てフィードバック制御されてるから)
・ターンテーブルを逆回転させるなどラフな扱いしても壊れない(ベルトが外れたりしない)
松下のエンジニアがアメリカ行くとDJがみんなこれを使ってるのを目にする。DJに意見聴取すると「いやこれ最高に使いやすいんで何もいじらないでくれよ」と。
そんな中で生まれたのがある意味無茶苦茶で斬新だった、ハービーハンコックの『Rock It』だ。
https://www.youtube.com/watch?v=jWeBJsg6FHA
使ってるのがSL-1200かは不明だが、これなんかダイレクトドライブが無いと出来ないような演奏である。
ハービーハンコックはジャズ&フージョンの人だったのが、突然気が触れたように過激な事をし出したんだが、この後はまたしっとりした曲に戻ったので、ダイレクトドライブによる熱病みたいな曲である。
こうして高級オーディオを作ったはずが、意に反してDJスタンダードとなってしまった。
その間にCDが普及してレコード市場は消えて行くが、DJの世界ではCDでの演奏は自由度が低く、CDJ等の製品はあったがあまり普及しなかった。ずっとレコード主流だったのである。
これに呼応してベスタクス社がDJ用ターンテーブル市場に参入したりもしたが、これも日本メーカーである。
だが既にテクニクスSL-1200はスタンダードブランドとなっていて、クラブDJの真似事したい層の憧れはやはりSL-1200、という訳で、高級オーディオが衰退して行く中で、テクニクス製品は殆ど終売になっているのにターンテーブルだけが延々と世界に向けて出荷されていた。
因みに1998年頃までテクノとかハウスとかトランスなどの電子ダンス音楽はCDでは販売されず、専らレコードで売られていた。電子音楽がアナログメディアだけというのは今では変に見えるが、家で聞く音楽じゃないしクラブではレコードしか扱わないしで、最初からレコードだけで発売されていた。
つまり、クラブ音楽とかクラブ文化を支えていたのは日本メーカーの音響機器、特にダイレクトドライブのターンテーブルであったのだ。「日本スゴイ」の人らは視野が狭いし技術にも疎いので知らない現実である。
地球の何処でも松下電器とベスタクスが溝を刻み音楽を鳴らし続けていた。
はてなのココロ社氏が昔書いているが、https://kokorosha.hatenablog.com/entry/20071121/p1 ずっとクラブを支えていたレコードの時代は2010年頃には終わってしまう。
それにはネット配信の伸張が大きかった。元々クラブ音楽は大変市場が小さい。またネット配信は中間コストが媒体マージンだけなのでインディーズに特に向く。そこでクラブ音楽もネットが中心になっていった。
更に使いにくいCDJじゃなくてファイルをそのまま突っ込んで演奏できるデジタルDJ商品の使い勝手が良く、レコード市場が急速にシュリンク、SL-1200も終売、これだけで持っていたに等しいテクニクスブランドも消えてしまった。ベスタックスの方は2013年に倒産しており、レコードの時代は終わった。
…と思うじゃない?
だが2014年頃になるとネット配信に押されてCD市場の方も急速に収斂してしまう。
一方で、クラブ音楽はやっぱレコードの方がカッコいいよなぁという人が増えて行く。
またYoutubeのライブなどでCDプレイを披露する人も増え、デジタルDJよりも難しいが見た目がカッコいいレコードDJへの憧れも高くなっていった。
それでSL-1200の中古の価格は高騰、美品なら100万円を超えるような事になっていった。程度普通の中古でも60万程度した。
そんな中で松下のテクニクスチームが再結成、SL-1200が2016年にまさかの復活を遂げたのである。
今は丁度生産の谷間のようで価格が安定しないが、新品で約12万円程度となっている。
またこのレコードブームに呼応してパイオニアからも5万円程度の入門用ターンテーブルも販売され、活気がある市場となっている。
このブームを支えているのはまた日本の音響メーカーという訳だ。
因みにレコードはLP(アルバム)で4000円くらいとなっている。普通のCDアルバムが3000円なのにぼったくり価格である。
以前のレコードと違うのは、90年代のレコードは12インチシングルばかりでLPは無かったが、今のはLPが中心という事である。
そういう事で、オーディオマニア達の見えないところでずっとテクニクスのダイレクトドライブは現役だったし今も現役なのだ。
レコードは古いんじゃなくてずっと新しくて、今もまた新しいままなんである。
技術的な内容を増田に書くという実験のために、試しに検索エンジンの仕組みについて書く。
検索エンジンは、大雑把に言ってクロールするパート、インデクシングするパート、検索インターフェイスを出力するパートに分かれる。
インデクシング時に使っている基本手法は「転置インデックス」と呼ばれ、文書内のngramを文書IDと対応付ける辞書を保存する。
インデクシングの別の種類としては、文書をエンコーダからベクトルへ変換し、それを近似最近傍検索できるようにするものもある。
インデクシングされたものがキーワードマッチ的に絞り込まれると、さらに精密な手法が使われる。
クエリとドキュメントから特徴量設計し、関連性の高いものを引っ張るような訓練をする方法はLearning to rankという。
Learning to rankの中に使われる特徴量の一つにPage Rankがあるが、これは初期の検索エンジンで画期的とされた量で、「リンクされるページの価値は高い」「高価値ページにリンクされると価値が高い」という基準からマルコフ連鎖で計算する。
Page Rankは人間が論文を評価するときと似たような評価手順であるとされる。
Learning to rankの中にエンコーダからのベクトルを特徴量として組み込むことも可能であり、そのようなエンコーダの初期の例がBERTである。
こうやって絞り込まれた文書に対して、さらに有用な情報を表示するモデルがいくつか使われる。
情報抽出モデルでは、クエリを質問と見做してその回答を文書から抽出することがある。
あるいはクエリが人物名や組織名、場所名などであれば、そのエンティティの詳細情報をデータベースから取得することもでき、これはナレッジグラフとも呼ぶ。
Apple M2 Ultraは2つ同じチップを2つ繋げていたけど、
動画のエンコードを大量に抱える人以外には持て余すようなものだった。
M2の片側はGPUコアを主にして、GPUコア側の3辺に対してGDDRを置く方が良いのではないか。
① CPUコア +GPUコア(最小限)+動画エンコーダなど+DDRメモリ
ゲームだとステージが変わらないと同じシーンは同じテクスチャを使い回せるので、GPU側のキャッシュ効果が効くが、
機械学習で80GBのモデル全部のメモリーアドレス空間を走査していく場合は、キャッシュヒットしなくなる。
(メモリーアクセスの遅延を吸収するだけのバッファのサイズ分は意味はあるはずだが)
matplotlibが定番で、より綺麗なグラフを描くならseabornと言われているが満足できなかった。
ここ(https://qiita.com/skotaro/items/cdb0732ad1ad2a4b6236)にあるようなグラフは参考にしているが、もう少し応用をと思うと難しい。
TableauかPowerBIのような色合いが欲しい。
ディープラーニングをやっていて、むしろかっこいいグラフを描くのを学習してくれと思う。
エクセルでのグラフも手修正にかなり時間がかかるが、Pythonで描いて調整してを繰り返すのは時間がかかって仕方ない。
Plotlyでも良いのだが、こちらも修正しようとすると一仕事となる。
信号処理をしたり、FPGA用のHDL吐き出したり、画像処理やロボット制御はMATLABを使っていた。
Pythonのライブラリはかなりあるのだが、OpenCVとの連携はいいが、ハードとの連携になると微妙に不便。
MATLABも使いやすいかといわれると微妙である。あと高い。Juliaに期待してるがグラフを描くところで早くなくて躓く。
(MATLABをPythonで呼び出せばいいじゃんと言われそうではある)
論文の検索だと、google scholarやhttps://app.dimensions.ai辺りを使っている。
Mendeleyでそれなりに満足しているが、煩雑な感じもするので、もう少し良いのがあれば知りたい。
THKのリニアモータ(http://www.ea-thk.com/?q=ea_jp/node/3903)とか三菱のLM-H3あたりが欲しい。
高速かつスムーズに動く。
ACサーボはロータリーエンコーダのおかげで精度は出るのだが、速度が欲しい。
レニショーやミツトヨのが欲しいのだが、Amazonや楽天などでは買えない。eBayも、AliExpressもない。
3Dプリンターの精度を上げるなら必須ではないかと思うのだが、売ってないので試すことができない。
ブート関係やパフォーマンスチューニングに欲しい。普通に買えない。
RISK-V用のそろそろ出てきて欲しい。
サーボ用のが欲しい。Amazonだと良いのがない。
Amazonですら売ってなくて困る。
https://note.mu/enkykliospaideia/n/nc971ac77b96c
この話ね。まず、
1 技術が活かされてないと感じる
テレビというメディアは単純な受身型のメディアという面がありますが、最近は地上波デジタル放送によって双方向に対応したり、サブチャンネルによって各局複数の情報を同時放送できるようになってます。でも、そういったことが災害報道では全く活かされないのはどうしてなんでしょう?
なっているのは規格だけ。双方向で送れるのは5つのボタンを押したかどうかだけだし、その情報はインターネットがつながってないと送れない。停電しているところに「無事ですか?」ってアンケート送ってそれに対する返事があったりなかったりすることが災害報道で活かせるかというと、ないよりましな程度。
地上波デジタル放送になって、テレビのチャンネルは複数放送できるようになっているのに、それを活用しないのはどうしてなんでしょう?
サブチャンネルは、リアルタイム動画エンコーダを複数持っていないと放送できない。MXは複数チャンネルを活用しているね。あとは、関東地区のキー局と関西地区の準キー局、あとはプロ野球のホームチームが強いところだと複数エンコーダをもってる可能性があるけど、熊本は微妙。使うかどうかわからないSD動画エンコーダを入れるってかなりの経営判断になるし、これを書いた人は2006年位に佐々木俊尚が「2011年、新聞・テレビ消滅」とまで煽っていたことを忘れているんじゃないかな。実際5年間の移行期間の出費とデジタルTVの普及率次第ではそうなる可能性もあってどこもなるべく安く導入しようと必死だったから。たぶん、双方向データ放送の制作設備なんか、もってるところのほうが少ないと思う。
そのアイデアは面白い。HD化しているのでもしかしたら映るかもしれない。ただし、筆者はたぶんお役所が出している資料がどれだけ読みにくいものか認識の外にあるんじゃないかとも思う。資料はPDFで役所のwebサイトに公開されているし、それを再生紙に印刷したら、手持ちのカメラを使って録画して見てみるといい。
ちなみに、「どのチャンネルも同じ絵を映している!もったいない」はたぶん担当者も同じことを思っていて、記者会見なんかは余裕のない地方局を中心に代表でカメラを出してあとはそれを分配、なんてこともしているけど、これその代表者が撮影に失敗しても泣かない、ということとトレードオフなので重要なところほど他に任せられなくなるという問題がある。
2 センセーショナリズムから抜け出していない
被災地の悲惨な状況や、困窮、資源の不足を取材したのなら、そこにうまくそれを助けるために私たちが何ができるか、義援金のお願いや救援物資の送り先といったものの情報をうまくセットにして常に伝えるといった工夫が足らない
義援金のお願いは普通にしている。ニュースの〆に流れているカンガルー災害募金(今は別の名前になっているけど)とか、ドラえもん募金とか聞いたことないとは思わないけれど、それがセットになって伝わっていないとなるとちょっと厳しいかもしれない。
救援物資の送り先は基本的には流さない。なぜかというと、救援物資が足りない、と言われてから個人に用意されてもどうにもならないから。そもそも、困窮とか資源の不足の話、今回の熊本の地震では、東日本大震災の時の教訓もあってかなり抑制的になっているというか「(届けてくれるところはあるけれど)それが来るまでの数日が足りない」っていう話とセットになっていたはずで、本当にこの人、災害報道見ているのかちょっと怪しいと思った。
延々テレビ局のスタジオから放送しているのに、出てくるのは切迫した雰囲気で伝えるアナウンサーと、わずかな地震学者や地質学者系の専門家だけという感じなこと
バラエティ番組や情報番組であれほどコメンテーターやら、何やら評論家やらをたくさんテレビ局に呼んで並べているくせに、こういう長時間の放送の時にこの人の少なさはなんなんでしょう?
もっと役に立つ人がいるなら呼ぶから、こういうのはその役に立つ人の名前を出してほしい。ちなみに、エコノミークラス症候群とか、避難所がそもそも危ない場合もあるとか、そういう話については専門家を呼んで話してもらうまでもなく共有されている情報だったので、キャスターから直接語りかけられていたよ。
4 正確性が疎かになっていること
テレビはその速報性やリアル感といった部分での競争を意識するあまり、ネットで流れる情報をあまり確認せずにテレビでも取り上げるという愚を犯すようになり、自ら信頼性を下げているのは嘆かわしいことといえるでしょう。
これ、具体的にはイオンモール火災の話だと思う(マンションの接合部はそこがもともと計算した上での設計であろうと今回の地震で壊れたことに変わりはないし、熊本城の瓦は加藤清正の設計じゃないよね?)けど、そこは確かにどうにかしないといけない。
とはいえ遠隔中継できるカメラを持っている人が山ほどいる時代にそれを使わないのは流石に微妙なので、誰を信用するか、みたいな部分で担保するしかないのだろう。
正直、正確性と速報性はどちらも求められることで、そのバランスは難しい。新聞とテレビと比べると、テレビは若干速報性にバランスを振っているし、新聞は正確性にバランスを振っている面はあるので、そこは新聞と併用してほしいとも思う。
すべてpeercast時代(11年以上も前)に経験したわーということばかり
今にして思えば、個人で1920*1280 60fpsかそれ以上でも気軽に配信、
しかも放送時の負荷やラグほぼ無しで理論上何人でも視聴可能とかいう
(負荷があるとすればエンコーダ分くらい)
当時はまだFF11の定点カメラとか画像を定期的にスレに投稿するタイプの実況、
頑張ってもWinampに数人が繋がってそれをミラーしてようやく数十人が見られるレベルの
2015年になった今ですら、リアルタイム配信の画質や音質はひどいもので、
多人数への配信は上記のようなサイトを介してでないと実現できないんだよな。
それならばUSBワンセグチューナーを7つぐらいセットして、全チャンネル録画するような小さなレコーダーを作ればいい。その中から見たいものだけ、携帯などにムーブできれば十分だろう。そもそもデジタル放送の12セグ全部をそのまま録ろうとするから、やれHDDが1テラだ2テラだと必要になるのだ。これをH.264にエンコードして小さくしようにも、エンコーダが7つ必要となり、HDDをたくさん搭載するより不経済である。
ワンセグなら1時間番組が約170Mバイト程度である。これを1日20時間、7チャンネル1週間録画しても、170Gバイトぐらいだ。PC周辺機器でも十分対応できるレベルだだろう。
http://plusd.itmedia.co.jp/lifestyle/articles/0806/09/news018.html
170Gで全チャンネル1週間分というのは惹かれるナー。
自分で作ろうとしたらエンコーダーが数千円にならないとなかなか組めないけど。
ここ数年,いわゆる著作権に関する議論がネット上の各所で行われており,
その様相は混迷を極めている.
そこで,この日記では,著作権関連の議論がわき起こった経緯と変遷,
および現状についてのまとめを行い,著作権にまつわる議論についての概観を把握することを試みる.
日本にインターネットが登場したのは,1980年代の半ばから後半である.
東京工業大学の助手であった村井純(現・慶應義塾常任理事)率いるメンバーはJUNETを作り上げ,
それらのメンバーが中心となったWIDE Projectが,日本へのインターネット導入を推し進めていった.
草創期こそ,インターネットの社会への浸透はゆっくりな物であったが,確実に広まっていった.
インターネット登場からしばらく後の1995年,NTT東西がテレホーダイと呼ばれる,定額制接続サービスの開始を始めた.
従来まで,エンドユーザにとって,インターネットの接続は従量課金方式しか選択肢がなかったが,
定額制接続サービスの登場は日本のインターネットに大きな追い風となった.
テレホーダイの始まった1995年代以降から既に,インターネット上に違法ソフトや違法MIDIファイル,
楽曲に関して言えば,1995年頃の日本においては,MP3はほとんど無くその大半がMIDIファイルであった.
そのMIDIファイルも違法とはいえ,本当に音楽の好きな者が趣味で作成した,同人的なものがほとんどであった.
しかし,その数年後には,楽曲の違法配信の主流はMP3へと移り変わっていく.
1997年,NullSoftは当時におけるMP3再生ソフトの標準とも言える,Winampをリリースし,
その1年後の1998年には,フリーMP3エンコーダの代表と言えるLAMEの開発が始まっている.
MP3の普及には,これらMP3プレイヤとフリーのエンコーダの登場が背景にある.
(http://en.wikipedia.org/wiki/Mp3)
(http://ja.wikipedia.org/wiki/LAME)
一方,1990年代の中盤から後半にかけての日本の音楽シーンは,盛況を極めており,
参考までに,1990年代後半のCDセールス状況と,2006年前後のセールス状況をいくつか記す.
ただし,売り上げ枚数は100万枚以下四捨五入した.
globe / Departures (1996) - 累計売上229万枚 (オリコン)
(http://ja.wikipedia.org/wiki/DEPARTURES)
華原朋美 / Hate tell a lie (1997) - 累計売上106万枚(オリコン)
(http://ja.wikipedia.org/wiki/Hate_tell_a_lie)
宇多田ヒカル / Automatic (1998) - 累計売上206万枚(オリコン)
(http://ja.wikipedia.org/wiki/Automatic/time_will_tell)
モーニング娘。 / LOVEマシーン (1999) - 累計売上165万枚(オリコン)
(http://ja.wikipedia.org/wiki/LOVE%E3%83%9E%E3%82%B7%E3%83%BC%E3%83%B3)
KAT-TUN / Real Face (2006) - 累計売上105万枚(オリコン)
(http://ja.wikipedia.org/wiki/Real_Face)
レミオロメン / 粉雪 (2005) - 累計売上85万枚(オリコン)
倖田來未 / 4 hot wave (2006) - 累計売上39万枚(オリコン)
(http://ja.wikipedia.org/wiki/4_hot_wave)
それまでは,Webを利用したMP3ファイルの配布など,比較的細々とした配布が主だったが,
1999年のNapsterの登場により,その様相は激変した.
NapsterはP2Pネットワークと呼ばれる技術を基礎とした,分散型のファイル共有ソフトウェアである.
このソフトを利用することで,非常にたやすくMP3ファイルの交換を行うことが出来るようになったのだ.
しかしながら,登場してすぐの1年後には,Napster開発元のNapster社は全米レコード協会から提訴されることになる.
Napster社が提訴されてからも,しばらくサービスは続いていたが,2000年7月にNapster社が敗訴しサービスは停止した.
サービス停止後はWinnyなど別のP2Pファイル共有ソフトウェアに,その立場を譲ることになる.
なお,Napsterは現在,Roxio社に買収され,合法の音楽配信サービスとなっている.
ちなみに,2000年のオンラインソフトウェア大賞は,フリーのMP3エンコーダである「午後のこ〜だ」が受賞しており,
(http://ja.wikipedia.org/wiki/Napster)
(http://ja.wikipedia.org/wiki/%E5%8D%88%E5%BE%8C%E3%81%AE%E3%81%93%E3%80%9C%E3%81%A0)
(http://www.nmda.or.jp/enc/fsp/sjis/osp2000.html)
Napster等のファイル共有ソフトウェアが原因かどうかは明確に分からないが,
このころから音楽業界の売り上げが世界的に低迷することになる.
当然,音楽業界は音楽CDの売り上げ減少の理由を,インターネット上の不正利用に求めた.
その結果2002年に,Avex,ソニーBMG,東芝EMIなど音楽レーベル各社は,
コピーコントロールCD(CCCD)の導入に踏み切ることになった.
CCCDの導入は,音楽レーベル,アーティスト,ユーザを含む大論争に発展したことは記憶に新しい.
例えば,CCCD導入が原因による,アーティストからの音楽レーベル契約解除,
ソニーBMGのrootkit問題に代表される,ユーザと音楽レーベルの対立など,様々な社会的な問題も引き起こしていった.
CCCDに関する議論・問題は非常に多くあり,全て取り上げることは困難なので,詳細はWikipedia等を参考にされたい.
(http://japan.cnet.com/special/story/0,2000056049,20090811,00.htm)
2005年頃になると,CCCDをリリースしていた音楽レーベルの一部はその有効性を疑問視し,
CCCDの利用を撤廃する方向に流れていった.
一方,このころ,アメリカ合衆国ではYouTubeとよばれる,動画共有サイトが登場しだした.
YouTubeはサービス開始間もない2005年の12月にはすでに,NBCの人気テレビ番組である,
サタデー・ナイト・ライブがNBCの許可無くアップロードされていた.
当時のYouTubeはアメリカのサイトであり,言語も全て英語であったが,日本からの利用も非常に多かった.
しかしながら,著作者の許可を得ずにアップロードされたコンテンツも非常に多く,
権利者の多くからは問題視されていたのも事実である.
多くのコンテンツが権利者に無断でアップロードされる中,2006年6月,
ついに日本の権利者からの依頼が理由で削除された動画が確認されている.
(http://www.youtube.com/watch?v=R-fjqo3dNhg)
(http://ja.wikipedia.org/wiki/Youtube)
(http://blog.livedoor.jp/dqnplus/archives/681572.html)
これと関連した事項として,2000年代前半から現在にかけての日本における,
テレビ放送のアナログ放送からデジタル放送への以降とそれに絡む問題がある.
デジタル放送の開始当時は,通常放送にはデジタル著作権管理(DRM)は適用されていなかった.
しかしながら,デジタル放送を録画したビデオテープが,インターネットのオークションで出品されているのを問題視したテレビ局は,
2004年4月5日から,全ての放送に対してDRM技術のを用いたコピーコントロールを適用した.
デジタル放送のDRMは,B-CAS社が提供するB-CAS方式を用いて行われており,
原則,私的利用であっても複製物からのコピーを一度しか許さないという,非常に厳重なDRMである.
コピーワンスは,ユーザやHDDレコーダなどの製造メーカからの批判が非常に強いため,メーカなどからは,
9回までコピーが出来るコピーナインなど,より緩いDRM方式なども提案されている.
しかしながら,現在の処,前述したYouTubeなどの登場も受け,コピーワンスが変更される見通しがあるとは言い難いのが実情である.
B-CAS方式,コピーワンスについても,様々な議論が行われており,ここで全てを取り上げることは困難なので,
興味のある方はWikipedia等を参照されたい.
(http://ja.wikipedia.org/wiki/B-CAS)
(http://plusd.itmedia.co.jp/lifestyle/articles/0511/21/news003.html)
(http://www.phileweb.com/news/d-av/200708/11/19076.html)
こうして,著作者と違法利用者のいたちごっこが続く中,
日本における著作権法は改正されていき,徐々に罰則が強化されていく.
2006年には,違法コピー等に対する罰則は,最大で,10年以下の懲役,又は1000万円以下の罰金に引き上げられている.
なおここで参考として,著作権法違反とその他犯罪の罰則の比較を載せる.
著作権法違反 - 10年以下の懲役または1000万円以下の罰金もしくはこれらの併科
強盗罪 - 5年以上の有期懲役
現状,日本での保護期間は著作者の死後50年と著作権法で決められているが,アメリカ合衆国では死後70年となっている.
アメリカ合衆国の保護期間は,もともとは,もっと短いものであったが,
ウォルト・ディズニー社の保有する著作物「ミッキーマウス」の保護期間がすぎようとするたびに,保護期間が延長されるよう法改正されきた.
この延長にウォルト・ディズニー社が絡んでいるかは明らかにはなっていないが,
状況証拠のみでアメリカの著作権法は「ミッキーマウス保護法」と揶揄されている.
現在,著作権保護期間延長問題について,広く意見交換・議論が行われいるものの,議論は水平線を辿っており問題の解決には至っていない.
ここで,参考までに,著作権およびその他知的財産権の保護期間について,列挙する.
特許権 - 出願日から20年
実用新案権 - 出願日から6年
意匠権 - 設定登録日から15年
著作権 - 著作者死後から50年
YouTubeなど新たなパラダイムの登場は,非常にイノベーティブなものであるが,
一方で,従来の権利者を混乱におとしいれている.
今後も議論は続くと予想されるが,各々,著作権法の冒頭に記されている一文を決して忘れずに議論を行ってくれることを願うばかりである.
(http://www.cric.or.jp/db/article/a1.html)
著作権法より抜粋
第一章 総則
第一節 第一条 通則