はてなキーワード: Wavとは
https://ascii.jp/elem/000/004/055/4055975/2/
これは、指定した文字列を音声ファイル化するコマンドであり、Windows PowerShellに入力して使用する。
また、4万字の長文を変換してみたが、処理は1分以内に問題なく終わったので、
「あとで読む」に入った長文サイトの消化にも使えるのではないかと提案する次第である。
サイトを音声ファイル化するまでの流れは、以下のようになるだろう。
③引用符(")は、SAPIのコマンドと干渉するので消去する。メモ帳なら、ctrl+Hで置換画面を出して処理すればいいだろう。
(なお、改行・空白行は放置して問題ない。コマンドに影響はない。)
具体的には、上記記事にあるコマンドのうち、 $x=New-Object -ComObject から $x.Speak(" までを③の文章の前に、
") と$vs.Close() をその後ろに貼る。なお、コマンドの改行はそのまま残しておくこと。
⑤上記記事のコマンドは、Cドライブにtempフォルダが存在する前提で作られている。
エクスプローラを開いて、そのようなフォルダがあるか確認し、無ければ作成する。
⑥Windows PowerShellを起動する。スタートメニューからみつからなくても、検索窓にそう入力すれば出てくるだろう。
⑦起動画面に④の文章を、コマンド含めて全部貼る。(1行ずつ分けて入力する必要はない。)
⑧Enterを押せばコマンドが実行され、そのうち、⑤のtempフォルダに音声ファイル(WAVファイル)が作成される。
⑨ファイルは適当にリネームし、持ち歩きやすい端末に移動させる。
これで、通勤時やランニング時にも、「あとで読む」を消化できるようになることでしょう。
はてなでは無名だが、AHSというPCソフトウェアを販売している会社がある。
そこから先日Recotte Studioというゲーム実況動画作成ソフトが出た。通常価格で¥12,800+税という値段だ。
元々ボイスロイドという人工音声ソフトをAHSは出していて、Recotte Studioの売りはその連携にある。
作っているのはクレジットを見るとソフトイーサで、IPA未踏の伊藤さんも参加されているようだ。
ここで注意してもらいたいのが、『実況動画作成』であり『動画編集』ソフトではない。
ボイスロイド+ゲーム実況は既に多く作られているし、その多くはフリーのAviUtlという動画編集ソフトで作られている。
ボイスロイド自体がPepper君と同じ声のパッケージが発売されてから10年経っていて、AviUtlのプラグインを有志が作っている。
AviUtlは使った人はわかると思うが古いソフトに機能追加されているので、ごちゃごちゃしている。
その中でRecotte Studioは初心者向けということで発売された。
問題はここからだが、Recotte Studioは機能が少ない分やりたいことができない。
初心者は先人の真似から入るわけだが、機能が少ないので出来ない。
もちろんソフトの機能紹介で説明されているようにテロップは入れられるのだが、ボイスロイドとの音声連携+テロップがやりたいことなので、躓くポイントが多い。
1つ、2つテロップを入れるだけならいいが、大量にテロップを入れるとなると修正が入るが、2つのソフトを連携させる都合かUIが悪い。
わかりにくければUIが悪いという結論のみ把握しておいてもらえばいい。
ゲーム実況なので、ゲーム画面を録画したのを流しつつ、テロップを入れたい場所にテキストを入力していく。
ここで躓きポイント①だが、改行が必要な長文になると改行をどうしたらいいのかがわからない。
そんなの単に改行すればいいじゃないかと言われるだろうが、改行はできず確定になる。
改行する場合はプレビュー画面のテロップが実際に入った枠を編集することになる。
テロップだけなら、まぁいいか程度だが、ボイスロイドとの連携時にスペースが入る。
ボイスロイドを使ったことがない人向けに説明すると、ボイスロイドはテキストを入力して音声を出力するソフトだ。
テキストにスペースが入っていると、そこが文章の切れ目と認識して、音声が途切れるのだ。(躓きポイント②)
プログラマーの方なら、スペースが入るくらい置換すればいいだろうというだろうが、そういう人ばかりではない。
売りのボイスロイドとの連携だが、『全てのテロップをクリップボードにコピー』するというのがRecotte Studio側の機能だ。
ユーザーは、別のソフトであるボイスロイドのテキスト画面にペーストし、音声を編集して音声ファイルWavで書き出すと同時に、1つずつの音声ファイルを作ったテキストを吐き出す。
言い方を変えると、連番の.wavと.txtファイルが出力される。
Recotte Studioは、フォルダを監視していて、ファイルが更新されたのを検出して音声ファイルを読み込む。
Recotte Studio側にテロップのテキスト情報を持っているので、.txtの内容と一致すれば、.txtと同じファイル名の.wavを読み込む。
.txtと.wavは拡張子が違うだけで、ファイル名が一緒となっていることで一対になっていることを示している。
ここで、躓きポイント③だが、ボイスロイドで音声調整をしている際、誤字を見つけたときは、
b)Recotte Studio側に戻ってテキストを修正すればいいのか
どちらだろうか。
先ほどRecotte Studio側は.txtの内容と一致した同じファイル名の.wavを読み込むと言ったが、
誤字なので結局Recotte Studioに戻ってテロップも修正することになるのだが、『全てのテロップをクリップボードにコピー』されるので、
誤字の部分だけ更新すればいいや、とはならない。
ここで躓きポイント④だが、テロップを修正していない箇所の音声は、前と同じなのかという疑問が出てくる。
プログラマーの方ならテキストならdiff取って処理すればいいじゃんと思うだろうが、
ボイスロイドというソフトのテキスト入力枠はコピー&ペーストで上書き修正されている。
一応、登録しておいた文章が完全に一致していれば、同じ音声を出力する(はず)だが、本当か?と思うだろう。
なぜ『全てのテロップをクリップボードにコピー』される仕様になっているのかはわからないが、
想像するに、新規にテロップが追加された時の対応あたりだろう。
次の躓きポイント⑤だが、『.txtの内容と一致した同じファイル名の.wav』を読み込むのであれば、
テキストでは同じ文面だが、読み方(アクセントなり、音の高さなり)を変えたい場合はどうなるのか。
ボイスロイドの動画を作る際、複数のボイスロイドで会話させることがある。
キャラA「こんにちは」、キャラB「こんにちは」と喋らせたいとしよう。
ユーザー側の対応策として、キャラAとキャラBの吐き出すフォルダを別にすればいいとなるが、気づけないユーザーもいるだろう。
先ほどの例では、挨拶だったのでいいが、「ごめん」といったセリフは動画中に2度出てくる可能性はないだろうか?
そして喋らせ方が違ったらどうだろうか。(最初はふざけた感じで、次は真剣な感じなど)
次の躓きポイント⑥だが、動画を作っている途中だと適切な音声だと思っていても、ある程度完成して見直してみると、
音声と音声の間が足りてなかったと思うことがある。
その時は、ボイロ側で話す速度や間を修正することになるのだが、テロップの位置が変わらないため、
テロップが2重に表示される期間が出てくることになる。
最初から隙間を開けておくといった対策がユーザー側ではできるが、これも最初は気づけないし、
テロップとテロップの間で毎回一瞬消えるのも気になって嫌う人もいるだろう。
2つのソフト間での連携するような仕様にせざるを得なかったというのもあるのだろうが、初心者向けと言いつつ、触ると躓きポイントが多い。
じゃあ修正すればいいじゃんと、今時のプログラマーの方は思うだろうが、Recotte Studioのガイドブックが同時発売されている。
そのためUIの変更はすぐにはできないのだと思う。
PCソフトなんて今時だれが買うんだっていう時代なので、開発リソースが少ないのが、機能の少なさから透けて見えるのも辛いところだ。
AHSという会社だが、先の未踏出身の伊藤さんが作られたキャラミんを配布したり、
Kanru Huaが作られたSynthesizer Vを販売したり、
市場が小さいが個人で作ったのをビジネスにつなげようとしている会社で応援したいので購入しているのだが、
開発リソースが小さく機能が一点突破だったり、買い切りなのでサポートの説明不足だったりする。
昔、ホッテントリに入ったこの日記を読んで、喜び勇んで英語勉強を始めた俺がいた。
https://anond.hatelabo.jp/20091026215137
まあ結果はお察しだが。若きウェルテルの悩み。
それはともかく、この日記で紹介されていたP-Study Systemというツール、
もうあれからだいぶ時間がたったから、もっといいツールが世の中にはいっぱい出ているのかも知れんが、
俺はまだこのツールを使い続けてる。
テレビを見るとき、真剣に見たい番組は別だが、ながら見でいい番組は、
タイピングモードをやりながら見ていると、気負いなく単語の綴りが覚えられていいのだ。
フリーで配ってくれているソフトなので、感謝こそすれ、文句を言う筋合いなど1mmもないが、
公式ページを見ても、古い辞書からの音声吸出し方法などはのっているものの、
自分で持っている音声データを設定する方法はよく分からなかった。
ということで、同じ悩みを抱えている同志のために
俺が今現在うまくいっている設定をここに書いておく。
まず、「data」フォルダを作成し、その下に「wavvoice」フォルダを作成し、
その下に「cobuild_mp3」フォルダを作成し、その下に「a」~「z」フォルダを作成する。
こんな感じ
data
|- wavvoice
|- cobuild_mp3
|- a
|- b
|- c
・
・
|- z
そして、P-Study Systemを起動して、
音声再生WAVファイルの格納フォルダに上記の「wavvoice」フォルダを設定する。
音声データはmp3データを上記アルファベットのフォルダの下に入れる。
ファイル名の末尾に「_」を入れること。
例えば「English」の音声データの場合、ファイル名を「english_.mp3」か「English_.mp3」として、「e」のフォルダの下に格納する。
ファイル名は間にスベースが入ってもよいので、例えば「be able to」のような熟語も「be able to_.mp3」というファイル名で対応できる。
何故この設定がうまくいくのか、どこにこの仕様が公開されているのかは俺は知らん。
昔どこかの親切な御仁が英語音声の設定ツールを配布していて、それを使ったら
残念ながらそのツールが配布されていたホームページは無くなってしまっている。
便利な世の中になったもので、英語音声ファイルはいろんなところから手に入る。
weblioなんかはかなりの単語、熟語について音声データが用意されているので、
そのままダウンロードして使ってもよいし、google翻訳でも今は発音が出来るので、
それをPC内で録音して使ってもよい。
プログラムが得意な人ならWebから音声ファイルを自動で取得して名前を付けるツールを作ったりするのだろうが、俺には全くその技術がないので、1つずつちまちまと増やしていっている。