はてなでは無名だが、AHSというPCソフトウェアを販売している会社がある。
そこから先日Recotte Studioというゲーム実況動画作成ソフトが出た。通常価格で¥12,800+税という値段だ。
元々ボイスロイドという人工音声ソフトをAHSは出していて、Recotte Studioの売りはその連携にある。
作っているのはクレジットを見るとソフトイーサで、IPA未踏の伊藤さんも参加されているようだ。
ここで注意してもらいたいのが、『実況動画作成』であり『動画編集』ソフトではない。
ボイスロイド+ゲーム実況は既に多く作られているし、その多くはフリーのAviUtlという動画編集ソフトで作られている。
ボイスロイド自体がPepper君と同じ声のパッケージが発売されてから10年経っていて、AviUtlのプラグインを有志が作っている。
AviUtlは使った人はわかると思うが古いソフトに機能追加されているので、ごちゃごちゃしている。
その中でRecotte Studioは初心者向けということで発売された。
問題はここからだが、Recotte Studioは機能が少ない分やりたいことができない。
初心者は先人の真似から入るわけだが、機能が少ないので出来ない。
もちろんソフトの機能紹介で説明されているようにテロップは入れられるのだが、ボイスロイドとの音声連携+テロップがやりたいことなので、躓くポイントが多い。
1つ、2つテロップを入れるだけならいいが、大量にテロップを入れるとなると修正が入るが、2つのソフトを連携させる都合かUIが悪い。
わかりにくければUIが悪いという結論のみ把握しておいてもらえばいい。
ゲーム実況なので、ゲーム画面を録画したのを流しつつ、テロップを入れたい場所にテキストを入力していく。
ここで躓きポイント①だが、改行が必要な長文になると改行をどうしたらいいのかがわからない。
そんなの単に改行すればいいじゃないかと言われるだろうが、改行はできず確定になる。
改行する場合はプレビュー画面のテロップが実際に入った枠を編集することになる。
テロップだけなら、まぁいいか程度だが、ボイスロイドとの連携時にスペースが入る。
ボイスロイドを使ったことがない人向けに説明すると、ボイスロイドはテキストを入力して音声を出力するソフトだ。
テキストにスペースが入っていると、そこが文章の切れ目と認識して、音声が途切れるのだ。(躓きポイント②)
プログラマーの方なら、スペースが入るくらい置換すればいいだろうというだろうが、そういう人ばかりではない。
売りのボイスロイドとの連携だが、『全てのテロップをクリップボードにコピー』するというのがRecotte Studio側の機能だ。
ユーザーは、別のソフトであるボイスロイドのテキスト画面にペーストし、音声を編集して音声ファイルWavで書き出すと同時に、1つずつの音声ファイルを作ったテキストを吐き出す。
言い方を変えると、連番の.wavと.txtファイルが出力される。
Recotte Studioは、フォルダを監視していて、ファイルが更新されたのを検出して音声ファイルを読み込む。
Recotte Studio側にテロップのテキスト情報を持っているので、.txtの内容と一致すれば、.txtと同じファイル名の.wavを読み込む。
.txtと.wavは拡張子が違うだけで、ファイル名が一緒となっていることで一対になっていることを示している。
ここで、躓きポイント③だが、ボイスロイドで音声調整をしている際、誤字を見つけたときは、
b)Recotte Studio側に戻ってテキストを修正すればいいのか
どちらだろうか。
先ほどRecotte Studio側は.txtの内容と一致した同じファイル名の.wavを読み込むと言ったが、
誤字なので結局Recotte Studioに戻ってテロップも修正することになるのだが、『全てのテロップをクリップボードにコピー』されるので、
誤字の部分だけ更新すればいいや、とはならない。
ここで躓きポイント④だが、テロップを修正していない箇所の音声は、前と同じなのかという疑問が出てくる。
プログラマーの方ならテキストならdiff取って処理すればいいじゃんと思うだろうが、
ボイスロイドというソフトのテキスト入力枠はコピー&ペーストで上書き修正されている。
一応、登録しておいた文章が完全に一致していれば、同じ音声を出力する(はず)だが、本当か?と思うだろう。
なぜ『全てのテロップをクリップボードにコピー』される仕様になっているのかはわからないが、
想像するに、新規にテロップが追加された時の対応あたりだろう。
次の躓きポイント⑤だが、『.txtの内容と一致した同じファイル名の.wav』を読み込むのであれば、
テキストでは同じ文面だが、読み方(アクセントなり、音の高さなり)を変えたい場合はどうなるのか。
ボイスロイドの動画を作る際、複数のボイスロイドで会話させることがある。
キャラA「こんにちは」、キャラB「こんにちは」と喋らせたいとしよう。
ユーザー側の対応策として、キャラAとキャラBの吐き出すフォルダを別にすればいいとなるが、気づけないユーザーもいるだろう。
先ほどの例では、挨拶だったのでいいが、「ごめん」といったセリフは動画中に2度出てくる可能性はないだろうか?
そして喋らせ方が違ったらどうだろうか。(最初はふざけた感じで、次は真剣な感じなど)
次の躓きポイント⑥だが、動画を作っている途中だと適切な音声だと思っていても、ある程度完成して見直してみると、
音声と音声の間が足りてなかったと思うことがある。
その時は、ボイロ側で話す速度や間を修正することになるのだが、テロップの位置が変わらないため、
テロップが2重に表示される期間が出てくることになる。
最初から隙間を開けておくといった対策がユーザー側ではできるが、これも最初は気づけないし、
テロップとテロップの間で毎回一瞬消えるのも気になって嫌う人もいるだろう。
2つのソフト間での連携するような仕様にせざるを得なかったというのもあるのだろうが、初心者向けと言いつつ、触ると躓きポイントが多い。
じゃあ修正すればいいじゃんと、今時のプログラマーの方は思うだろうが、Recotte Studioのガイドブックが同時発売されている。
そのためUIの変更はすぐにはできないのだと思う。
PCソフトなんて今時だれが買うんだっていう時代なので、開発リソースが少ないのが、機能の少なさから透けて見えるのも辛いところだ。
AHSという会社だが、先の未踏出身の伊藤さんが作られたキャラミんを配布したり、
Kanru Huaが作られたSynthesizer Vを販売したり、
市場が小さいが個人で作ったのをビジネスにつなげようとしている会社で応援したいので購入しているのだが、
開発リソースが小さく機能が一点突破だったり、買い切りなのでサポートの説明不足だったりする。
クリエイティブ系のサブスクで成功してるのは、日本ではクリスタがありますな Recotteみたところ使いやすそうだし売れてればそのうちサブスクにするんじゃないかな 資金繰りの関係や...
何が言いたいのか結局わかりづらいから、もう少しタイトルを工夫してほしい ソフトのUIがクソで使いづらい、ってだけだよね?
個人で作る以上、機能が一点突破になってUIやビジネルモデルがおろそかになるのは仕方がない。 応援したいが厳しい。 …という状況を嘆いた文章と読んだ。
横からだけど、メリットが書いてないから、どこに「一点突破」してるのかわかりにくいんよね。 まるで全くメリットはない不満ばかりの上に有償なソフトに見えてしまう。 しいていう...