MYCOEIROINKでニコニコごはんちゃんを喋らせた

Tweet

おつかれさまです。 ヤマダグローバルゲームです。

今回のサブチャンネルの動画で、新たな試みとしてMYCOEIROINKによる私自身の機械音声を使ってみました。

利用背景

以前からこんな感じの動画を作りたかったのですが、環境的な理由で音声の収録が気軽にできず、何度も制作段階でお蔵入りするという問題がありました。

そのため、いっそ音声部分は機械音声を使おうとも考えました。 しかしここまで活動した手前、いまさらずんだもん達の声に変えるのは…と思っていたところでMYCOEIROINKの存在を知り、物は試しで導入してみることにしました。

導入に関する備忘録

MYCOEIROINKの作り方に関しては、公式サイトの作成案内をご覧ください(そのうち内容が変わる可能性もあるので)。

ここは2023年1月時点での作成方法に関しての備忘録になります。

読み上げ音声について

読み上げ音声は最小10文、最大652文とあったので、今回はITAコーパス感情音声100文の読み上げ音声のみを使うことにしました。 80番以降は読み方に難解なものがあるので、サンプルで提供されている読み上げ音声を聞いて一度確認しておくとよいです。

ちなみに音声の収録はOBSで収録してffmpegで音声をmp3で抽出、Audacityでコンプレッサーを使って調整をかけつつ一文一文切り出してwav保存しました。 これはOBSの方がマイク関連のフィルタがいろいろそろっているためです。

ついでにffmpegのmp3抽出のコマンドも記載します。 抽出の際に音声をモノラルに変えています。

ffmpeg -i input.mp4 -f mp3 -ab 256k -ar 44100 -ac 1 -vn output.mp3

Google colabとGoogle Driveについて

正直ここが思った以上に手こずりました。 具体的に書くと、処理であっという間に無料プラン分のコンピューティングユニットを使い果たし、さらに実行中何度もセッションを切られてしまいました。

無料プランで用意されているコンピューティングユニットの数値は具体的に記載されていませんが、だいたい2〜3時間程度で使い果たされてしまいました。 これがいつ回復するのかもわかりません。 今回はさっさと導入してみたかったので、Pay As You Goで100コンピューティングユニットを購入しました(1179円の出費)。 時間をお金で買ったということです。

2023年1月時点の生成作業(モデル学習)は、標準GPUで約1.96コンピューティングユニットでした。 これでだいたい23分ごとにpthファイルが1つ生成されます。 つまり学習モデルの限界値である100epoch.pthを作るまで最短38時間半ほどかかります。 よって100コンピューティングユニット内で100epochまで作るのは十分可能です。

標準GPUの消費値

じゃあプレミアムGPUでやるとどうなるかですが、こちらは1時間あたりで消費するコンピューティングユニットが13.08に増え、だいたい9分ごとに生成されます。 つまり100epoch.pthが作られるまで最短15時間で済みますが、必要なコンピューティングユニットは約200になります。 ただ、品質的には50epochぐらいから良い感じになるみたいなので、100コンピューティングでギリギリ許容できる範囲まで作業は可能なようです。

プレミアムGPUの消費値

どちらを取るかはケースバイケースですね。

また、学習モデルの生成は結構な容量を必要とします。 MYCOEIROINKの案内では7GB程度とありますが、100epochまでいくとそれの数倍は必要とする印象です。

これも既存のアカウントの容量では足りそうになかったため、一時的にGoogle Oneに入会して容量を増やすことにしました。 月250円ですが、1ヵ月トライアルで実際は1円も使っていません。 代わりに次の更新までにファイルを全削除しておく必要がありますが…。

長時間利用によるセッション切れに関しては、正直あまりよい手がありませんでした。 そのため一晩寝ている間にPCを動かして…という手段は諦めました。 作業中ずっと隅っこにブラウザを立ち上げて動かすのが一番です。

使ってみての感想

長文になると明らかに合成された音声感はありますが、思ったより自分の声で再生されて驚きました。 あと「パ」が明らかに「タ」で再生されるのが気になりますが、これは読み上げ音声ファイルを増やせば解決しそうな気がします。

ちなみにepochの数が増えると品質が増えるかどうかに関しては、まだちゃんと確認していません。 いちおう30・50・80・100それぞれのファイルは保存しているので、どこかで確認してみようと思います。

とはいえ、あまりこれの音声だけではちょっと厳しそうな感じがあるので、もう少し活用方法を探っていこうと思います。

そんなところで、今後もヤマダグローバルゲームとぞうのもろんちゃんをよろしくおねがいします。