[備忘]自分用AIボイチェンモデルのマージ手順について
夜御牧れるが自分のVTuber活動用に作ったマージモデルの成分表など。権利関係の整理用に書いたものです。
関連記事
RVC女声モデル
夜御牧れるの地声をピッチフォルマントシフター(Little AlterBoy)に通したものと、ちはや神社様の「愛想良い系少女の声(しっとり風味ver)」、およびのほしお様の音声アセットをマージしたものになります。
また、しっとり風味のモデルに音高ガイドを付ける際、ITAコーパスの変換元データとして、波音リツの「トーク向けコーパス録音」を利用しています。
マージ比率としては、単純計算で夜御牧52.5% : しっとり風味17.5% : のほしお様30%になります。
RVCでのマージ手順
Aモデル「夜御牧」Bモデル「しっとり風味」として、Aモデルの重み「0.75」でマージ
Aモデルを上のモデル、Bモデル「のほしお様」として、Aモデルの重み「0.7」でマージ
夜御牧自身の声の加工
下記動画で比較用に入れたものと同じモデルです。
奇跡の一声です。変換元は従来型ボイチェン(ピッチフォルマントシフター)で一番まともに変換できる声域のものです。ITAコーパスを読み上げてRVCに学習させました。
ほぼ裏声(を変換したもの)で低音域では絶対出せないような声しか学習させていません。なので、RVCでこのモデルを使って出した低音域の声は、ヤミマキさん本人でも従来型ボイチェンでは出せません。
(そういうわけで、学習させた音源は念のため保存しています。需要がないので公開してませんが)
愛想良い系少女の声(しっとり風味ver)の加工
愛想良い系少女の声(しっとり風味ver)はRVCモデルとして配布されていますが、配布モデルには音高ガイドが付いていないため、そのままでは歌唱用に使えません。
そのため、下記の手順で音高ガイド付きのモデルを作成し、それをマージしています。
波音リツの「トーク向けコーパス録音」を、24kHz・16bit・モノラルに変換。ついでに無音除去
192kHzのままだとうまく非リアルタイム変換できませんでした(RVC20230428)
RVC本体の非リアルタイム変換機能を使い、波音リツのITAコーパスを、しっとり風味verのモデルで変換
しっとり風味verに変換したITAコーパスを、RVCで再学習
ITAコーパスの変換元音源をお借りした、波音リツ公式サイトはこちらです。
なお、愛想良い系少女の声(しっとり風味ver)はMITライセンスで配布されています。
のほしお様RVCモデルの学習元アセット
下記のアセットをひとまとめにして学習させました。
【のほしお】ITAコーパス読み上げ音声【お星】
【お星exVOICE】音声素材集Vol.1
※「exVOICE」は株式会社バンピーファクトリーの登録商標です。
RVC男声モデル
松風様のITAコーパスから作ったモデルと、夜御牧のボイチェン声をマージしたものになります。マージ比率は松風様85% : 夜御牧15%になります。
夜御牧のボイチェン声は女声モデルに混ぜたものとまったく同じなので割愛します。地声でもなければピッチやフォルマントを下げたりもしていません。
Beatrice / MMVC女声モデル
RVC女声モデルを用い、カノン様のITAコーパスをRVCで変換したものを、Beatrice Trainer(2.0.0-beta.2)およびMMVC1.5で学習させています。
(カノン様のITAコーパスは、声質でなく発話された文章を得るために利用)
RVC変換時のピッチは+4です。ITAコーパスのwavファイルは、96kHzのままだとうまくRVCで処理できなかったので、先に24kHzにダウンサンプリングしています。
Beatrice Trainerについては2024-07-26時点(コミットID 079f987c03e28ca2a38f0fd6ce312e12dac60b10 )のものは9秒以上のファイルを処理できないので、ITAコーパスのうち長文のものを除外して学習させました。
※2024-11-25 BeatriceモデルをTrainer 2.0.0-beta.2で再学習(旧モデルは2.0.0beta.0で学習)