自分自身のAI歌手を育成するためにRVCを使用する

前言＆紹介#

最近、AI 歌手が非常に人気で、B 站では直接投稿イベントが開催されました。

スクリーンショット

現在、よく使われているのは RVC、VITS、DiffSinger です。

RVC と VITS は変声器の原理で、入力音声を変換します。DiffSinger は VOCALOID に似ています。

理論的には、DiffSinger の方が VITS よりも効果が良いはずです。

しかし、音楽を学んだことがない人にとっては、VOCALOID を使うことは本当に難しいです（私も使えません）。チュートリアルは後で書きます（咕咕）。

gezi

このチュートリアルは Windows で実行できますが、Linux では手順を変更する必要があります。

まず免責事項を確認しましょう

このチュートリアルは、コミュニケーションと学習の目的で提供されており、商業目的や他人の合法的な権利を侵害する目的で使用することはできません。他人の声を無断で使用して公開することは、《インターネット情報サービス深層合成管理規定》などの法律および規制に違反する可能性があります。このチュートリアルおよび関連するモデルを使用する際には、関連する法律および規制を遵守し、知的財産権に関する法律および規制を遵守してください。このチュートリアルおよび関連するモデルの使用によって生じるいかなる法的紛争についても、使用者が一切の責任を負い、本サイトの作者とは関係ありません。

チュートリアルの準備#

6G 以上の NVIDIA グラフィックスカードと、最新のドライバーをインストールします。
UVR プログラムをダウンロードしてインストールします。ダウンロードリンク
RVC プログラムをダウンロードして解凍します。ダウンロードリンク
Audio Slicer プログラムをダウンロードして解凍します。ダウンロードリンク

データセットの準備#

トレーニングにはボーカルまたは話し声のオーディオを使用できますが、混在させないでください。効果が非常に悪くなります。

ボーカルトレーニングでは、効果は歌手の本来の歌唱スタイルに近くなりますが、話し声トレーニングでは、入力オーディオの歌唱スタイルに近くなります。

以下は例です。

入力オーディオ

ボーカルトレーニング

話し声トレーニング

トレーニングオーディオは音質の低い音楽をダウンロードしないでください。効果に影響が出ます。

インストールした Ultimate Vocal Remover を開き、伴奏とボーカルを分離するために使用します。

デフォルトのモデルでは効果があまり良くないため、以下の手順でDemucs v4 htdemucs_ftモデルをダウンロードする必要があります。

スクリーンショット 2023-05-28 211605

すでにダウンロード済みなので、実際には Demucs v4 htdemucs_ft を選択するべきです

ダウンロードが完了したら、赤線で示された設定に注意し、start をクリックします（ファイルが多い場合は数時間かかる場合があります）。

スクリーンショット 2023-05-28 213012

出力後、オーディオを聞いて、ノイズ、歪み、伴奏の含まれている部分、電話の音質があるかどうかを確認します。ある場合は使用しないか、ノイズの部分をカットしてください。そうしないと、効果が非常に悪くなります。

RVC プログラムにはトリミング機能が含まれていますが、それでも Audio Slicer でトリミングする方が良いです。slicer-gui.exe プログラムを開き、赤線で示された場所でパラメータを設定し、start をクリックします。

スクリーンショット 2023-05-28 212712

出力後、5 秒未満のオーディオを削除し、10 秒未満のオーディオがすべてノイズであるかどうかを確認してください。ノイズの場合は削除してください。

トレーニングを開始する#

RVC プログラムには Python 実行環境が含まれているため、実行環境の準備は必要ありません。

go-web.bat を直接開き、しばらく待つとブラウザが開きます。開かない場合は、自分でhttp://127.0.0.1:7897 / を開いて、トレーニングを選択してください。解説の単語は変更しても構いませんが、解説がない場合は触らない方が良いです。

単語の解説

実験名：モデルの名前。logs フォルダと重複しないようにしてください。

目標サンプリングレート：デフォルトは 40k ですが、48k に変更することもできます。

トレーニングフォルダのパス：先ほどの Audio Slicer の出力フォルダのパスを入力します。

総トレーニングエポック：トレーニングエポック数。100 回以上の方がモデルの効果がより良くなります。

保存頻度：保存頻度。総トレーニングエポックを大きくする場合は、大きくする必要があります。そうしないと、ハードディスクの容量を大量に使用します。

1 枚のグラフィックスカードのバッチサイズ：6G の場合は変更しないでください。12G のグラフィックスカード 3060 では、12 または 16 のバッチサイズを選択できます。

スクリーンショット 2023-05-28 214929

設定が完了したら、一键训练をクリックして待ちます（または寝て待つ）。

オーディオの推論#

UVR が必要ですが、前述の設定に従ってください。ただし、今回は vocals only を選択する必要はありません。出力は新しい空のフォルダに変更してください。

特徴検索ファイルは logs\ 実験名フォルダにあります。added_で始まるファイルです（トレーニングを続けない場合は、特徴ファイルを weights フォルダに入れて、logs\ 実験名フォルダを削除してください。本当にハードディスクの容量を大量に使用します）。

注意！トレーニング済みのモデルファイルは logs フォルダではなく weights フォルダにあります

特徴検索の割合は 0.6〜0.9 の間が最適です。この範囲を超えると効果が非常に悪くなります。歌手の声とはかなり異なる場合は、デフォルトの 0.76 を使用しないでください。

次に、以下の画像のように設定し、変換をクリックします。

スクリーンショット 2023-05-28 220043

変換が完了したら、ダウンロードしたオーディオを Adobe Audition などのソフトウェアでミックスしてください。

終了#

チュートリアル終了

質問があれば、コメントで質問してください😆