使用RVC訓練屬於自己的AI歌手

前言 & 簡介#

最近 AI 歌手非常流行，以至於 B 站直接開了個投稿活動

屏幕截圖

目前常用的有 RVC，VITS，DiffSinger

RVC 和 VITS 原理是變聲器，輸入音頻進行轉換。DiffSinger 則類似於 VOCALOID。

理論上來講 DiffSinger 會比 VITS 效果好。

但 VOCALOID 對於沒有學過音樂的學起來實在是困難（我也不會用）教程以後再寫（咕咕）

gezi

本教程在 Windows 可運行，Linux 需要修改步驟

首先先看下免責聲明

本教程旨在提供交流學習用途，不得用於商業目的或侵犯他人合法權益。隨意使用他人的聲音訓練發布可能違反《互聯網信息服務深度合成管理規定》等法律法規。在使用本教程及其相關模型時，請務必遵守相關法律法規，並遵守知識產權法律法規。任何因使用本教程及其相關模型而產生的法律紛爭，由使用者自行承擔一切後果，與本站作者無關。

教程準備#

一張顯存大於 6G 的英偉達顯卡，並更新到最新版本驅動程序
下載 UVR 程序並安裝下載鏈接
下載 RVC 程序並解壓下載鏈接
下載 Audio Slicer 程序並解壓下載鏈接

數據集準備#

訓練可以使用人聲或說話的音頻，但不要混用，效果很差

使用人聲訓練的效果會接近歌手本來的唱法，而使用說話訓練就會接近輸入音頻的唱法

下面是例子

輸入音頻

使用人聲訓練

使用說話訓練

訓練音頻不要下載音質低的音樂，會影響效果

打開剛才安裝的 Ultimate Vocal Remover，用於分離伴奏和人聲

由於默認的模型處理起來效果不是很好，需要按以下步驟下載Demucs v4 htdemucs_ft模型

屏幕截圖 2023-05-28 211605

由於我已經下載過了，實際上應該選 Demucs v4 htdemucs_ft 別選錯

下載完成後注意紅線標註地方的設置，然後點擊 start（文件多的話需要幾小時時間）

屏幕截圖 2023-05-28 213012

輸出之後最好把音頻聽一遍，如果有雜音破音包含伴奏音質像電話的直接不用或剪掉雜音部分，不然會非常影響效果

雖然 RVC 程序包含了截斷，但還是用 Audio Slicer 截斷一下比較好，打開 slicer-gui.exe 程序，在紅線標出的地方設置參數，然後點 start 開始

屏幕截圖 2023-05-28 212712

輸出後刪掉小於 5 秒的音頻，然後聽一下小於 10 秒的音頻是否全是噪音，是噪音的話刪掉

開始訓練#

RVC 程序包含了 python 運行環境，不需要準備運行環境了

直接打開 go-web.bat，稍等一會，會打開瀏覽器，如果沒打開自行打開http://127.0.0.1:7897/ 選擇訓練，解釋的詞語可以改，沒解釋的最好別動

詞語解釋

輸入實驗名：模型的名字，不要和 logs 下的文件夾重名

目標採樣率：默認 40k 也可以改成 48k

輸入訓練文件夾路徑：輸入剛才 Audio Slicer 輸出的文件夾路徑

總訓練輪數 total_epoch：訓練輪數，最好 100 次以上模型效果會更好

保存頻率 save_every_epoch：保存頻率，如果總訓練輪數 total_epoch 調大需要調大不然會很占硬盤

每張顯卡的 batch_size：如果顯存 6G 不要修改，大於可酌情修改，實測 12G 顯存 3060 可以選擇 12 或 16batch_size

屏幕截圖 2023-05-28 214929

設置完成後點擊一鍵訓練然後等（還是睡一覺吧）

推理音頻#

需要用到 UVR，按照上文配置，但這次不需要選擇 vocals only，輸出記得換一個新的空白文件夾

特徵檢索文件在 logs\ 實驗名文件夾裡，added_開頭那個就是（如果不繼續訓練可以把特徵文件放在 weights 文件夾裡面然後刪掉 logs\ 實驗名文件夾，真的很占硬盤）

注意！訓練好的模型文件在 weights 文件夾下，不是 logs 文件夾裡面的內容

特徵檢索佔比最好在 0.6~0.9 之間，超過這個範圍效果很差，和歌手聲線差得多就不要用默認的 0.76

然後按下面圖片設置，點擊轉換即可

屏幕截圖 2023-05-28 220043

轉換完成下載之後使用如 Adobe Audition 之類的軟件把輸出的音頻和伴奏混合一下就可以了

結束#

教程結束力

有問題可以在評論區問😆