前言 & 簡介#
最近 AI 歌手非常流行,以至於 B 站直接開了個投稿活動
目前常用的有 RVC,VITS,DiffSinger
RVC 和 VITS 原理是變聲器,輸入音頻進行轉換。DiffSinger 則類似於 VOCALOID。
理論上來講 DiffSinger 會比 VITS 效果好。
但 VOCALOID 對於沒有學過音樂的學起來實在是困難(我也不會用)教程以後再寫(咕咕)
本教程在 Windows 可運行,Linux 需要修改步驟
首先先看下免責聲明
本教程旨在提供交流學習用途,不得用於商業目的或侵犯他人合法權益。隨意使用他人的聲音訓練發布可能違反《互聯網信息服務深度合成管理規定》等法律法規。在使用本教程及其相關模型時,請務必遵守相關法律法規,並遵守知識產權法律法規。任何因使用本教程及其相關模型而產生的法律紛爭,由使用者自行承擔一切後果,與本站作者無關。
教程準備#
數據集準備#
訓練可以使用人聲或說話的音頻,但不要混用,效果很差
使用人聲訓練的效果會接近歌手本來的唱法,而使用說話訓練就會接近輸入音頻的唱法
下面是例子
輸入音頻
使用人聲訓練
使用說話訓練
訓練音頻不要下載音質低的音樂,會影響效果
打開剛才安裝的 Ultimate Vocal Remover,用於分離伴奏和人聲
由於默認的模型處理起來效果不是很好,需要按以下步驟下載Demucs v4 htdemucs_ft模型
由於我已經下載過了,實際上應該選 Demucs v4 htdemucs_ft 別選錯
下載完成後注意紅線標註地方的設置,然後點擊 start(文件多的話需要幾小時時間)
輸出之後最好把音頻聽一遍,如果有雜音 破音 包含伴奏 音質像電話的直接不用或剪掉雜音部分,不然會非常影響效果
雖然 RVC 程序包含了截斷,但還是用 Audio Slicer 截斷一下比較好,打開 slicer-gui.exe 程序,在紅線標出的地方設置參數,然後點 start 開始
輸出後刪掉小於 5 秒的音頻,然後聽一下小於 10 秒的音頻是否全是噪音,是噪音的話刪掉
開始訓練#
RVC 程序包含了 python 運行環境,不需要準備運行環境了
直接打開 go-web.bat,稍等一會,會打開瀏覽器,如果沒打開自行打開http://127.0.0.1:7897/ 選擇 訓練,解釋的詞語可以改,沒解釋的最好別動
詞語解釋
輸入實驗名:模型的名字,不要和 logs 下的文件夾重名
目標採樣率:默認 40k 也可以改成 48k
輸入訓練文件夾路徑:輸入剛才 Audio Slicer 輸出的文件夾路徑
總訓練輪數 total_epoch:訓練輪數,最好 100 次以上模型效果會更好
保存頻率 save_every_epoch:保存頻率,如果總訓練輪數 total_epoch 調大需要調大不然會很占硬盤
每張顯卡的 batch_size:如果顯存 6G 不要修改,大於可酌情修改,實測 12G 顯存 3060 可以選擇 12 或 16batch_size
設置完成後點擊一鍵訓練然後等(還是睡一覺吧)
推理音頻#
需要用到 UVR,按照上文配置,但這次不需要選擇 vocals only,輸出記得換一個新的空白文件夾
特徵檢索文件在 logs\ 實驗名文件夾裡,added_開頭那個就是(如果不繼續訓練可以把特徵文件放在 weights 文件夾裡面然後刪掉 logs\ 實驗名文件夾,真的很占硬盤)
注意!訓練好的模型文件在 weights 文件夾下,不是 logs 文件夾裡面的內容
特徵檢索佔比最好在 0.6~0.9 之間,超過這個範圍效果很差,和歌手聲線差得多就不要用默認的 0.76
然後按下面圖片設置,點擊轉換即可
轉換完成下載之後使用如 Adobe Audition 之類的軟件把輸出的音頻和伴奏混合一下就可以了
結束#
教程結束力
有問題可以在評論區問😆