使用RVC训练属于自己的AI歌手

前言 & 简介#

最近 AI 歌手非常流行，以至于 B 站直接开了个投稿活动

屏幕截图

目前常用的有 RVC，VITS，DiffSinger

RVC 和 VITS 原理是变声器，输入音频进行转换。DiffSinger 则类似于 VOCALOID。

理论上来讲 DiffSinger 会比 VITS 效果好。

但 VOCALOID 对于没有学过音乐的学起来实在是困难（我也不会用）教程以后再写（咕咕）

gezi

本教程在 Windows 可运行，Linux 需要修改步骤

首先先看下免责声明

本教程旨在提供交流学习用途，不得用于商业目的或侵犯他人合法权益。随意使用他人的声音训练发布可能违反《互联网信息服务深度合成管理规定》等法律法规。在使用本教程及其相关模型时，请务必遵守相关法律法规，并遵守知识产权法律法规。任何因使用本教程及其相关模型而产生的法律纠纷，由使用者自行承担一切后果，与本站作者无关。

教程准备#

一张显存大于 6G 的英伟达显卡，并更新到最新版本驱动程序
下载 UVR 程序并安装下载链接
下载 RVC 程序并解压下载链接
下载 Audio Slicer 程序并解压下载链接

数据集准备#

训练可以使用人声或说话的音频，但不要混用，效果很差

使用人声训练的效果会接近歌手本来的唱法，而使用说话训练就会接近输入音频的唱法

下面是例子

输入音频

使用人声训练

使用说话训练

训练音频不要下载音质低的音乐，会影响效果

打开刚才安装的 Ultimate Vocal Remover，用于分离伴奏和人声

由于默认的模型处理起来效果不是很好，需要按以下步骤下载Demucs v4 htdemucs_ft模型

屏幕截图 2023-05-28 211605

由于我已经下载过了，实际上应该选 Demucs v4 htdemucs_ft 别选错

下载完成后注意红线标注地方的设置，然后点击 start（文件多的话需要几小时时间）

屏幕截图 2023-05-28 213012

输出之后最好把音频听一遍，如果有杂音破音包含伴奏音质像电话的直接不用或剪掉杂音部分，不然会非常影响效果

虽然 RVC 程序包含了截断，但还是用 Audio Slicer 截断一下比较好，打开 slicer-gui.exe 程序，在红线标出的地方设置参数，然后点 start 开始

屏幕截图 2023-05-28 212712

输出后删掉小于 5 秒的音频，然后听一下小于 10 秒的音频是否全是噪音，是噪音的话删掉

开始训练#

RVC 程序包含了 python 运行环境，不需要准备运行环境了

直接打开 go-web.bat，稍等一会，会打开浏览器，如果没打开自行打开http://127.0.0.1:7897/ 选择训练，解释的词语可以改，没解释的最好别动

词语解释

输入实验名：模型的名字，不要和 logs 下的文件夹重名

目标采样率：默认 40k 也可以改成 48k

输入训练文件夹路径：输入刚才 Audio Slicer 输出的文件夹路径

总训练轮数 total_epoch：训练轮数，最好 100 次以上模型效果会更好

保存频率 save_every_epoch：保存频率，如果总训练轮数 total_epoch 调大需要调大不然会很占硬盘

每张显卡的 batch_size：如果显存 6G 不要修改，大于可酌情修改，实测 12G 显存 3060 可以选择 12 或 16batch_size

屏幕截图 2023-05-28 214929

设置完成后点击一键训练然后等（还是睡一觉吧）

推理音频#

需要用到 UVR，按照上文配置，但这次不需要选择 vocals only，输出记得换一个新的空白文件夹

特征检索文件在 logs\ 实验名文件夹里，added_开头那个就是（如果不继续训练可以把特征文件放在 weights 文件夹里面然后删掉 logs\ 实验名文件夹，真的很占硬盘）

注意！训练好的模型文件在 weights 文件夹下，不是 logs 文件夹里面的内容

特征检索占比最好在 0.6~0.9 之间，超过这个范围效果很差，和歌手声线差得多就不要用默认的 0.76

然后按下面图片设置，点击转换即可

屏幕截图 2023-05-28 220043

转换完成下载之后使用如 Adobe Audition 之类的软件把输出的音频和伴奏混合一下就可以了

结束#

教程结束力

有问题可以在评论区问😆