lingxue

lingxue

向着遥不可及的梦想,进发!
steam
youtube
keybase
twitter

使用RVC训练属于自己的AI歌手

前言 & 简介#

最近 AI 歌手非常流行,以至于 B 站直接开了个投稿活动

屏幕截图

目前常用的有 RVC,VITS,DiffSinger

RVC 和 VITS 原理是变声器,输入音频进行转换。DiffSinger 则类似于 VOCALOID。

理论上来讲 DiffSinger 会比 VITS 效果好。

但 VOCALOID 对于没有学过音乐的学起来实在是困难(我也不会用)教程以后再写(咕咕)

gezi

本教程在 Windows 可运行,Linux 需要修改步骤

首先先看下免责声明

本教程旨在提供交流学习用途,不得用于商业目的或侵犯他人合法权益。随意使用他人的声音训练发布可能违反《互联网信息服务深度合成管理规定》等法律法规。在使用本教程及其相关模型时,请务必遵守相关法律法规,并遵守知识产权法律法规。任何因使用本教程及其相关模型而产生的法律纠纷,由使用者自行承担一切后果,与本站作者无关。

教程准备#

  1. 一张显存大于 6G 的英伟达显卡,并更新到最新版本驱动程序
  2. 下载 UVR 程序并安装 下载链接
  3. 下载 RVC 程序并解压 下载链接
  4. 下载 Audio Slicer 程序并解压 下载链接

数据集准备#

训练可以使用人声或说话的音频,但不要混用,效果很差

使用人声训练的效果会接近歌手本来的唱法,而使用说话训练就会接近输入音频的唱法

下面是例子

输入音频

使用人声训练

使用说话训练

训练音频不要下载音质低的音乐,会影响效果

打开刚才安装的 Ultimate Vocal Remover,用于分离伴奏和人声

由于默认的模型处理起来效果不是很好,需要按以下步骤下载Demucs v4 htdemucs_ft模型

屏幕截图 2023-05-28 211605

由于我已经下载过了,实际上应该选 Demucs v4 htdemucs_ft 别选错

下载完成后注意红线标注地方的设置,然后点击 start(文件多的话需要几小时时间)

屏幕截图 2023-05-28 213012

输出之后最好把音频听一遍,如果有杂音 破音 包含伴奏 音质像电话的直接不用或剪掉杂音部分,不然会非常影响效果

虽然 RVC 程序包含了截断,但还是用 Audio Slicer 截断一下比较好,打开 slicer-gui.exe 程序,在红线标出的地方设置参数,然后点 start 开始

屏幕截图 2023-05-28 212712

输出后删掉小于 5 秒的音频,然后听一下小于 10 秒的音频是否全是噪音,是噪音的话删掉

开始训练#

RVC 程序包含了 python 运行环境,不需要准备运行环境了

直接打开 go-web.bat,稍等一会,会打开浏览器,如果没打开自行打开http://127.0.0.1:7897/ 选择 训练,解释的词语可以改,没解释的最好别动

词语解释

输入实验名:模型的名字,不要和 logs 下的文件夹重名

目标采样率:默认 40k 也可以改成 48k

输入训练文件夹路径:输入刚才 Audio Slicer 输出的文件夹路径

总训练轮数 total_epoch:训练轮数,最好 100 次以上模型效果会更好

保存频率 save_every_epoch:保存频率,如果总训练轮数 total_epoch 调大需要调大不然会很占硬盘

每张显卡的 batch_size:如果显存 6G 不要修改,大于可酌情修改,实测 12G 显存 3060 可以选择 12 或 16batch_size

屏幕截图 2023-05-28 214929

设置完成后点击一键训练然后等(还是睡一觉吧)

推理音频#

需要用到 UVR,按照上文配置,但这次不需要选择 vocals only,输出记得换一个新的空白文件夹

特征检索文件在 logs\ 实验名文件夹里,added_开头那个就是(如果不继续训练可以把特征文件放在 weights 文件夹里面然后删掉 logs\ 实验名文件夹,真的很占硬盘)

注意!训练好的模型文件在 weights 文件夹下,不是 logs 文件夹里面的内容

特征检索占比最好在 0.6~0.9 之间,超过这个范围效果很差,和歌手声线差得多就不要用默认的 0.76

然后按下面图片设置,点击转换即可

屏幕截图 2023-05-28 220043

转换完成下载之后使用如 Adobe Audition 之类的软件把输出的音频和伴奏混合一下就可以了

结束#

教程结束力

有问题可以在评论区问😆

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。