前言 & 简介#
最近 AI 歌手非常流行,以至于 B 站直接开了个投稿活动
目前常用的有 RVC,VITS,DiffSinger
RVC 和 VITS 原理是变声器,输入音频进行转换。DiffSinger 则类似于 VOCALOID。
理论上来讲 DiffSinger 会比 VITS 效果好。
但 VOCALOID 对于没有学过音乐的学起来实在是困难(我也不会用)教程以后再写(咕咕)
本教程在 Windows 可运行,Linux 需要修改步骤
首先先看下免责声明
本教程旨在提供交流学习用途,不得用于商业目的或侵犯他人合法权益。随意使用他人的声音训练发布可能违反《互联网信息服务深度合成管理规定》等法律法规。在使用本教程及其相关模型时,请务必遵守相关法律法规,并遵守知识产权法律法规。任何因使用本教程及其相关模型而产生的法律纠纷,由使用者自行承担一切后果,与本站作者无关。
教程准备#
数据集准备#
训练可以使用人声或说话的音频,但不要混用,效果很差
使用人声训练的效果会接近歌手本来的唱法,而使用说话训练就会接近输入音频的唱法
下面是例子
输入音频
使用人声训练
使用说话训练
训练音频不要下载音质低的音乐,会影响效果
打开刚才安装的 Ultimate Vocal Remover,用于分离伴奏和人声
由于默认的模型处理起来效果不是很好,需要按以下步骤下载Demucs v4 htdemucs_ft模型
由于我已经下载过了,实际上应该选 Demucs v4 htdemucs_ft 别选错
下载完成后注意红线标注地方的设置,然后点击 start(文件多的话需要几小时时间)
输出之后最好把音频听一遍,如果有杂音 破音 包含伴奏 音质像电话的直接不用或剪掉杂音部分,不然会非常影响效果
虽然 RVC 程序包含了截断,但还是用 Audio Slicer 截断一下比较好,打开 slicer-gui.exe 程序,在红线标出的地方设置参数,然后点 start 开始
输出后删掉小于 5 秒的音频,然后听一下小于 10 秒的音频是否全是噪音,是噪音的话删掉
开始训练#
RVC 程序包含了 python 运行环境,不需要准备运行环境了
直接打开 go-web.bat,稍等一会,会打开浏览器,如果没打开自行打开http://127.0.0.1:7897/ 选择 训练,解释的词语可以改,没解释的最好别动
词语解释
输入实验名:模型的名字,不要和 logs 下的文件夹重名
目标采样率:默认 40k 也可以改成 48k
输入训练文件夹路径:输入刚才 Audio Slicer 输出的文件夹路径
总训练轮数 total_epoch:训练轮数,最好 100 次以上模型效果会更好
保存频率 save_every_epoch:保存频率,如果总训练轮数 total_epoch 调大需要调大不然会很占硬盘
每张显卡的 batch_size:如果显存 6G 不要修改,大于可酌情修改,实测 12G 显存 3060 可以选择 12 或 16batch_size
设置完成后点击一键训练然后等(还是睡一觉吧)
推理音频#
需要用到 UVR,按照上文配置,但这次不需要选择 vocals only,输出记得换一个新的空白文件夹
特征检索文件在 logs\ 实验名文件夹里,added_开头那个就是(如果不继续训练可以把特征文件放在 weights 文件夹里面然后删掉 logs\ 实验名文件夹,真的很占硬盘)
注意!训练好的模型文件在 weights 文件夹下,不是 logs 文件夹里面的内容
特征检索占比最好在 0.6~0.9 之间,超过这个范围效果很差,和歌手声线差得多就不要用默认的 0.76
然后按下面图片设置,点击转换即可
转换完成下载之后使用如 Adobe Audition 之类的软件把输出的音频和伴奏混合一下就可以了
结束#
教程结束力
有问题可以在评论区问😆