人声伴奏分离哪家强开源人声伴奏分离模型人声测试

前前言#

现阶段而言，我非常，非常，非常，十分的不建议用大伴奏声音，快节奏，女声、高音的歌手尤其是这些 debuff 叠在一起的时候，用来人声分离去训练模型，这完全是在折磨自己，而且也不会有一个好的结果

~~我已经试过四次了，别再试了~~

补充#

2023-09-03 我试着批量转换了一些歌曲结果是 Kim_vocal_2 人声部分出现了大量的伴奏人声混合、变闷、杂音的问题，反而伴奏是完美的。~~我怀疑这个模型演我~~，除了下面试验那些歌曲其他的大多数都不行就离谱，浪费时间

v2-0d4541125ee260e8e18376c80fe304b6_1440w

前言#

本文具有时效性，未来可能不会及时更新

由于之前训练过 RVC 模型，但是效果不是很好，demucs v4 模型虽然分离效果比较好，但是人声会有概率变闷。

本文不会使用付费产品测试。~~虽然团子 ai 效果真的不错，堪称灾难级的歌都能完美分离~~

~~没发现十几天前 RVC 更新了，更新提取音高算法新版破音情况会减少，结果我几天前以为用不到了直接把模型删了，还得重新训练~~

v2-225619de6620b18a1efdc10a2a4fd3d1_r

测试#

本测试使用人耳试听得出的结果，不同歌曲不同参数可能会导致不同结果，如果有更好的参数欢迎在评论区纠正

注意！！！本文中使用的女声不一定为女性歌手😹，当然男声也是一样的😹

满分 100 分，但分数不可能会是满分，因为分离后和录制原声一定会有差别

有些音乐找不到了，没办法放出 ~~怕 DMCA~~

去人声仅伴奏，除了旧模型，多数模型效果都很好，本文不测试了

采用网上广受好评的几个人声模型

MDX23 参数参考 MVSep 榜

无人声时总会有些伴奏声音，剪掉即可，下文不再说这个问题

使用 colab 运行

电脑跑不动，炸显存，colab 运行占 13.8g 显存

BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000

其他模型使用 UVR 默认参数

测试一（灾难 debuff 叠满）#

~~不抱希望了已经~~

测试音频，高 BPM，长时间爆音，部分时间伴奏比人声音量大，人声伴奏完全混在一起，也许找到的是音乐音质有点低。林檎音乐卖 204 日元（没买）。~~debuff 叠满了属于是~~

47de46d4ea63622136daee54a72d608f_1440w

这首歌比较神奇的是，伴奏人声混在一起听是没问题的，拆分后人声就会有音质低的问题，伴奏倒是啥事没有，可能是伴奏声音太大了罢

屏幕截图 2023-08-21 210636

模型	分数	注释
RipX 软件内置	50	混着乐器声音，声音变闷
MDX23	70	轻微混着乐器声音，伴奏音量大时声音有杂音
htdemucs_ft	40	混着伴奏声音，声音变闷，杂音
Kim_vocal_2	65	比较严重的声音变闷，杂音
4_HP_Vocal_UVR	35	混着很大伴奏声音，声音变闷，杂音

测试二（轻伴奏主要乐器为一个）#

女声部分#

主要乐器为吉他，在 RipX 分离效果已经很不错了

屏幕截图 2023-08-25 221912

模型	分数	注释
RipX 软件内置	80	混着乐器声音
MDX23	90	轻微混着乐器声音
htdemucs_ft	90	轻微混着乐器声音
Kim_vocal_2	85	长时间轻微混着乐器声音
4_HP_Vocal_UVR	85	混着乐器声音

男声部分#

使用了同一首歌，伴奏有些许不同 ~~笑死，根本找不到一样的~~ ~~虽然不知道为什么 BPM 变得这么高~~

屏幕截图 2023-08-25 225313

模型	分数	注释
RipX 软件内置	95	近乎完美
MDX23	98	近乎完美
htdemucs_ft	93	部分轻微伴奏
Kim_vocal_2	97	近乎完美
4_HP_Vocal_UVR	96	近乎完美

测试三（流行音乐）#

~~不同版本的心做し和恋愛裁判~~

恋愛裁判伴奏相同

不同歌曲可能🤔歌手不同

女声部分#

心做し#

模型	分数	注释
RipX 软件内置	80	少部分声音变闷
MDX23	95	近乎完美
htdemucs_ft	95	近乎完美
Kim_vocal_2	95	近乎完美
4_HP_Vocal_UVR	85	轻微伴奏

恋愛裁判#

模型	分数	注释
RipX 软件内置	75	轻微伴奏，轻微杂音
MDX23	90	轻微伴奏
htdemucs_ft	80	人声混伴奏
Kim_vocal_2	90	轻微伴奏
4_HP_Vocal_UVR	85	轻微伴奏，轻微杂音

男声部分#

心做し#

模型	分数	注释
RipX 软件内置	75	轻微伴奏，轻微杂音
MDX23	95	近乎完美
htdemucs_ft	85	轻微伴奏，也许有些变闷
Kim_vocal_2	95	近乎完美
4_HP_Vocal_UVR	70	伴奏人声混在一起

恋愛裁判#

模型	分数	注释
RipX 软件内置	70	开始伴奏被识别为人声，轻微伴奏，偶尔声音变闷
MDX23	90	轻微伴奏
htdemucs_ft	80	人声混伴奏
Kim_vocal_2	85	轻微伴奏，有时突然出现较大伴奏声音，伴奏部分被识别为人声
4_HP_Vocal_UVR	65	开始伴奏被识别为人声，轻微伴奏，杂音

测试。。。四？（电子音乐）#

这首歌伴奏声音较小

？？？？居然出奇的不错

屏幕截图 2023-08-27 134201

模型	分数	注释
RipX 软件内置	65	部分伴奏被识别为人声，有时伴奏人声混在一起，有些变闷
MDX23	95	有时纯伴奏部分被识别为人声，可以剪掉
htdemucs_ft	80	伴奏混人声
Kim_vocal_2	90	偶尔轻微伴奏
4_HP_Vocal_UVR	50	部分伴奏被识别为人声，较长时间伴奏人声混在一起

总结#

MDX23 目前为最强模型，按运行日志来看，貌似是（htdemucs_ft）（demucs MDXv3）（UVR-MDX-NET Voc FT）（UVR-MDX-NET inst HQ 3）这几个模型混合得出的结果，但是速度非常慢，用 colab T4 5 分钟音乐要处理 17 分钟

htdemucs_ft 是比较均衡的模型，如果既要保留人声又要伴奏可以选择 htdemucs_ft，比 MDX Main 效果好一些

~~Kim_vocal_2 用于分离人声也很不错，速度很快，如果为了节省时间大量处理可以选这个~~

还是老老实实用 htdemucs_ft 或者 MDX23 罢