lingxue

lingxue

向着遥不可及的梦想,进发!
steam
youtube
keybase
twitter

人声伴奏分离哪家强 开源人声伴奏分离模型人声测试

前前言#

现阶段而言,我非常,非常,非常,十分的不建议用大伴奏声音,快节奏,女声、高音的歌手尤其是这些 debuff 叠在一起的时候,用来人声分离去训练模型,这完全是在折磨自己,而且也不会有一个好的结果

我已经试过四次了,别再试了

补充#

2023-09-03 我试着批量转换了一些歌曲结果是 Kim_vocal_2 人声部分出现了大量的伴奏人声混合、变闷、杂音的问题,反而伴奏是完美的。我怀疑这个模型演我,除了下面试验那些歌曲其他的大多数都不行就离谱,浪费时间

v2-0d4541125ee260e8e18376c80fe304b6_1440w

前言#

本文具有时效性,未来可能不会及时更新

由于之前训练过 RVC 模型,但是效果不是很好,demucs v4 模型虽然分离效果比较好,但是人声会有概率变闷。

本文不会使用付费产品测试。虽然团子 ai 效果真的不错,堪称灾难级的歌都能完美分离

没发现十几天前 RVC 更新了,更新提取音高算法新版破音情况会减少,结果我几天前以为用不到了直接把模型删了,还得重新训练

v2-225619de6620b18a1efdc10a2a4fd3d1_r

测试#

本测试使用人耳试听得出的结果,不同歌曲不同参数可能会导致不同结果,如果有更好的参数欢迎在评论区纠正

注意!!!本文中使用的女声不一定为女性歌手😹,当然男声也是一样的😹

满分 100 分,但分数不可能会是满分,因为分离后和录制原声一定会有差别

有些音乐找不到了,没办法放出 怕 DMCA

去人声仅伴奏,除了旧模型,多数模型效果都很好,本文不测试了

采用网上广受好评的几个人声模型

MDX23 参数参考 MVSep 榜

无人声时总会有些伴奏声音,剪掉即可,下文不再说这个问题

使用 colab 运行

电脑跑不动,炸显存,colab 运行占 13.8g 显存

BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000

其他模型使用 UVR 默认参数

测试一(灾难 debuff 叠满)#

不抱希望了已经

测试音频,高 BPM,长时间爆音,部分时间伴奏比人声音量大,人声伴奏完全混在一起,也许找到的是音乐音质有点低。林檎音乐卖 204 日元(没买)。debuff 叠满了属于是

47de46d4ea63622136daee54a72d608f_1440w

这首歌比较神奇的是,伴奏人声混在一起听是没问题的,拆分后人声就会有音质低的问题,伴奏倒是啥事没有,可能是伴奏声音太大了罢

屏幕截图 2023-08-21 210636

模型分数注释
RipX 软件内置50混着乐器声音,声音变闷
MDX2370轻微混着乐器声音,伴奏音量大时声音有杂音
htdemucs_ft40混着伴奏声音,声音变闷,杂音
Kim_vocal_265比较严重的声音变闷,杂音
4_HP_Vocal_UVR35混着很大伴奏声音,声音变闷,杂音

测试二 (轻伴奏 主要乐器为一个)#

女声部分#

主要乐器为吉他,在 RipX 分离效果已经很不错了

屏幕截图 2023-08-25 221912

模型分数注释
RipX 软件内置80混着乐器声音
MDX2390轻微混着乐器声音
htdemucs_ft90轻微混着乐器声音
Kim_vocal_285长时间轻微混着乐器声音
4_HP_Vocal_UVR85混着乐器声音

男声部分#

使用了同一首歌,伴奏有些许不同 笑死,根本找不到一样的 虽然不知道为什么 BPM 变得这么高

屏幕截图 2023-08-25 225313

模型分数注释
RipX 软件内置95近乎完美
MDX2398近乎完美
htdemucs_ft93部分轻微伴奏
Kim_vocal_297近乎完美
4_HP_Vocal_UVR96近乎完美

测试三 (流行音乐)#

不同版本的心做し和恋愛裁判

恋愛裁判伴奏相同

不同歌曲可能🤔歌手不同

女声部分#

心做し#
模型分数注释
RipX 软件内置80少部分声音变闷
MDX2395近乎完美
htdemucs_ft95近乎完美
Kim_vocal_295近乎完美
4_HP_Vocal_UVR85轻微伴奏
恋愛裁判#
模型分数注释
RipX 软件内置75轻微伴奏,轻微杂音
MDX2390轻微伴奏
htdemucs_ft80人声混伴奏
Kim_vocal_290轻微伴奏
4_HP_Vocal_UVR85轻微伴奏,轻微杂音

男声部分#

心做し#
模型分数注释
RipX 软件内置75轻微伴奏,轻微杂音
MDX2395近乎完美
htdemucs_ft85轻微伴奏,也许有些变闷
Kim_vocal_295近乎完美
4_HP_Vocal_UVR70伴奏人声混在一起
恋愛裁判#
模型分数注释
RipX 软件内置70开始伴奏被识别为人声,轻微伴奏,偶尔声音变闷
MDX2390轻微伴奏
htdemucs_ft80人声混伴奏
Kim_vocal_285轻微伴奏,有时突然出现较大伴奏声音,伴奏部分被识别为人声
4_HP_Vocal_UVR65开始伴奏被识别为人声,轻微伴奏,杂音

测试。。。四?(电子音乐)#

这首歌伴奏声音较小

????居然出奇的不错

屏幕截图 2023-08-27 134201

模型分数注释
RipX 软件内置65部分伴奏被识别为人声,有时伴奏人声混在一起,有些变闷
MDX2395有时纯伴奏部分被识别为人声,可以剪掉
htdemucs_ft80伴奏混人声
Kim_vocal_290偶尔轻微伴奏
4_HP_Vocal_UVR50部分伴奏被识别为人声,较长时间伴奏人声混在一起

总结#

MDX23 目前为最强模型,按运行日志来看,貌似是(htdemucs_ft) (demucs MDXv3) (UVR-MDX-NET Voc FT) (UVR-MDX-NET inst HQ 3) 这几个模型混合得出的结果,但是速度非常慢,用 colab T4 5 分钟音乐要处理 17 分钟

htdemucs_ft 是比较均衡的模型,如果既要保留人声又要伴奏可以选择 htdemucs_ft,比 MDX Main 效果好一些

Kim_vocal_2 用于分离人声也很不错,速度很快,如果为了节省时间大量处理可以选这个

还是老老实实用 htdemucs_ft 或者 MDX23 罢

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。