人声伴奏分離の最強はどこですか？オープンソースの人声伴奏分離モデルの人声テスト

前前言#

現在の段階では、私は大きな伴奏音、速いリズム、女性の声、高音の歌手を特におすすめしません。特にこれらのデバフが一緒になっている場合、モデルのトレーニングに音声分離を使用することは自分自身を苦しめるだけであり、良い結果は得られません。

~~私はすでに 4 回試しました、もう試さないでください~~

補足#

2023-09-03、私はいくつかの曲を一括変換してみましたが、Kim_vocal_2 のボーカルパートには多くの伴奏ボーカルの混合、鈍さ、ノイズの問題が発生しました。一方、伴奏は完璧でした。~~このモデルは私が演じているのではないかと疑っています~~、実験以外のほとんどの曲はうまくいかないので、時間の無駄です。

v2-0d4541125ee260e8e18376c80fe304b6_1440w

前言#

この記事は時限性があり、将来的には更新されない可能性があります

以前に RVC モデルをトレーニングしましたが、効果はあまり良くありませんでした。demucs v4 モデルは分離効果が比較的良いですが、ボーカルには鈍さの可能性があります。

この記事では有料製品のテストは行いません。~~団子 ai の効果は本当に素晴らしいですが、災害レベルの曲でも完璧に分離できます~~

数週間前に RVC が更新されたことに気づかず、新しいバージョンの音高抽出アルゴリズムにより破音の問題が減少するという結果になりました。数日前にはもう使わないと思ってモデルを削除してしまい、再トレーニングする必要があります

v2-225619de6620b18a1efdc10a2a4fd3d1_r

テスト#

このテストは聴覚による結果であり、異なる曲やパラメータでは異なる結果になる可能性があります。より良いパラメータがあれば、コメントで修正してください

注意！！！この記事で使用されている女性の声は必ずしも女性の歌手ではありません😹、もちろん男性の声も同様です😹

最高得点は 100 点ですが、得点は必ずしも最高得点になるわけではありません。分離後と録音オリジナルは必ずしも同じではありません

一部の音楽は見つかりませんでした、~~DMCA の問題があるため~~

人声のみの伴奏については、古いモデルを除いて、ほとんどのモデルの効果は非常に良いです。この記事ではテストしません。

オンラインで評判の良いいくつかのボーカルモデルを使用します。

MDX23 のパラメータは MVSep ランキングを参考にしています。

人声のない場合、一部の伴奏音が残ることがありますが、削除してください。以下ではこの問題については言及しません

colab を使用して実行します。

コンピュータでは動作しないため、メモリが不足する可能性があります。colab の実行には 13.8GB のメモリが必要です。

BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000

他のモデルは UVR のデフォルトパラメータを使用します。

テスト 1（災害 debuff 満タン）#

~~もう期待しないでください~~

テスト音声、高 BPM、長時間の爆音、一部の時間帯で伴奏の音量が人声よりも大きく、人声と伴奏が完全に混ざり合っています。おそらく音楽の音質が少し低いためかもしれません。リンゴ音楽は 204 円で販売されています（購入していません）。~~デバフが満タンです~~

47de46d4ea63622136daee54a72d608f_1440w

この曲は非常に特殊で、伴奏とボーカルが混ざって聞こえることは問題ありませんが、分離するとボーカルの音質が低くなります。一方、伴奏には何の問題もありません。おそらく伴奏の音量が大きすぎるためです。

屏幕截图 2023-08-21 210636

モデル	スコア	注釈
RipX ソフトウェア内蔵	50	楽器の音が混ざっており、音が鈍くなる
MDX23	70	軽微な楽器の混ざり、伴奏の音量が大きいときにノイズが発生する
htdemucs_ft	40	伴奏と混ざった人声、音が鈍くなり、ノイズが発生する
Kim_vocal_2	65	音がかなり鈍くなり、ノイズが発生する
4_HP_Vocal_UVR	35	非常に大きな伴奏音と混ざった人声、音が鈍くなり、ノイズが発生する

テスト 2（軽伴奏、主要楽器は 1 つ）#

女声部分#

主要楽器はギターで、RipX の分離効果は非常に良いです。

屏幕截图 2023-08-25 221912

モデル	スコア	注釈
RipX ソフトウェア内蔵	80	楽器の音が少し混ざっています
MDX23	90	軽微な楽器の混ざり
htdemucs_ft	90	軽微な楽器の混ざり
Kim_vocal_2	85	長時間軽微な楽器の混ざり
4_HP_Vocal_UVR	85	楽器の音が混ざっています

男声部分#

同じ曲を使用しましたが、伴奏はわずかに異なります。~~笑えるほど同じものが見つからない~~ ~~なぜ BPM がこんなに高くなったのかはわかりませんが~~

屏幕截图 2023-08-25 225313

モデル	スコア	注釈
RipX ソフトウェア内蔵	95	ほぼ完璧
MDX23	98	ほぼ完璧
htdemucs_ft	93	一部軽微な伴奏
Kim_vocal_2	97	ほぼ完璧
4_HP_Vocal_UVR	96	ほぼ完璧

テスト 3（ポップ音楽）#

~~さくらんぼのうたと恋愛裁判の異なるバージョン~~

恋愛裁判の伴奏は同じです。

異なる曲かもしれません🤔、歌手が異なるかもしれません。

女声部分#

さくらんぼのうた#

モデル	スコア	注釈
RipX ソフトウェア内蔵	80	一部の音が鈍くなります
MDX23	95	ほぼ完璧
htdemucs_ft	95	ほぼ完璧
Kim_vocal_2	95	ほぼ完璧
4_HP_Vocal_UVR	85	軽微な伴奏

恋愛裁判#

モデル	スコア	注釈
RipX ソフトウェア内蔵	75	軽微な伴奏、軽微なノイズ
MDX23	90	軽微な伴奏
htdemucs_ft	80	人声と伴奏が混ざっています
Kim_vocal_2	90	軽微な伴奏
4_HP_Vocal_UVR	85	軽微な伴奏、軽微なノイズ

男声部分#

さくらんぼのうた#

モデル	スコア	注釈
RipX ソフトウェア内蔵	75	軽微な伴奏、軽微なノイズ
MDX23	95	ほぼ完璧
htdemucs_ft	85	軽微な伴奏、一部の鈍さがあるかもしれません
Kim_vocal_2	95	ほぼ完璧
4_HP_Vocal_UVR	70	伴奏と人声が混ざっています

恋愛裁判#

モデル	スコア	注釈
RipX ソフトウェア内蔵	70	最初の伴奏が人声と認識され、軽微な伴奏、時々音が鈍くなります
MDX23	90	軽微な伴奏
htdemucs_ft	80	人声と伴奏が混ざっています
Kim_vocal_2	85	軽微な伴奏、時々大きな伴奏音が突然現れ、伴奏部分が人声と認識されます
4_HP_Vocal_UVR	65	最初の伴奏が人声と認識され、軽微な伴奏、ノイズ

テスト。。。四？（エレクトロニック音楽）#

この曲の伴奏音は小さいです。

？？？？なぜか驚くほど良い結果が出ました

屏幕截图 2023-08-27 134201

モデル	スコア	注釈
RipX ソフトウェア内蔵	65	一部の伴奏が人声と認識され、伴奏と人声が混ざり、一部の鈍さがあります
MDX23	95	時々純粋な伴奏が人声と認識され、削除できます
htdemucs_ft	80	伴奏が人声と混ざります
Kim_vocal_2	90	時々軽微な伴奏
4_HP_Vocal_UVR	50	一部の伴奏が人声と認識され、長時間伴奏と人声が混ざります

結論#

MDX23 は現時点で最も強力なモデルです。実行ログを見る限り、おそらく（htdemucs_ft）（demucs MDXv3）（UVR-MDX-NET Voc FT）（UVR-MDX-NET inst HQ 3）の組み合わせで得られた結果のようですが、非常に遅いです。colab の T4 を使用しても、5 分の音楽を処理するのに 17 分かかります。

htdemucs_ft はバランスの取れたモデルであり、ボーカルと伴奏の両方を保持したい場合は htdemucs_ft を選択すると、MDX Main よりも良い効果が得られます。

~~Kim_vocal_2 はボーカルの分離にも非常に優れており、非常に速いです。大量の処理を行う場合はこれを選択すると良いでしょう~~

やはり htdemucs_ft または MDX23 を使用するのが良いでしょう