lingxue

lingxue

向着遥不可及的梦想,进发!
steam
youtube
keybase
twitter

人声伴奏分離の最強はどこですか?オープンソースの人声伴奏分離モデルの人声テスト

前前言#

現在の段階では、私は大きな伴奏音、速いリズム、女性の声、高音の歌手を特におすすめしません。特にこれらのデバフが一緒になっている場合、モデルのトレーニングに音声分離を使用することは自分自身を苦しめるだけであり、良い結果は得られません。

私はすでに 4 回試しました、もう試さないでください

補足#

2023-09-03、私はいくつかの曲を一括変換してみましたが、Kim_vocal_2 のボーカルパートには多くの伴奏ボーカルの混合、鈍さ、ノイズの問題が発生しました。一方、伴奏は完璧でした。このモデルは私が演じているのではないかと疑っています、実験以外のほとんどの曲はうまくいかないので、時間の無駄です。

v2-0d4541125ee260e8e18376c80fe304b6_1440w

前言#

この記事は時限性があり、将来的には更新されない可能性があります

以前に RVC モデルをトレーニングしましたが、効果はあまり良くありませんでした。demucs v4 モデルは分離効果が比較的良いですが、ボーカルには鈍さの可能性があります。

この記事では有料製品のテストは行いません。団子 ai の効果は本当に素晴らしいですが、災害レベルの曲でも完璧に分離できます

数週間前に RVC が更新されたことに気づかず、新しいバージョンの音高抽出アルゴリズムにより破音の問題が減少するという結果になりました。数日前にはもう使わないと思ってモデルを削除してしまい、再トレーニングする必要があります

v2-225619de6620b18a1efdc10a2a4fd3d1_r

テスト#

このテストは聴覚による結果であり、異なる曲やパラメータでは異なる結果になる可能性があります。より良いパラメータがあれば、コメントで修正してください

注意!!!この記事で使用されている女性の声は必ずしも女性の歌手ではありません😹、もちろん男性の声も同様です😹

最高得点は 100 点ですが、得点は必ずしも最高得点になるわけではありません。分離後と録音オリジナルは必ずしも同じではありません

一部の音楽は見つかりませんでした、DMCA の問題があるため

人声のみの伴奏については、古いモデルを除いて、ほとんどのモデルの効果は非常に良いです。この記事ではテストしません。

オンラインで評判の良いいくつかのボーカルモデルを使用します。

MDX23 のパラメータは MVSep ランキングを参考にしています。

人声のない場合、一部の伴奏音が残ることがありますが、削除してください。以下ではこの問題については言及しません

colab を使用して実行します。

コンピュータでは動作しないため、メモリが不足する可能性があります。colab の実行には 13.8GB のメモリが必要です。

BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000

他のモデルは UVR のデフォルトパラメータを使用します。

テスト 1(災害 debuff 満タン)#

もう期待しないでください

テスト音声、高 BPM、長時間の爆音、一部の時間帯で伴奏の音量が人声よりも大きく、人声と伴奏が完全に混ざり合っています。おそらく音楽の音質が少し低いためかもしれません。リンゴ音楽は 204 円で販売されています(購入していません)。デバフが満タンです

47de46d4ea63622136daee54a72d608f_1440w

この曲は非常に特殊で、伴奏とボーカルが混ざって聞こえることは問題ありませんが、分離するとボーカルの音質が低くなります。一方、伴奏には何の問題もありません。おそらく伴奏の音量が大きすぎるためです。

屏幕截图 2023-08-21 210636

モデルスコア注釈
RipX ソフトウェア内蔵50楽器の音が混ざっており、音が鈍くなる
MDX2370軽微な楽器の混ざり、伴奏の音量が大きいときにノイズが発生する
htdemucs_ft40伴奏と混ざった人声、音が鈍くなり、ノイズが発生する
Kim_vocal_265音がかなり鈍くなり、ノイズが発生する
4_HP_Vocal_UVR35非常に大きな伴奏音と混ざった人声、音が鈍くなり、ノイズが発生する

テスト 2(軽伴奏、主要楽器は 1 つ)#

女声部分#

主要楽器はギターで、RipX の分離効果は非常に良いです。

屏幕截图 2023-08-25 221912

モデルスコア注釈
RipX ソフトウェア内蔵80楽器の音が少し混ざっています
MDX2390軽微な楽器の混ざり
htdemucs_ft90軽微な楽器の混ざり
Kim_vocal_285長時間軽微な楽器の混ざり
4_HP_Vocal_UVR85楽器の音が混ざっています

男声部分#

同じ曲を使用しましたが、伴奏はわずかに異なります。笑えるほど同じものが見つからない なぜ BPM がこんなに高くなったのかはわかりませんが

屏幕截图 2023-08-25 225313

モデルスコア注釈
RipX ソフトウェア内蔵95ほぼ完璧
MDX2398ほぼ完璧
htdemucs_ft93一部軽微な伴奏
Kim_vocal_297ほぼ完璧
4_HP_Vocal_UVR96ほぼ完璧

テスト 3(ポップ音楽)#

さくらんぼのうたと恋愛裁判の異なるバージョン

恋愛裁判の伴奏は同じです。

異なる曲かもしれません🤔、歌手が異なるかもしれません。

女声部分#

さくらんぼのうた#
モデルスコア注釈
RipX ソフトウェア内蔵80一部の音が鈍くなります
MDX2395ほぼ完璧
htdemucs_ft95ほぼ完璧
Kim_vocal_295ほぼ完璧
4_HP_Vocal_UVR85軽微な伴奏
恋愛裁判#
モデルスコア注釈
RipX ソフトウェア内蔵75軽微な伴奏、軽微なノイズ
MDX2390軽微な伴奏
htdemucs_ft80人声と伴奏が混ざっています
Kim_vocal_290軽微な伴奏
4_HP_Vocal_UVR85軽微な伴奏、軽微なノイズ

男声部分#

さくらんぼのうた#
モデルスコア注釈
RipX ソフトウェア内蔵75軽微な伴奏、軽微なノイズ
MDX2395ほぼ完璧
htdemucs_ft85軽微な伴奏、一部の鈍さがあるかもしれません
Kim_vocal_295ほぼ完璧
4_HP_Vocal_UVR70伴奏と人声が混ざっています
恋愛裁判#
モデルスコア注釈
RipX ソフトウェア内蔵70最初の伴奏が人声と認識され、軽微な伴奏、時々音が鈍くなります
MDX2390軽微な伴奏
htdemucs_ft80人声と伴奏が混ざっています
Kim_vocal_285軽微な伴奏、時々大きな伴奏音が突然現れ、伴奏部分が人声と認識されます
4_HP_Vocal_UVR65最初の伴奏が人声と認識され、軽微な伴奏、ノイズ

テスト。。。四?(エレクトロニック音楽)#

この曲の伴奏音は小さいです。

????なぜか驚くほど良い結果が出ました

屏幕截图 2023-08-27 134201

モデルスコア注釈
RipX ソフトウェア内蔵65一部の伴奏が人声と認識され、伴奏と人声が混ざり、一部の鈍さがあります
MDX2395時々純粋な伴奏が人声と認識され、削除できます
htdemucs_ft80伴奏が人声と混ざります
Kim_vocal_290時々軽微な伴奏
4_HP_Vocal_UVR50一部の伴奏が人声と認識され、長時間伴奏と人声が混ざります

結論#

MDX23 は現時点で最も強力なモデルです。実行ログを見る限り、おそらく(htdemucs_ft)(demucs MDXv3)(UVR-MDX-NET Voc FT)(UVR-MDX-NET inst HQ 3)の組み合わせで得られた結果のようですが、非常に遅いです。colab の T4 を使用しても、5 分の音楽を処理するのに 17 分かかります。

htdemucs_ft はバランスの取れたモデルであり、ボーカルと伴奏の両方を保持したい場合は htdemucs_ft を選択すると、MDX Main よりも良い効果が得られます。

Kim_vocal_2 はボーカルの分離にも非常に優れており、非常に速いです。大量の処理を行う場合はこれを選択すると良いでしょう

やはり htdemucs_ft または MDX23 を使用するのが良いでしょう

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。