前前言#
現在の段階では、私は大きな伴奏音、速いリズム、女性の声、高音の歌手を特におすすめしません。特にこれらのデバフが一緒になっている場合、モデルのトレーニングに音声分離を使用することは自分自身を苦しめるだけであり、良い結果は得られません。
私はすでに 4 回試しました、もう試さないでください
補足#
2023-09-03、私はいくつかの曲を一括変換してみましたが、Kim_vocal_2 のボーカルパートには多くの伴奏ボーカルの混合、鈍さ、ノイズの問題が発生しました。一方、伴奏は完璧でした。このモデルは私が演じているのではないかと疑っています、実験以外のほとんどの曲はうまくいかないので、時間の無駄です。
前言#
この記事は時限性があり、将来的には更新されない可能性があります
以前に RVC モデルをトレーニングしましたが、効果はあまり良くありませんでした。demucs v4 モデルは分離効果が比較的良いですが、ボーカルには鈍さの可能性があります。
この記事では有料製品のテストは行いません。団子 ai の効果は本当に素晴らしいですが、災害レベルの曲でも完璧に分離できます
数週間前に RVC が更新されたことに気づかず、新しいバージョンの音高抽出アルゴリズムにより破音の問題が減少するという結果になりました。数日前にはもう使わないと思ってモデルを削除してしまい、再トレーニングする必要があります
テスト#
このテストは聴覚による結果であり、異なる曲やパラメータでは異なる結果になる可能性があります。より良いパラメータがあれば、コメントで修正してください
注意!!!この記事で使用されている女性の声は必ずしも女性の歌手ではありません😹、もちろん男性の声も同様です😹
最高得点は 100 点ですが、得点は必ずしも最高得点になるわけではありません。分離後と録音オリジナルは必ずしも同じではありません
一部の音楽は見つかりませんでした、DMCA の問題があるため
人声のみの伴奏については、古いモデルを除いて、ほとんどのモデルの効果は非常に良いです。この記事ではテストしません。
オンラインで評判の良いいくつかのボーカルモデルを使用します。
MDX23 のパラメータは MVSep ランキングを参考にしています。
人声のない場合、一部の伴奏音が残ることがありますが、削除してください。以下ではこの問題については言及しません
colab を使用して実行します。
コンピュータでは動作しないため、メモリが不足する可能性があります。colab の実行には 13.8GB のメモリが必要です。
BigShifts_MDX = 21
overlap_MDX = 0
overlap_MDXv3 = 20
weight_MDXv3 = 6
weight_VOCFT = 5
weight_HQ3 = 2
overlap_demucs = 0.8
output_format = 'FLOAT'
vocals_instru_only = True
if vocals_instru_only:
vocals_only = '--vocals_only true'
else:
vocals_only = ''
chunk_size = 1000000
他のモデルは UVR のデフォルトパラメータを使用します。
テスト 1(災害 debuff 満タン)#
もう期待しないでください
テスト音声、高 BPM、長時間の爆音、一部の時間帯で伴奏の音量が人声よりも大きく、人声と伴奏が完全に混ざり合っています。おそらく音楽の音質が少し低いためかもしれません。リンゴ音楽は 204 円で販売されています(購入していません)。デバフが満タンです
この曲は非常に特殊で、伴奏とボーカルが混ざって聞こえることは問題ありませんが、分離するとボーカルの音質が低くなります。一方、伴奏には何の問題もありません。おそらく伴奏の音量が大きすぎるためです。
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 50 | 楽器の音が混ざっており、音が鈍くなる |
MDX23 | 70 | 軽微な楽器の混ざり、伴奏の音量が大きいときにノイズが発生する |
htdemucs_ft | 40 | 伴奏と混ざった人声、音が鈍くなり、ノイズが発生する |
Kim_vocal_2 | 65 | 音がかなり鈍くなり、ノイズが発生する |
4_HP_Vocal_UVR | 35 | 非常に大きな伴奏音と混ざった人声、音が鈍くなり、ノイズが発生する |
テスト 2(軽伴奏、主要楽器は 1 つ)#
女声部分#
主要楽器はギターで、RipX の分離効果は非常に良いです。
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 80 | 楽器の音が少し混ざっています |
MDX23 | 90 | 軽微な楽器の混ざり |
htdemucs_ft | 90 | 軽微な楽器の混ざり |
Kim_vocal_2 | 85 | 長時間軽微な楽器の混ざり |
4_HP_Vocal_UVR | 85 | 楽器の音が混ざっています |
男声部分#
同じ曲を使用しましたが、伴奏はわずかに異なります。笑えるほど同じものが見つからない なぜ BPM がこんなに高くなったのかはわかりませんが
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 95 | ほぼ完璧 |
MDX23 | 98 | ほぼ完璧 |
htdemucs_ft | 93 | 一部軽微な伴奏 |
Kim_vocal_2 | 97 | ほぼ完璧 |
4_HP_Vocal_UVR | 96 | ほぼ完璧 |
テスト 3(ポップ音楽)#
さくらんぼのうたと恋愛裁判の異なるバージョン
恋愛裁判の伴奏は同じです。
異なる曲かもしれません🤔、歌手が異なるかもしれません。
女声部分#
さくらんぼのうた#
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 80 | 一部の音が鈍くなります |
MDX23 | 95 | ほぼ完璧 |
htdemucs_ft | 95 | ほぼ完璧 |
Kim_vocal_2 | 95 | ほぼ完璧 |
4_HP_Vocal_UVR | 85 | 軽微な伴奏 |
恋愛裁判#
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 75 | 軽微な伴奏、軽微なノイズ |
MDX23 | 90 | 軽微な伴奏 |
htdemucs_ft | 80 | 人声と伴奏が混ざっています |
Kim_vocal_2 | 90 | 軽微な伴奏 |
4_HP_Vocal_UVR | 85 | 軽微な伴奏、軽微なノイズ |
男声部分#
さくらんぼのうた#
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 75 | 軽微な伴奏、軽微なノイズ |
MDX23 | 95 | ほぼ完璧 |
htdemucs_ft | 85 | 軽微な伴奏、一部の鈍さがあるかもしれません |
Kim_vocal_2 | 95 | ほぼ完璧 |
4_HP_Vocal_UVR | 70 | 伴奏と人声が混ざっています |
恋愛裁判#
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 70 | 最初の伴奏が人声と認識され、軽微な伴奏、時々音が鈍くなります |
MDX23 | 90 | 軽微な伴奏 |
htdemucs_ft | 80 | 人声と伴奏が混ざっています |
Kim_vocal_2 | 85 | 軽微な伴奏、時々大きな伴奏音が突然現れ、伴奏部分が人声と認識されます |
4_HP_Vocal_UVR | 65 | 最初の伴奏が人声と認識され、軽微な伴奏、ノイズ |
テスト。。。四?(エレクトロニック音楽)#
この曲の伴奏音は小さいです。
????なぜか驚くほど良い結果が出ました
モデル | スコア | 注釈 |
---|---|---|
RipX ソフトウェア内蔵 | 65 | 一部の伴奏が人声と認識され、伴奏と人声が混ざり、一部の鈍さがあります |
MDX23 | 95 | 時々純粋な伴奏が人声と認識され、削除できます |
htdemucs_ft | 80 | 伴奏が人声と混ざります |
Kim_vocal_2 | 90 | 時々軽微な伴奏 |
4_HP_Vocal_UVR | 50 | 一部の伴奏が人声と認識され、長時間伴奏と人声が混ざります |
結論#
MDX23 は現時点で最も強力なモデルです。実行ログを見る限り、おそらく(htdemucs_ft)(demucs MDXv3)(UVR-MDX-NET Voc FT)(UVR-MDX-NET inst HQ 3)の組み合わせで得られた結果のようですが、非常に遅いです。colab の T4 を使用しても、5 分の音楽を処理するのに 17 分かかります。
htdemucs_ft はバランスの取れたモデルであり、ボーカルと伴奏の両方を保持したい場合は htdemucs_ft を選択すると、MDX Main よりも良い効果が得られます。
Kim_vocal_2 はボーカルの分離にも非常に優れており、非常に速いです。大量の処理を行う場合はこれを選択すると良いでしょう
やはり htdemucs_ft または MDX23 を使用するのが良いでしょう