このリポジトリでは, 低遅延リアルタイムAny-to-Many声質変換に使用するCausalStarGANv2-VCモデルの訓練を行うコードを公開しています. StarGANv2-VC1および当手法で使用するJDCNet2の非公式実装を含みます. CNNConformerではConformer3, CausalHiFi-GANではHiFi-GAN4を利用しています.
CausalStarGANv2-VC Demoに置いています.
Python3.9で動作します.
JVS corpusおよびJVS-MuSiCからデータをコピーし, 再配置する.
%path_jvs%
にJVS corpusのルートディレクトリ(jvs_ver1), %path_jvs_corpus%
にJVS-MuSiCのパスを指定し, 以下を実行する.
python dataset/main.py --path_jvs %path_jvs% --path_jvs_music %path_jvs_music%
python CausalHiFiGAN/main.py
python JDCNet/main.py
python CNNConformer/main.py
python StarGANv2VC/main.py
python CausalStarGANv2VC/main.py
-
CNNConformer/CNNConformer/models/conformer: https://github.com/sooftware/conformer
-
CNNConformer/CNNConformer/models/cnn.py
-
JDCNet/JDCNet/models/jdcnet.py
-
StarGANv2VC/StarGANv2VC/models/*
Footnotes
-
StarGANv2-VC
paper: https://arxiv.org/abs/2107.10394#
official implementation: https://github.com/yl4579/StarGANv2-VC ↩ -
JDCNet
paper: https://www.mdpi.com/2076-3417/9/7/1324
official implementation: https://github.com/keums/melodyExtraction_JDC ↩ -
Conformer
paper: https://arxiv.org/abs/2005.08100 ↩ -
HiFi-GAN
paper: https://arxiv.org/abs/2010.05646
official implementation: https://github.com/jik876/hifi-gan ↩