前々から声質変換とか音声合成に興味があって「やりたいな~」と思っていたのですが、Diff-SVCという手法(?)がすごいのでやってみた、という記事です。 日本語どころか、英語でもあんまりドキュメントっぽいのが無いな~って感じなのでざっくり解説。 作成したモデルは良識を持って使いましょう。 基本的な訓練の流れは公式のドキュメントを参照。 ここ→ training_and_inference_EN.markdown 必要なもの: VRAM24GB以上のGPU(訓練時) 24GBもねえよって人でもクラウドで借りればできるので、安心。今回自分はColaboratoryでやったので適当に参考にしてくださ…