前言

本文简单记录介绍一下VITS-fast-fine-tuning。

VITS-fast-fine-tuning是一个VITS的微调训练库，可以快速克隆出想要的角色声音。

正文

快速克隆音频中角色的声音。

在模型所包含的任意两个角色之间进行声线转换；
对自定义角色声线进行中日英三语TTS。
支持多种方式微调：
- 从10条以上的短音频克隆角色声音
- 从3分钟以上的长音频克隆角色声音（单个音频只能包含单说话人）
- 从3分钟以上的视频克隆角色声音（单个视频只能包含单说话人）
- 通过输入bilibili视频链接克隆角色声音

下载微调好的模型和config文件
下载最新的Release包（在Github页面的右侧）；
把下载的模型和config文件放在 inference文件夹下, 其文件名分别为 G_latest.pth 和 finetune_speaker.json；
一切准备就绪后，文件结构应该如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth

项目降低了微调自定义角色声音的难度，对于微调好的模型也提供了打包好的程序直接调用，非常易用。

参考文章：

本文仅作为个人学习记录。

本文永久记录于区块链博客xlog。