折腾VITS个性化声线 – 自己的博客

昨天中午发现一个VITS代码库，可以根据个人的语音文件，通过训练生成个性化的声线。

因为在多语言情况下环境依赖难配置，那个项目是使用Colab运行的。自从有了国内的GPU云后，我已经很久没有使用Colab了，但看说明并不难，回去饭都没吃就开工，没想到一直到了第二天快两点也没有完工。

其实本来还算顺利，在解决了几个细节问题后，本已经进入最后的训练阶段，但就在进行到90%时，系统突然报错断开，仔细一看，原来是免费的GPU算力用尽。

前功尽弃，这免费的资本主义羊毛也不是这么容易薅的。

其实我也有心理准备，我最终目的就是转到国内的GPU云服务器上，但百度现在只提供飞桨框架，而最常用的恒源云最后阶段总是卡在路径参数上。毕竟这个系统是基于Colab的。

熬夜没有等着colab新的算力到账，早上起来打开电脑，依然无法使用，想付费人家只认美国信用卡。

好在到单位用他人账号登录Colab，有了昨天的经验，顺利完成了训练，效果尚能接受。毕竟训练使用的只是一个样本文件，如果使用大量语音文件进行训练，效果应该还会提升。