昨天中午发现一个VITS代码库,可以根据个人的语音文件,通过训练生成个性化的声线。
因为在多语言情况下环境依赖难配置,那个项目是使用Colab运行的。自从有了国内的GPU云后,我已经很久没有使用Colab了,但看说明并不难,回去饭都没吃就开工,没想到一直到了第二天快两点也没有完工。
其实本来还算顺利,在解决了几个细节问题后,本已经进入最后的训练阶段,但就在进行到90%时,系统突然报错断开,仔细一看,原来是免费的GPU算力用尽。
前功尽弃,这免费的资本主义羊毛也不是这么容易薅的。
其实我也有心理准备,我最终目的就是转到国内的GPU云服务器上,但百度现在只提供飞桨框架,而最常用的恒源云最后阶段总是卡在路径参数上。毕竟这个系统是基于Colab的。
熬夜没有等着colab新的算力到账,早上起来打开电脑,依然无法使用,想付费人家只认美国信用卡。
好在到单位用他人账号登录Colab,有了昨天的经验,顺利完成了训练,效果尚能接受。毕竟训练使用的只是一个样本文件,如果使用大量语音文件进行训练,效果应该还会提升。