折腾VITS个性化声线

昨天中午发现一个VITS代码库,可以根据个人的语音文件,通过训练生成个性化的声线。

因为在多语言情况下环境依赖难配置,那个项目是使用Colab运行的。自从有了国内的GPU云后,我已经很久没有使用Colab了,但看说明并不难,回去饭都没吃就开工,没想到一直到了第二天快两点也没有完工。

其实本来还算顺利,在解决了几个细节问题后,本已经进入最后的训练阶段,但就在进行到90%时,系统突然报错断开,仔细一看,原来是免费的GPU算力用尽。

前功尽弃,这免费的资本主义羊毛也不是这么容易薅的。

其实我也有心理准备,我最终目的就是转到国内的GPU云服务器上,但百度现在只提供飞桨框架,而最常用的恒源云最后阶段总是卡在路径参数上。毕竟这个系统是基于Colab的。

熬夜没有等着colab新的算力到账,早上起来打开电脑,依然无法使用,想付费人家只认美国信用卡。

好在到单位用他人账号登录Colab,有了昨天的经验,顺利完成了训练,效果尚能接受。毕竟训练使用的只是一个样本文件,如果使用大量语音文件进行训练,效果应该还会提升。

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>