早上媳妇发了一个微信科普视频,让把里面的语音转出文本文件。
媳妇安排的活自然要重视,好在又是上报年报,有的是等候反馈的时间。
先用obs把视频中的声音抽取出来,然后到网上搜了一下在线视频转文本的网站,都不靠谱,要么是有时间限制,要么是胡说八道。
于是下载了buzz,开始选择默认的base模型,转出的文本是繁体中文,但可用。
工作要认真负责,何况是媳妇安排的,把文本文件转换为简体后,又对照着视频重新校对一遍。
给媳妇发过去后,感觉哪里不对劲,现在文本转语音都这么成熟了,反向转换效果不应该这么差。到网上搜索一下,这buzz是基于OpenAI的whisper模型的,而whisper模型光看体积就知道性能差距不小,换成medium后,转换过程中就能识别专业术语,并且自动添加标点符号了。
至于large模型,换了机器再说吧。