初识语音转文本模型

早上媳妇发了一个微信科普视频,让把里面的语音转出文本文件。
媳妇安排的活自然要重视,好在又是上报年报,有的是等候反馈的时间。
先用obs把视频中的声音抽取出来,然后到网上搜了一下在线视频转文本的网站,都不靠谱,要么是有时间限制,要么是胡说八道。
于是下载了buzz,开始选择默认的base模型,转出的文本是繁体中文,但可用。
工作要认真负责,何况是媳妇安排的,把文本文件转换为简体后,又对照着视频重新校对一遍。
给媳妇发过去后,感觉哪里不对劲,现在文本转语音都这么成熟了,反向转换效果不应该这么差。到网上搜索一下,这buzz是基于OpenAI的whisper模型的,而whisper模型光看体积就知道性能差距不小,换成medium后,转换过程中就能识别专业术语,并且自动添加标点符号了。
至于large模型,换了机器再说吧。

AI让财务更简单

今天早早到办公室开始忙24年的报表。本来这工作挺简单的,早早去主要因为去年的报表填报状况百出。
为了顺利完成,还专门在旁边工位开了一台机器,打开去年的系统和数据,对照填报。
本来这工作挺简单的,就是把审计报表数据填列进去就行。但问题是这破系统的数据审核很弱智,一看就是会计加IT半吊子开发的,最后只能是靠猜把数据摆平,毫无逻辑可言。
回家后想起,现在都deepseek的时代了,把审计报告扔进去不就行了吗?
想到这,顺手把那审计报告扔给了豆包,让他生成了一份财务说明。
别说,至少格式跟数据还是靠谱的。

强大过头的ragflow

大模型领域现在都在卷,今天再测试rag,发现无论是dify还是ragflow都进行了版本更新,修正了上次测试时的明显bug。
相比而言,ragflow的更新更为关键,保证了大模型的正常调用,而dify如没有大的改进,几乎更没有竞争力。
上学的时候,语文最头疼的不是作文而是文章分析,什么这段文字表达了作者什么思想,这处描写对全文有什么作用,等等等等。当时同学们间就嘀咕道:文章给作者,估计答案都未必及格。
这次轮到我自己了。
ragflow在deepseek的加持下,把我那20万字的文章分析的那个透彻。看到分析的头头是到,条理清楚的文字,我也不禁怀疑:我有那么想吗?

快要忘记的福利

原先美团购券付款的时候,都没有怎么注意,顺手就付了。
最近发现,美团不少付款如果选择建行的积分兑换,居然能抵扣10%。居然还有这等好事,这些年来,基本都已经把有建行积分的事情忘干净了。
长期以来,信用卡已经习惯建行招行轮换着用,现在看来,可以专门用一张卡了。
便宜不能不占啊。

学霸的作业

外甥微信里说家里vscode也换trae了,突然感觉不对劲,智力低下,一看原来忘了从豆包换成Deepseek。
这几天测试了gemma3,有同样的感觉,说是对标Deepseek,简直是自取其辱。
其实Deepseek也挺损的,在推出了满血版的V3惊艳后,再推出R1,让诸多大模型看不到追击的背影。
这也就罢了,他还推出了一系列基于那些大模型的蒸馏版。这就像一个学霸,公开了自己完美的作业后,又把诸同学的作业拿来批改、规整一番公之于众。
杀人诛心啊。

心也会慌

最近儿子写报告处理sac数据,使用的都是之前为其准备的chromebox,一直运行正常,但昨天晚上到了最后阶段,处理汇总数据的时候,生成的图形是黑的。
首先想到的是Chromebox的性能问题,但查看运行状态无论CPU还是内存都占用颇低;再以为是远程登录问题,但连接显示器,问题依旧,最后感觉是Lubuntu的LXQt桌面问题,于是决定重新安装标准版Ubuntu。
本来处理计算机问题已经习惯了,无非是脑子里一个个分析,然后一个个实际处理。但昨天晚上处理的时候,脑子是乱的,心是慌的。期间接了个电话,电话内容半天插不进去,反应不过来。
千百年来中国人说没有思维功能的心能慌,是有道理的。
本以为事情已经快三周了,自己也已经接受了现实,调整了心态。
看来,还没有,不知道还需要多久。

大佬登场

早上看到谷歌gemma3推出,使用ollama下载后提示无法运行。
很快ollama就提示系统有升级版本。随后lmstudio也更新版本以适应gemma3。
谷歌是有这个资格和资本的。
如果说面对OpenAI的不可一世,deepseek如陈胜喊出了“王侯将相宁有种乎”,那么谷歌的跟进,就是项梁项羽登场了。
说deepseek是划时代产品,真不为过。

rag将转向依托外部大模型

今天把dify降版本到0.15,系统终于正常运行了。检验了一下rag的效果,也就确认他版本大跃进的原因,就是为了对标RAGflow。
因为新版本无法正常使用,不清楚提升多少,但原先版本的确无法与RAGflow相提并论。
dify升级后的一个功能提升,是通过插件市场,增强了大模型的接口,偏偏就是这个功能导致系统错误连连。在中国,搞插件市场,等于自绝于用户。
同样RAGflow的bug也出现在大模型接口上,虽然为此进行了一次版本升级,却依然没有解决默认模型无法新增ollama的问题。
从这点看,rag系统都在转向依托外部大模型来提升性能。
估计好戏还在后面。

大体量大能量的RAGflow

昨天晚上媳妇微信推荐了一本deepseek的书,这deepseek改变着这个世界,连出书的速度都加速了。
比书更快的是网上的相关视频,deepseek才问世多长时间啊,这段时间内一下子出现了那么多视频,用拥堵形容都不过份。
同样,相关软件、系统也在提速。昨天折腾了一晚的网络红软dify,总是卡在文档解析上,后来看github上回复,是升级到1.0版本后,某个docker镜像存在问题。
真是萝卜快了不洗泥。
今天上午折腾依然无果,于是转向RAGflow。相比dify的2核4G,这个需要4核16G,仅从硬件配置上看就不是一个体量的。而且仅仅安装一个不含模型的精简版,就要近20G的下载量。
下载一个下午后,晚上刚开始测试,简直失望透顶,因为对话中,总是提示知识库未找到答案。
就在准备放弃骂娘时,换了一个方式查询,好家伙,答复的哪是答案啊,简直就是一个全面的总结。
而开始没有回答,估计是系统还在处理资料库中。
可以说,RAGflow不是为AI服务,而是让AI为他服务。

乱花眼的大模型

这几天按照cherrystudio中的模型列表,测试各运营商的大模型,搞得是眼花脑涨。
最后在选择了天翼云的大模型后,选择结束。因为deepseek的优势是全方位,而且碾压式的,选择这么多,只是为了选择一个价格最优惠的而已。
天翼云的优惠力度最大,两周时间2千万的token。他之所以这么大方,因为他是后来者,作为有硬件有带宽的电信运营商,他需要deepseek这个当红明星来吸引用户,就像古代好戏院子找到了头牌大腕一样。
我实在不明白,BAT还留着那些过时的模型干什么,除了让模型列表更混乱,我实在找不到他们继续存活的理由。
这就像突然间AK设计公开,足量供应,你还舍不得汉阳造,抢车间,占仓库。
就像同样眼花脑晕的儿子说的:这deepseek自己在进步啊。