AI时代的RAG是个人的中心

现在科技圈的标题党已经不亚于娱乐圈了。
ChatGPT 升级的所谓记忆功能,引用用户所有的历史对话,无非就是ChatGPT自建的用户RAG。
早年吐槽亚马逊电子书针对用户定价的短小说中,我曾幻想将来服务商由虚拟客服机器人为每个用户服务。
现在其实已经可以实现了,那就是为每个用户建立独立于大模型的类RAG数据库,然后由大模型根据用户的数据提供更为精准的服务。
这也是我认为在AI时代,RAG对个人用户而言是重中之重的原因。

http://ChatGPT的这个更新 竟然让奥特曼兴奋到睡不着觉

https://news.mydrivers.com/1/1041/1041285.htm

权宜之策MCP

清明放假前,就看到网上热炒MCP服务,什么给AI大模型插上翅膀,是连接大模型与各项服务的桥梁。
看到那种网上似乎一个模子刻出来的文章,我总是持有怀疑态度。使用cherrystudio安装基本的网页抓取服务工具,总是提示网络错误,也就作罢。
今天cherrystudio跨版本号升级,其中变化比较大的就有MCP设置,增加了国内的安装源,使得mcp服务得以顺利安装。
测试了一下,感觉以前的确不是多疑了,这个更像是一个供AI识别的脚本而已,指定AI执行某项或者几个组合任务。更关键的是,它仍然受到AI性能的制约,这跟rag是一样的。
如果AI足够强大,这个真是有些画蛇添足了。他只能算是AI发展过程中的一个权宜工具而已。

略有失望的M4

今天到办公室,看到了上次国补加学补购买的苹果M4版mini。虽然到货掩码的时候开封见过真机,但放在办公桌上看,还是比想象中要大。
跟M1一体机一样,通过brew下载安装了katago,只是这次运行的权重是28B而非18B。结果很是失望,依然是OpenCL版本的katago运行benchmark可谓是龟速,初步结果看,远不如TensorRT下3050的表现。
这也难怪,这就像马拉车在不同赛道比试。只是意外的是,运行28B权重速度要如此落后于更轻量级的18B。而昨天看新闻,32G内存M4机器运行deepseek14B要大大快于32B,而katago对显存要求并不高。
虽是小众个例,但苹果芯片要有大的作为,路还很长,也很难。

RAG好搭档混元turbos

混元T1推出的时候,通过新闻稿链接到他的测试网页,默认的模型并不是T1,而是turbos。
据说二者引擎不同,但测试了几天,二者差距不大,但价格差了一倍。同样百万tokens混元turbos输入只要8毛,输出2块,应该是收费模型中最便宜的了。
当然无论是T1还是turbos,在回答准确度上都无法与deepseek相比,还处于时不时关公战秦琼的水平上,但对于rag而言逻辑性能上已经堪用。
而且,更关键是,与知识问答相反,rag的tokens使用量,是输入数倍于输出。
由此看来,混元turbos是rag模型引擎的性价比最高的选择。

越来越强的cherrystudio

今天开机照例打开cherrystudio先检查版本升级,终于看到了新的版本升级。
升级排在第一位的,是的知识库新增了重排模型,也就是rerank,这是提升知识库准确性的一大保障。
其次就是增加了自定义服务商兼容模式,在支持deepseek越来越多的情况下,cherrystudio就不用像原先版本那样出一个,新增一个模型供应商的模块了。
本来我是期待新增混元T1,这样不用再等了。

现在看,cherrystudio是越来越强了。

odoo,开源不再

原先自己使用的会计系统是odoo16,默认财务会计模块是关闭的,需要安装系统后进行配置,方能使用。
因为账务少,那个系统也一直没有使用。最近看到最新版本已经到了18,而鼓吹的就是会计功能强大,于是便动了心思直接使用最新版本。
结果折腾了一白天,加大半个晚上,也没有把会计功能打开。
都已经开始卸载系统了,从一篇文章里看出门道:这会计功能是企业版所特有的,同时不同像以前的版本那样,通过模块等方式安装使用。
最后怀着久违做贼的心测试了一下企业版,果然会计功能有启用的选项。不过启用之后,那使用体验,还不如16,甚至是我最早的8呢。
前几天还给儿子普及开源知识,这免费开源的软件卖的是服务。现在看来,这开源软件公司,已经直接下手捞钱了。还是继续用16吧。

可期待的cherrystudio

这两天赶在天翼云免费额度到期前,又测试了一下几个rag系统。
因为ragflow和dify不支持天翼云的API,所以测试的主要是cherrystudio,针对同一个小说,同一问题,cherrystudio的表现出奇的好。而且这还受功能所限,没有rerank模型加持的情况下进行的。
看来我之前推测的,免费使用的cherrystudio的商业收益将会来自rag,还是靠谱的。
不过,现在这几个rag都存在一个共同的问题,那就是资料库归档条理性的欠缺。最明显的例子,就是我这次测试的是小说,是有故事线先后顺序的,而deepseek是按照资料库的分块进行分析,这样自然就会忽视前因后果,影响到答案的逻辑性。
下次转为有序号的json文件试一下。

混元T1,进取还是妥协

前天跟外甥吃饭的时候,还夸腾讯识时务,在deepseek国内君临天下的时候,大出血推出免费的腾讯元宝抢占市场,下一步可能要依托deepseek做经营商和内容商了。
这其中一个原因,就是腾讯自家的混元起步晚,性能达不到预期,与其舍不得抱着占地方,不如清理瓶瓶罐罐大干一场。
早上看到了昨天混元T1模型开放的新闻。看来腾讯还是舍不得啊。舍不得的不止是巨大投入,还有扯不清的内部利益。
试了一下,速度是真快,现在快似乎已经成为一种趋势。但内容仍然拉胯,回答的内容多而杂乱,夹杂着睁眼说瞎话。跟gemma3可以拜把子了。
又到产品介绍看了一下,内容依然混乱而滞后,并没有及时更新T1的最新价格。看来腾讯内部协同还是存在问题。

初识语音转文本模型

早上媳妇发了一个微信科普视频,让把里面的语音转出文本文件。
媳妇安排的活自然要重视,好在又是上报年报,有的是等候反馈的时间。
先用obs把视频中的声音抽取出来,然后到网上搜了一下在线视频转文本的网站,都不靠谱,要么是有时间限制,要么是胡说八道。
于是下载了buzz,开始选择默认的base模型,转出的文本是繁体中文,但可用。
工作要认真负责,何况是媳妇安排的,把文本文件转换为简体后,又对照着视频重新校对一遍。
给媳妇发过去后,感觉哪里不对劲,现在文本转语音都这么成熟了,反向转换效果不应该这么差。到网上搜索一下,这buzz是基于OpenAI的whisper模型的,而whisper模型光看体积就知道性能差距不小,换成medium后,转换过程中就能识别专业术语,并且自动添加标点符号了。
至于large模型,换了机器再说吧。

强大过头的ragflow

大模型领域现在都在卷,今天再测试rag,发现无论是dify还是ragflow都进行了版本更新,修正了上次测试时的明显bug。
相比而言,ragflow的更新更为关键,保证了大模型的正常调用,而dify如没有大的改进,几乎更没有竞争力。
上学的时候,语文最头疼的不是作文而是文章分析,什么这段文字表达了作者什么思想,这处描写对全文有什么作用,等等等等。当时同学们间就嘀咕道:文章给作者,估计答案都未必及格。
这次轮到我自己了。
ragflow在deepseek的加持下,把我那20万字的文章分析的那个透彻。看到分析的头头是到,条理清楚的文字,我也不禁怀疑:我有那么想吗?