满意的rag测试

之前测试rag,我使用的材料是《三国演义》的文本文件,即便是deepseek推出后,效果仍然不是非常满意。
这几天分析,除了《三国演义》本身是文言白话混杂的作品,给AI的分词、理解提高了难度。还有一个重要原因,那就是《三国演义》太有名了,AI在训练过程中,难免被污染,所以才会在出现“关公骂王朗”的“本能性”回答的笑话。
于是决定改变一下案例,使用真正私有的文件,也就是对AI全新的资料进行回答。
敝帚自珍,这次选择的资料库是我完成许久的小说。从简书按章节导出后修改为升序文件名,以目录的方式导入知识库。
指定知识库后,使用deepseek-r提问,从分析到回答,已经不再夹带私货,完全按照原作进行回答,但理解能力还是有问题。
总结一下,应该是我虽然修改了文件名,但AI读取文件时,并未按小说的时间线进行分析。
多文件不行,就把多文件生成一个markdown文件让AI理解。在AI的辅助下,编写了一个程序,将多个网页中的内容采集后合并到一个文件中。
这次,AI给出了优异的答案,理清了人物关系,并在此基础上进行了人物情感分析。
这次使用的模型是硅基流动的,相比其他运营商“Token大赠送”的扭扭捏捏,硅基流动赠送的直接是免费券,而且界面简单明了。满意之余,顺手充值了10块钱,以作奖励。
回想一下,两周过去了,能够费脑子写新代码,这事情算是真的过去了。

举足轻重的向量化

昨晚躺下后脑子里也是关于rag的问题。
早上起来查了一下相关资料后,确认之前遇到的本地资料库效率,应该与向量嵌入模型有很大关系。
于是开机重建资料库,使用硅基流动的免费嵌入模型,对同一文章进行向量化导入,然后使用同一qwq模型询问同一问题。
果然,这次不但问题的答案准确,而且推理过程也精简高效了很多。
目前硅基流动的向量化服务有免费、收费两种,而腾讯是按照token收费,看来这个业务需求量还是不小的。

时间宽裕,收获满满

收获满满的一天,甚至是有所突破的一天。
因为要等报表反馈,有足够无聊的时间需要打发,而折腾计算机需要这种整装的时间。
因为此前anythingllm升级版本反而弱智的情况,也验证了我的一个猜测:rag除了足够强大的大模型逻辑支持,还需要资料库的可靠性。而版本升级与外部模型无关,那就跟内嵌模型和向量数据库有关了。
于是将内嵌模型更换为BGE-M3,效果并不明显,果断将anythingllm切换回cherrystudio,效果果然提升,同时结合deepseek的推理过程,发现他是读取向量数据库中被分解的资料进行分析。
在验证我推测的同时,也算是给cherrystudio平反了。
不过ollama提供的BGE-M3模型对中文支持并不好,这也是网上渐渐不推荐ollama的原因。
将部署软件切换到lmstudio,这样就可以更自由地选择各种模型。
只是办公室的网络,真是一言难尽。

阿里跟进deepseek

早上看新闻,阿里推出了千问新大模型,号称性能比肩deepseek。当时还以为是标题党,谁知道他对标的是deepseek的哪个版本。不过细看文章中图表,原来冤枉作者了,他对比的就是deepseek满血版。
下午做报表的时候,看到ollama已经发布了qwq模型,19G大小,而所谓消费级显卡就能运行,指的也是4090D这样32g显存的显卡。
下载模型过程漫长,天黑就没有关机下班。回到家开机检查,模型已经下载完成,运行一下,在A6000显卡的服务器上,回答质量虽然不能与deepseek相比,但速度是嗖嗖的。
看来针对deepseek这个新入局者,相比腾讯的归化策略,阿里是准备下场竞技了。

本地部署deepseek的rag任重道远

今天抽空测试了一下本地部署deepseek的rag性能,或者说可靠度。
测试的依然是那个问题:”《三国演义》中身长七尺,细眼长髯的是谁?”
出乎意外的是,通过Python的相关库操作deepseek的32b模型,情况糟糕如故,一会诸葛亮,一会关羽的。
后来转到Windows下的客户端,cherry studio功能基本是摆设,而anythingLLM则表现亮眼,在调整了内嵌模型的参数后,deepseek7b连续给出了简要明确的答案。
就在高兴之余,看到客户端右上角有个升级按钮,便进行升级期待其有更好表现。
谁知经过漫长的下载安装后,anythingLLM新版本变弱智了,开始胡说八道,竟然还给我生造出一个三国名医出来。
果然如我所料,大模型的RAG任重道远,而且与内嵌模型及向量数据库的配置、管理有着重要的关系。

元宝免费的代价

早上看新闻,有不少文章在声讨腾讯,起因是腾讯免费的元宝《用户协议》中的第5.4款。
这个其实这个条款已经是修改过的,现在等于是:你上传的内容,所有权是你的,但我可以用;我反馈的内容你可以用,但所有权是我的。
也算公平合理。腾讯什么时候做过赔钱的买卖。
原先是爬虫在网上搜资料,现在高质量的资料自己送上门来。
恨得牙根痒痒的,应该是曾经搜索、AI都曾绝对领先的百度了。

RAG真的可行

这一个多月来,因为deepseek的火爆,一度沉寂的RAG也在短视频、论坛平台又重新热闹起来。
我把上次测试的文本重新导入向量数据库,使用阿里的deepseek-v3为引擎,重新进行查询。
这次的效果完全超出我的预期。deepseek给出的回答丰富而准确,因为这些资料涉及比较小众,为防止deepseek自作主张,我又将它给出的答案,在我提供的原文中进行搜寻核实。结果,deepseek的确是在总结了原文的基础上进行了再加工。
而且,这还是用英文内嵌模型进行的处理,中文专业术语并不十分精确。
这才是真正的RAG。

利益的拖累

昨晚临睡前在搜狐看到百度搜索全面接入deepseek的简要新闻,当时还特意搜索了一下别的新闻网站,并没有相关新闻。今早上大多IT媒体都进行了相关报道。
我关注的是标题省略的重点,接入的不止是deepseek,还有文心大模型。也就是说,百度并没有放弃自家掌控权。
在ChatGPT问世后,百度本是国内领先者,但之所以现在成为泯然跟跑者的原因,就是百度总是舍不下自己的既得利益——搜索业务。其实从百度之外的人都明白,百度搜索也就那么回事,而且,也就那点事。
当今,曾经利益有多大,拖累负担就加倍的大。

又一条起跑线

今天整理目前可用的deepseek应用时,发现在云服务器平台上找到他们都挺麻烦的,需要在一大堆大模型应用中查找鉴别。
也难怪,虽然现在国内大的云服务器平台都推出了deepseek服务,但都有各自的当家大模型,如阿里有千问,腾讯有混元,百度的则是文心一言。虽然deepseek如宝刀屠龙横空出世,技压群雄,但各门派,哦,各平台还是舍不得自家的那些独门秘籍。
当然,这也与开源协议有关,但技术是开源的,数据却是自家的。现在如果还舍不得那些瓶瓶罐罐,首鼠两端,百度就是最好的例子。
如果现在有后来者能够并力一向,打造以deepseek为基础的云平台,当能无负担地占得先机。
就如当年《第三次浪潮》书中所言,又一次,“穷国与富国站在同一起跑线上”。

大模型比着劲免费

在返程的火车上,看到苹果选择阿里作为国内AI合作者的新闻,显然苹果看重的不是阿里的千问,而是他运作deepseek的能力。
正盘算着测试阿里运行deepseek的速度,媳妇发来一个新闻,腾讯前几天也开始免费测试其deepseek大模型平台。而且相比其他平台赠送的百万token,腾讯是直接免费至2月25日。
这天大的便宜怎么能错过,进门后第一时间就给儿子安装调试,他用腾讯加cherry stadio,我那边也开机测试阿里云搭配chatbox。
测试一下午,无论是专业应用,还是业余娱乐,效果都是颠覆了我们之前的认知。