最近在rag实战应用中十分有挫败感,昨天刚跟外甥电话交流中,尝试使用chatGPT对本地文件处理的可能性,今天一早起来看新闻,OpenAI居然将GPT开源了。
因为开源两个版本中低的20B也需要16G显存,目前还没法测试,但根据之前对其他低版本开源模型的测试,对rag等本地部署的应用是足够了,GPT应该只会更强。
这已经不是蚂蚁腿肉也是肉的问题,而是AI普及后的一块巨型蛋糕,显然OpenAI公司不想让一班跟随者分享这块蛋糕。
只是16G显存的门槛,最高兴的还是黄厂长。
分类: IT天地
拆机华硕主机
老早就想把华硕主机换了,但还能用,再者这台机车从21年开始用,导数据也是个麻烦事,于是一拖再拖。
这次办公室电脑搬回来了,机器也到了退居二线的时刻。从网上买的细长螺丝刀也到货了,上次想拆机加内存,就是螺丝刀卸不下螺丝钉才作罢。这次工具趁手,把机器拆开,里外两层壳,做工的确精良。
拆掉数据硬盘后,本想换内存,结果发现内存只有一个插槽,而且是在涡轮风扇下面,而要拆风扇,还要把镇压独显的散热器一起拆了,只能作罢。内存8G就8G吧,其实只见新人笑,哪听旧人哭,主机一旦被替换后,基本也没有多少用武之地了。
最后只是把多余的一块SSD硬盘加上,组装完了后发现多出一个螺丝钉,只好拆了重新安装。
17年的机器,历经两个主人,用到现在还能发挥余热,也够本了。

不稳定的PDF识别
颇有挫败感的一天。
本来前段时间使用zotero的GTP插件,通过硅基流动的免费7B模型,可以准确提取PDF文件中的数据,但没想到今天准备实战应用了,却发现极不稳定。
这种不稳定是多方面的,不仅是不同PDF文件,不同模型间提取数据也不稳定,即便是同一模型,在不同时间段效果也不稳定。
我有些怀疑是内嵌模型拖了后腿。
看来只能是通过ragflow来解决这个问题了。
克服经验主义,搞定ERPNext实战
周末连加两天班,主要因为办公室的中央空调实在给力,把ERPNext彻底搞定了。
不过收尾工作是回家后完成的,因为犯了一个很低级的错误。问题出在同系统多公司并存上,第二个公司提交凭证时,系统提示成本中心错误。
顶着烈日回家路上,意识到问题所在:原先odoo是默认管理员登录,新建公司等于新建一个隐形用户。而ERPNext是安装后,默认登录管理员为administrator,通过这个管理员再新建用户,分配公司,等于通过不同用户来切换公司,而不是像odoo那样简单切换公司。
明白了这个,问题就迎刃而解。
经验主义害死人啊。
ragflow更靠谱
周末回家期间,跟朋友的孩子提到他们学校一个大模型应用的时候,说这个应用的公众号新闻中的图片,直接把rag的界面截图发上去了,也不知道封装一下。
回来后,通过截图中的图标确认那个大模型用的是dify。然后又比较了一下dify和ragflow的性能:将一些人员体检的PDF报告文件导入资料库,然后让其总结体检人员的指标。
结果dify出现了大问题,将不同报告的人员信息搞混了。显然他只认导入后的汇总资料库,而没有将原始文件作为单一个体进行区分。
ragflow则表现完美。
毕竟硬件要求在那里摆着呢。
直线速度,i7名不虚传
去年组装了3台迷你机,老中青三代各司其职,运行正常。
其中主力劳模是时下流行的N100,承担日常业务,对性能也要求不高。上周某个业务需要生成1700份PDF文件,运行完成后扫了一下用时,14分40多秒。
感觉还是有些慢,就又用老一代的E3 1260Lv3跑了一下,4核8线程对4核,只是少了20秒。当时想可能是程序自身问题,大体上就是这个性能吧,还能接受。
今天想到用Chromebox也跑一下试试,正好也给儿子把Python环境安装好。程序同步运行后,我就走开干别的去了。
回来发现任务已经完成,当时只看到一个2m,第一反应是12分钟,少用了2分钟。后来凑近屏幕看,是2分钟。
看来这i7速度快,真是名不虚传。
解决ModuleNotFoundError: No module named ‘pip’ 错误方案
ubuntu24.04系统,因创建python虚拟环境导致新旧版本冲突,出现ModuleNotFoundError: No module named ‘pip’ 提示。
通过重新安装python-pip无法解决,使用get-pip.py脚本解决。
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python get-pip.py
准备下手双显卡
去年媳妇给推荐了zotero软件,说是科研人员必备神器。我安装使用的确方便,但也只是用来做网络资料的收藏与整理。
直到前段时间帮儿子准备毕业论文,安装了GPT插件后,发现自己真是拿着牛刀杀鸡了。在本地小模型的辅助下,zotero可以通过插件对管理的PDF文件进行高效的处理。
最近这段时间又进行了各种测试,发现本地7B规模的模型,可以对内容定向的诸如单PDF等文档进行处理;如果需要进行功能扩展,比如资料库这类多文档总结,则需要14B的模型,显卡显存就要从8G扩展到12G。
而要再进一步,比如让大模型在原有文档基础上自行发挥,还不胡说八道,关公战秦琼,那就必须32B的模型,这个基本超越了本地部署的能力,即便是16G显存的显卡也是力不从心。
所以,我准备下手双显卡服务器了。
6月6日忆NBA
刚看完NBA总决赛第一场,步行者最后0.3秒绝杀了被国内几乎所有大V看好的雷霆队。
雷霆被看好不是没有道理,零零散散看的比赛,大部分时间领先的都是雷霆。可以说,步行者想赢,需要拼了命打,而雷霆只要正常打,就不会输。
98年的6月6号,同事婚礼,在现在已经被拆的齐鲁宾馆举行的,甚是隆重,不过我们不少帮忙的人抽空就跑一边,看一个同事的移动电视里直播的NBA总决赛,公牛乔丹大战爵士双煞。
那届总决赛,才真正是势均力敌,看的人是提心吊胆,却又热血沸腾。
不是念旧,现在的NBA真的没法比。
丑陋的Django自带admin
计算机知识本就是越学越发现自己不会的越多,但如果不持续学,会发现自己很无知。
在选定调校了erp系统并建账后,算是了却了一件大的心事,重新开始准备日常的技术工作。
原本是准备使用Django进行整合的,但一想到xadmin的安装设置就头疼。最后一次安装成功,Django还是3.0,昨天硬着头皮整理资料时候,发现其实xadmin已经落伍了。
试着安装了一下网上推荐的simpleUI,NND,一行安装命令,一行配置就解决了。
感慨自己无知浪费时间的时候,忍不住还是吐槽一下这Django,从我接触的1.7版本,到昨天的5.2,版本更新的那么快,这后台的admin就没有变过,已经不能用简陋来形容,简直就是丑陋。
磨刀不误砍柴工,还是得学啊,哪怕是走马观花。