周末在整理优化程序的时候,又被开源大模型给雷到了。
因为获取原始数据中,比较头疼的是日期格式错误,之前自己编写程序校验,这次交给几个大模型写代码,结果跟上次一样,几个新大模型给出同样的答案,而且错的极其离谱。
上次好歹只是得不到准确答案而已,这次好家伙,函数里面直接出现了空白字符。
这就跟小时候老师说的:你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化,也就是最为简化,具体使用起来,还需要进行数据预处理。这就是那几个不肖徒子徒孙,在迭代训练中中,不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。
分类: IT天地
弥补短板,大模型依然脱不了大量训练
很久没有用ChatGPT了,因为想了解一下GPT-4o,才又登录上去浏览了一会。
临退出时,想到前段时间开源大模型编写Python程序拉胯的事情,于是就便把同样要求向ChatGPT提出,它很快给出了答案,相比上次唯一合格的Phil3,代码更为简单直观。
然后比较了一下代码,也明白了几个大模型出错的原因,我当时要求的是把符合要求的字符,用{}把包括起来替代。偏偏这{}在Python语言中,有特殊作用,那几个大模型就是忽视了这点才无法生成答案。
看来,这AI离不开的还是大量的训练。
物是人非,变不了天
变不了天。
微软这颇有些当年win95发布的阵势,同样的对手,物是人非。
前几天刚讨论过被夸大其词的RAG,当时提到其核心依然在大模型,而不是向量数据库。而前段时间推出的GPT-4o应该就是担当此任。
现在看我们分析是对的。所谓的Recall其实就是微软的RAG产品,本地存储运行向量数据库,则可以打信息安全的擦边球。
只是以微软这些年来拉胯的表现,最后肯定是中途半端,成不了大气候。
微软的谜之自信
“等了二十多年,终于拿到王牌,我们定能力拔头筹”
这与当年乔帮主那句“Intel还不够好”一样,让Intel情何以堪。
现在看来,这波浪潮主导者是微软,而不是高通,只是Windows系统那对硬件性能拉后腿,甚至可说是使绊子的表现,想抗衡苹果,难。
迷你机彻底上岗
昨天新组装机器运行正常,今天数据转移完毕,并测试新业务无误后,彻底把原机器关机了。
这台迷你机,价格相比我原先组装的联想m93,相差不大。M93强在性能上,毕竟给它配置的CPU是E3至强,而迷你机则胜在功耗和够用的性能。
现在有了AI服务器,一起性能有关的业务,都交给它了。
顺手到网上看了一下,M93的价格居然大涨,几乎快翻番了。看来追求性能的人还是不少的。
服务器换岗
纠结于换不换电脑已经又过了半年了,最后决定不换了,把家里服务器替换下来,加块显卡替换现有机器。而顶替服务器的,则是新看中的一款mini准系统,小巧、静音,关键还是双2.5G网卡。
机器并非京东自营,虽然是顺丰发货,但还是比配件到货晚了几天。
打开包装机器拿到手里不用掂量,只是这塑料外壳材质,就明白为何便宜了。不过看在这价格上也不苛求太多了。
开机装好SSD硬盘和内存,原先为SATA接口硬盘预留的挡板没有装回去,这样增大空间,提高散热效果。
机器运行正常好,开始进行系统大搬家,前期准备工作充分,顺利完成。
下一步,就是纠结换什么显卡了。
大模型,时间加硬件堆出来
近日接了个大活,算了算时间还算宽裕,但好歹也是搞技术的,部分工作还是要计算机处理,提高效率兼准确率。
磨刀不误砍柴工,提前开始编写程序。但现在有了AI,也想偷懒了,就把关键环节的字符替换功能需求告诉AI,让他出代码。
结果大失所望,并不复杂的功能,连换四五个模型,给出的都无法得到符合要求的结果,而且还是一样的代码,一样的错误,连例句都是一样的。
看来真是天下模型一大抄啊。
最后换上phi3,最新的微软模型,本来不抱希望,因为这家伙聊天都聊不利索。
但没想到,就他给出了正确的答案。
这大模型,就是硬件加时间,堆出来的。
ARM PC,成不了大事
这已经不是高通第一次吵吵着要进军PC市场,同样也不是微软头遭试水ARM软硬件产品,我上次买的ARM版surface,双遭抛弃,现在还在书架上吃灰呢。
高通上次为进军PC造势,主打的也是低功耗长续航。这对PC而言意义真是不大,更跟系统基础、应用生态没关系,就当把手机屏幕扩大外加键盘而已。
问题出在高通和微软,都不是缺钱的主,他们只是吃着锅里,盯着人家碗里而已。将来新业务发展,一旦略微影响了自己赚钱的主业,他们才不管什么市场、用户,跑的比兔子还快。
成不了大事。
nas新学习测试杂感
昨晚整理完nas阶段性测试的资料准备关机前,想到19年底nas系统还有一个基于传统freenas分支的nas4free。当时它更FreeNas官方公司走高端化路线不同,延续了原Freenas的低配高效的路线。
上网查了一下相关资料,nas4free也已经更名为Xigmanas,只看安装镜像大小,就知道他只是更名而没有改变发展理念。
Xigmanas相关的技术资料不多,多的是其与群晖、威联通的优劣比较的文章。
这nas本来是隐于幕后,为机器服务的,只是随着这些年网络的高速发展,特别是视频文件翻番又翻番的体积增长,才让nas从机房转战到办公室,最后落户家庭。现在流行热议的nas,可以说工作室或个人的网盘而已。
其实,就连nas本身也是一个低成本的平民版存储系统,真正高端或者商用的,用的是与intel、oracle齐名的EMC。这应该也是Freenas的东家一度要发展硬件的原因之一,只是高不成低不就拓展不利后,又转回到软件为主的集成应用系统上来。
这个策略也不能说不对,至少可以看做是一个前置机与nas的组合,性能够用,数据也有一定保障。
至于重要数据管理,还是需要稳定运行低调的nas。
Truenas重新进库
19年底安装公司业务用nas的时候,选用的是基于Freebsd的Freenas,机器CPU是双核赛扬,运行正常。但也没正常用几天,疫情就来了。
前几天重新安装nas,freenas除了更名truenas,还分为两个版本,core版延用原先版本,算是熟门熟路了,便选用了基于Debian系统的scale版本。
安装完系统,创建pool,开始应用时,第一反应就是,这还是nas系统吗?
再后来按照网上介绍安装docker时,才明白,还装什么装,这应用系统整个就是一个k8s,nas成附属的了。
不止如此,这系统默认自带虚拟机管理,而且是能安装windows和Freebsd的,也就是说还超越docker。
运行测试一番后,今天关机,重新搬回储藏室。
因为不止硬盘容量大大落后于时代,这cpu根本就带不动啊。
下一步,升级!