最近整理的古籍,其实也已经算不上古籍,已经是民国初年的书籍了,即便如此,那半文言半白话的文字,点校起来也颇为头疼。
如果让现有AI大模型处理,肯定还不如我,这点自信还是有的。
即便把文字录入让AI进行训练,效果也好不到哪里去,因为分词这关就过不去。
GPT之前的AI破冰,是AlphaGo,更进一步的则是后续zero,从零开始的自学习提升。
围棋是可以的,因为有胜率这个衡量标准。即便如此,各国不同规则也限制了其胜率的判断。
而现有很多领域,AI是没法替代的,比如中医,就像我们高三同位说的那句“赵啊,咱古文学的差,就别学中医了,书上说巴豆不可轻用,咱别一下给上半斤”。
同样,中国传统也不要因AI时代而被轻视甚至否定。
百年前,三家店被打倒,卷到历史垃圾堆里,其中用的就有赛先生这面大旗。
分类: IT天地
数据污染的散播
昨晚写完数据污染的随感后,刷了一会抖音,正好看到一篇关于“提防看正史”的视频,讲的就是像现在拿正史抬杠的,不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划,着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集,这自然要感谢那些资料整理者,但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条,而且为数不少。
这就有些类似当年cms时代,采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型,那么“某某药酒包治百病”这样的笑话,就不是笑话了。
数据污染的例子
周末在整理优化程序的时候,又被开源大模型给雷到了。
因为获取原始数据中,比较头疼的是日期格式错误,之前自己编写程序校验,这次交给几个大模型写代码,结果跟上次一样,几个新大模型给出同样的答案,而且错的极其离谱。
上次好歹只是得不到准确答案而已,这次好家伙,函数里面直接出现了空白字符。
这就跟小时候老师说的:你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化,也就是最为简化,具体使用起来,还需要进行数据预处理。这就是那几个不肖徒子徒孙,在迭代训练中中,不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。
弥补短板,大模型依然脱不了大量训练
很久没有用ChatGPT了,因为想了解一下GPT-4o,才又登录上去浏览了一会。
临退出时,想到前段时间开源大模型编写Python程序拉胯的事情,于是就便把同样要求向ChatGPT提出,它很快给出了答案,相比上次唯一合格的Phil3,代码更为简单直观。
然后比较了一下代码,也明白了几个大模型出错的原因,我当时要求的是把符合要求的字符,用{}把包括起来替代。偏偏这{}在Python语言中,有特殊作用,那几个大模型就是忽视了这点才无法生成答案。
看来,这AI离不开的还是大量的训练。
物是人非,变不了天
变不了天。
微软这颇有些当年win95发布的阵势,同样的对手,物是人非。
前几天刚讨论过被夸大其词的RAG,当时提到其核心依然在大模型,而不是向量数据库。而前段时间推出的GPT-4o应该就是担当此任。
现在看我们分析是对的。所谓的Recall其实就是微软的RAG产品,本地存储运行向量数据库,则可以打信息安全的擦边球。
只是以微软这些年来拉胯的表现,最后肯定是中途半端,成不了大气候。
微软的谜之自信
“等了二十多年,终于拿到王牌,我们定能力拔头筹”
这与当年乔帮主那句“Intel还不够好”一样,让Intel情何以堪。
现在看来,这波浪潮主导者是微软,而不是高通,只是Windows系统那对硬件性能拉后腿,甚至可说是使绊子的表现,想抗衡苹果,难。
迷你机彻底上岗
昨天新组装机器运行正常,今天数据转移完毕,并测试新业务无误后,彻底把原机器关机了。
这台迷你机,价格相比我原先组装的联想m93,相差不大。M93强在性能上,毕竟给它配置的CPU是E3至强,而迷你机则胜在功耗和够用的性能。
现在有了AI服务器,一起性能有关的业务,都交给它了。
顺手到网上看了一下,M93的价格居然大涨,几乎快翻番了。看来追求性能的人还是不少的。
服务器换岗
纠结于换不换电脑已经又过了半年了,最后决定不换了,把家里服务器替换下来,加块显卡替换现有机器。而顶替服务器的,则是新看中的一款mini准系统,小巧、静音,关键还是双2.5G网卡。
机器并非京东自营,虽然是顺丰发货,但还是比配件到货晚了几天。
打开包装机器拿到手里不用掂量,只是这塑料外壳材质,就明白为何便宜了。不过看在这价格上也不苛求太多了。
开机装好SSD硬盘和内存,原先为SATA接口硬盘预留的挡板没有装回去,这样增大空间,提高散热效果。
机器运行正常好,开始进行系统大搬家,前期准备工作充分,顺利完成。
下一步,就是纠结换什么显卡了。
大模型,时间加硬件堆出来
近日接了个大活,算了算时间还算宽裕,但好歹也是搞技术的,部分工作还是要计算机处理,提高效率兼准确率。
磨刀不误砍柴工,提前开始编写程序。但现在有了AI,也想偷懒了,就把关键环节的字符替换功能需求告诉AI,让他出代码。
结果大失所望,并不复杂的功能,连换四五个模型,给出的都无法得到符合要求的结果,而且还是一样的代码,一样的错误,连例句都是一样的。
看来真是天下模型一大抄啊。
最后换上phi3,最新的微软模型,本来不抱希望,因为这家伙聊天都聊不利索。
但没想到,就他给出了正确的答案。
这大模型,就是硬件加时间,堆出来的。
ARM PC,成不了大事
这已经不是高通第一次吵吵着要进军PC市场,同样也不是微软头遭试水ARM软硬件产品,我上次买的ARM版surface,双遭抛弃,现在还在书架上吃灰呢。
高通上次为进军PC造势,主打的也是低功耗长续航。这对PC而言意义真是不大,更跟系统基础、应用生态没关系,就当把手机屏幕扩大外加键盘而已。
问题出在高通和微软,都不是缺钱的主,他们只是吃着锅里,盯着人家碗里而已。将来新业务发展,一旦略微影响了自己赚钱的主业,他们才不管什么市场、用户,跑的比兔子还快。
成不了大事。