AI大模型武林现状

今天跟外甥聊起AI大模型,因为刚用过WPS的AI版,他感觉国内的大模型还是不错的。
但这个不错是相对的。
就像《射雕英雄传》,一开始丘处机一人单挑江南七怪,似乎已经是天下无敌的派头,后面逐个登场的侯通海、沙通天、灵智上人,虽然差一些,但也是难缠的对手。
只是东邪登船亮相,群雄顿时成了众丑。
偏偏东邪西毒南帝北丐之上,还有个中神通。
这应该就是现在AI大模型武林的现状。

惹麻烦的云服务器

昨天收到阿里云的短信,提示我的域名出现问题。其实在他提示之前,我就已经发现了问题,常用网站被指向一个博彩网站。
而问题出线时间点,是在免费SSL证书Let’s Encrypt到期续约后,两个renew的域名随即出现问题,而同一服务器的非ssl网站则没有问题。
折腾一番,最后还是放弃了,因为这已经不是我现在使用的云服务器,第一次出现这种乱七八糟莫名其妙的错误,于是将域名转回最早的云服务器,续约ssl证书,警报解除。
显然是新用服务器的问题,我甚至怀疑是那边故意为之。到期不再用就是了。

熟悉的机器升级场景

昨天外甥升级他买的mini机,今天内存硬盘到货。开始觉得这升级是小case,不值得把机器搬到办公室,就骑单车到他家。
路上还琢磨:时间这么早,升级完了离吃饭点还早呢。
硬件升级倒是简单顺利,没想到接上网线开机之后,机器网卡灯不亮。
于是熟悉的情景再现:搬显示器,换网线,坐在地板上敲键盘,改配置。
最后终于解决,莫名其妙的错误,没有升级网卡,它看人家内存硬盘升级,自己也跟着变换了配置文件。
收拾完机器,也到了吃饭点,又是熟悉的场景。

内部组网的两种方式

昨天晚上看完球赛后,开始设置家里的服务器,想实现ddns-go组网模式,这也是本次回家的主要工作之一。
但折腾半天,一无所获,时间已晚就休息了。早上起床后继续折腾,但家里的光猫在去年升级为光猫路由器一体后,已经固化成了bridge模式,普通用户无法设置nat模式下的端口转换,所以ddns-go也就无用武之地。
这样以后就使用ddns-go与zerotier两种方式组网,相比而言ddns-go速度似乎更快一些,这估计也有zerotier目前官方服务器迟缓有关。下一步测试自建planet是不是要好一些。

比大模型抄袭更丢人

今天浏览科技新闻,最热门的就是斯坦福的大模型抄袭,这已经算不上丑闻,堪称闹剧了。
以我最近测试几款著名开源大模型的经历,虽然为数不多,但从那雷同而雷人错误看,大模型抄袭显然已经是普遍现象了。
而斯坦福这三个小丑如此丢人,一是人品极差,甩锅的甩锅,跑路的跑路,更关键的是,这llama本来就是你们家斯坦福的杰作,你却绕着弯抄袭徒子徒孙的大模型,真真是丢人丢到家了。

吃老本的搜狗

前几天因为讨论ICQ关门的事情,跟外甥聊到了输入法,从自然码到紫光2.3,最后到了搜狗,也就没有再换。
最近点校古籍,使用搜狗并不顺手,但因为基本都是古文,便也忍了,但今天开始整理民国时期的书籍,搜狗依然不给力,高频词总是不能提升位置,于是换成系统自带的微软拼音。
用起来才发,除了设置功能少了点,没有中文符号自动完成,其他功能完全碾压搜狗。
搜狗吸引人的在于他的联想词和网络词,这在整理古籍资料上用不上,而我感觉他处理高频词性能糟糕,是受到强调网络用词的拖累。
再者,没有竞争者情况下,搜狗开始吃老本了。

AI时代传统文化的歧路

最近整理的古籍,其实也已经算不上古籍,已经是民国初年的书籍了,即便如此,那半文言半白话的文字,点校起来也颇为头疼。
如果让现有AI大模型处理,肯定还不如我,这点自信还是有的。
即便把文字录入让AI进行训练,效果也好不到哪里去,因为分词这关就过不去。
GPT之前的AI破冰,是AlphaGo,更进一步的则是后续zero,从零开始的自学习提升。
围棋是可以的,因为有胜率这个衡量标准。即便如此,各国不同规则也限制了其胜率的判断。
而现有很多领域,AI是没法替代的,比如中医,就像我们高三同位说的那句“赵啊,咱古文学的差,就别学中医了,书上说巴豆不可轻用,咱别一下给上半斤”。
同样,中国传统也不要因AI时代而被轻视甚至否定。
百年前,三家店被打倒,卷到历史垃圾堆里,其中用的就有赛先生这面大旗。

数据污染的散播

昨晚写完数据污染的随感后,刷了一会抖音,正好看到一篇关于“提防看正史”的视频,讲的就是像现在拿正史抬杠的,不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划,着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集,这自然要感谢那些资料整理者,但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条,而且为数不少。
这就有些类似当年cms时代,采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型,那么“某某药酒包治百病”这样的笑话,就不是笑话了。

数据污染的例子

周末在整理优化程序的时候,又被开源大模型给雷到了。
因为获取原始数据中,比较头疼的是日期格式错误,之前自己编写程序校验,这次交给几个大模型写代码,结果跟上次一样,几个新大模型给出同样的答案,而且错的极其离谱。
上次好歹只是得不到准确答案而已,这次好家伙,函数里面直接出现了空白字符。
这就跟小时候老师说的:你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化,也就是最为简化,具体使用起来,还需要进行数据预处理。这就是那几个不肖徒子徒孙,在迭代训练中中,不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。

弥补短板,大模型依然脱不了大量训练

很久没有用ChatGPT了,因为想了解一下GPT-4o,才又登录上去浏览了一会。
临退出时,想到前段时间开源大模型编写Python程序拉胯的事情,于是就便把同样要求向ChatGPT提出,它很快给出了答案,相比上次唯一合格的Phil3,代码更为简单直观。
然后比较了一下代码,也明白了几个大模型出错的原因,我当时要求的是把符合要求的字符,用{}把包括起来替代。偏偏这{}在Python语言中,有特殊作用,那几个大模型就是忽视了这点才无法生成答案。
看来,这AI离不开的还是大量的训练。