前几天因为讨论ICQ关门的事情,跟外甥聊到了输入法,从自然码到紫光2.3,最后到了搜狗,也就没有再换。
最近点校古籍,使用搜狗并不顺手,但因为基本都是古文,便也忍了,但今天开始整理民国时期的书籍,搜狗依然不给力,高频词总是不能提升位置,于是换成系统自带的微软拼音。
用起来才发,除了设置功能少了点,没有中文符号自动完成,其他功能完全碾压搜狗。
搜狗吸引人的在于他的联想词和网络词,这在整理古籍资料上用不上,而我感觉他处理高频词性能糟糕,是受到强调网络用词的拖累。
再者,没有竞争者情况下,搜狗开始吃老本了。
主教练抢戏
今晚女排大奖赛澳门站,中国女排在扳回一局后,后两局崩盘败给日本队。
不知道转播信号是由何方提供,慢镜头回放中竟然重放了上一场袁心玥与朱婷未击掌的一幕。
此后朱婷上场后,估计吸取教训,转播中减少了场上球员交流的画面,镜头更多给到场边主教练蔡斌。
按照朱时茂的话:抢戏,你这是抢戏!
尴尬的复出
昨晚整理资料同时,开小窗看了中国女排对荷兰队后三局比赛。
比赛算不上精彩,先输一局的中国队在手握三个赛点时,让回归的朱婷上场发球。
排球不是足球,更不是篮球,朱婷也不是洛杉矶时的侯玉珠,这尴尬的出场亏主教练想的出来。
面色凝重的朱婷刚要发球了,对方主教练也来添乱,提出上一球的挑战。这使坏如此明显,连主裁判都笑了。
还好,不出所料丢了一个赛点的中国队,拿下关键一战。
今早看新闻,袁心玥不与朱婷击掌的新闻又上了热搜。
这添乱的真是不嫌事少。
一个巴掌拍不响。
同样二人谁也不敢先出手,生怕拍到空气徒添尴尬。
不能说有宿怨,至少是心存芥蒂。
朱婷也不是半退役后回归的张常宁,东京惨败后惨淡经营的团队姐妹,对强调伤病却还在国外打职业比赛的朱婷,没有怨言没人能信。
现在回看朱婷的归自媒体宣言中,那“不接商业代言”等字眼,不是推脱,更像是一种官样的表态。
强扭的瓜不甜,由她去吧。
AI时代传统文化的歧路
最近整理的古籍,其实也已经算不上古籍,已经是民国初年的书籍了,即便如此,那半文言半白话的文字,点校起来也颇为头疼。
如果让现有AI大模型处理,肯定还不如我,这点自信还是有的。
即便把文字录入让AI进行训练,效果也好不到哪里去,因为分词这关就过不去。
GPT之前的AI破冰,是AlphaGo,更进一步的则是后续zero,从零开始的自学习提升。
围棋是可以的,因为有胜率这个衡量标准。即便如此,各国不同规则也限制了其胜率的判断。
而现有很多领域,AI是没法替代的,比如中医,就像我们高三同位说的那句“赵啊,咱古文学的差,就别学中医了,书上说巴豆不可轻用,咱别一下给上半斤”。
同样,中国传统也不要因AI时代而被轻视甚至否定。
百年前,三家店被打倒,卷到历史垃圾堆里,其中用的就有赛先生这面大旗。
数据污染的散播
昨晚写完数据污染的随感后,刷了一会抖音,正好看到一篇关于“提防看正史”的视频,讲的就是像现在拿正史抬杠的,不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划,着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集,这自然要感谢那些资料整理者,但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条,而且为数不少。
这就有些类似当年cms时代,采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型,那么“某某药酒包治百病”这样的笑话,就不是笑话了。
数据污染的例子
周末在整理优化程序的时候,又被开源大模型给雷到了。
因为获取原始数据中,比较头疼的是日期格式错误,之前自己编写程序校验,这次交给几个大模型写代码,结果跟上次一样,几个新大模型给出同样的答案,而且错的极其离谱。
上次好歹只是得不到准确答案而已,这次好家伙,函数里面直接出现了空白字符。
这就跟小时候老师说的:你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化,也就是最为简化,具体使用起来,还需要进行数据预处理。这就是那几个不肖徒子徒孙,在迭代训练中中,不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。
专业壁垒总是存在
最近整理古谱,这落到纸面上的,跟发到网上的不一样,真是不一样,一句一字不容有错。原先只是爱好而已,错了就错了,发现了就改,发现不了就那样了。
最后还是买了一本手册作为参考,翻看起来,发现很多古文知识都还给高中老师了。
今天视频又看到张大拿讲专业壁垒。这文科怎么就没有壁垒,或者很低了,正儿八经学四年积累的知识,是非专业不能比的。这就像专业与爱好水平比拼一样。
当然,四年不学混日子那就不提了。那不是壁垒高低问题,是开门揖盗了。
“有趣”毁了孩子们的前途
晚上泰山对浙江联赛直播前,看了一段《足球之夜》对女足新任主教练的采访。
不用笑中国足球,现在央视不止解说员,主持人的水平也同样大滑坡。采访澳大利亚主教练,哪壶不开提哪壶,让他跟自己同胞,前两天刚下课的U17女足主教练相比。
不知消息来源是否准确,主持人说下课的那位,接手U17女足,是因为“有趣”。
如果是,那昨天还骂轻了,这老匹夫。
随后泰山轻松击溃浙江的比赛进程与结果,也印证了我的说法。
乔迪坚持他的传控打法,而泰山的阵型让黄健翔都感到意外。其实崔康熙的战术就是全场紧逼,场上球员就算是新人贾非凡,一对一也是泰山占优,你这洒沙子般的传控,就是自寻死路。
国家女足只是少了两年的大赛,而U17的孩子们,可能被毁了前途。
一顿饭与一生的饭碗
早上等公交车的时候刷新闻,在一个分类新闻中不起眼的地方,看到了中国U17主教练终止合同的的标题。
郁闷的心情略微舒缓了一下。
前段时间整理资料时候,用画中画小窗看了几场在巴厘岛举行的U17女足世界杯亚洲预选赛,在前三名出线的情况下,女足在三四名决赛中输给韩国队,丧失了出线资格。
看着又黑又瘦的小丫头们,踢着所谓先进的传控战术,如洒沙子一样在禁区里外与对方球员纠缠,就想这澳大利亚主教练岂止是误人子弟,简直就是断送孩子们前程。
在中国足球大环境下,如果这帮孩子能够进入世界杯,不止提高了她们的大赛经验和眼界,她们的职业生涯也会改变。
结果她们成为外国主教练的试验田产品。这老家伙只是丢了一顿饭而已,女足球员们可能是被砸了一生的饭碗。
弥补短板,大模型依然脱不了大量训练
很久没有用ChatGPT了,因为想了解一下GPT-4o,才又登录上去浏览了一会。
临退出时,想到前段时间开源大模型编写Python程序拉胯的事情,于是就便把同样要求向ChatGPT提出,它很快给出了答案,相比上次唯一合格的Phil3,代码更为简单直观。
然后比较了一下代码,也明白了几个大模型出错的原因,我当时要求的是把符合要求的字符,用{}把包括起来替代。偏偏这{}在Python语言中,有特殊作用,那几个大模型就是忽视了这点才无法生成答案。
看来,这AI离不开的还是大量的训练。