周末在整理优化程序的时候,又被开源大模型给雷到了。
因为获取原始数据中,比较头疼的是日期格式错误,之前自己编写程序校验,这次交给几个大模型写代码,结果跟上次一样,几个新大模型给出同样的答案,而且错的极其离谱。
上次好歹只是得不到准确答案而已,这次好家伙,函数里面直接出现了空白字符。
这就跟小时候老师说的:你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化,也就是最为简化,具体使用起来,还需要进行数据预处理。这就是那几个不肖徒子徒孙,在迭代训练中中,不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。