数据污染的例子 – 自己的博客

周末在整理优化程序的时候，又被开源大模型给雷到了。
因为获取原始数据中，比较头疼的是日期格式错误，之前自己编写程序校验，这次交给几个大模型写代码，结果跟上次一样，几个新大模型给出同样的答案，而且错的极其离谱。
上次好歹只是得不到准确答案而已，这次好家伙，函数里面直接出现了空白字符。
这就跟小时候老师说的：你抄也找个好学生抄啊。
最后是原始模型llama3出面解决了问题。他给的答案是非常官方化，也就是最为简化，具体使用起来，还需要进行数据预处理。这就是那几个不肖徒子徒孙，在迭代训练中中，不知抄了哪个论坛里面转了不知多少遍的帖子。
这就是AI时代数据污染的一个例子。

Leave a Reply Cancel Reply