数据污染的散播 – 自己的博客

昨晚写完数据污染的随感后，刷了一会抖音，正好看到一篇关于“提防看正史”的视频，讲的就是像现在拿正史抬杠的，不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划，着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集，这自然要感谢那些资料整理者，但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条，而且为数不少。
这就有些类似当年cms时代，采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型，那么“某某药酒包治百病”这样的笑话，就不是笑话了。

Leave a Reply Cancel Reply