昨晚写完数据污染的随感后,刷了一会抖音,正好看到一篇关于“提防看正史”的视频,讲的就是像现在拿正史抬杠的,不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划,着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集,这自然要感谢那些资料整理者,但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条,而且为数不少。
这就有些类似当年cms时代,采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型,那么“某某药酒包治百病”这样的笑话,就不是笑话了。