数据污染的散播

昨晚写完数据污染的随感后,刷了一会抖音,正好看到一篇关于“提防看正史”的视频,讲的就是像现在拿正史抬杠的,不少“正史”资料都是某大厂AI生成的类似“魏武大战光武”的胡言乱语。
我最近改变计划,着力搜集整理相关资料。其中搜集了大量关于中医类的AI数据集,这自然要感谢那些资料整理者,但其中也发现部分资料中掺杂着“某某品牌产品对某某症状有疗效”的数据条,而且为数不少。
这就有些类似当年cms时代,采集器采集回来的内容中夹杂广告。
但这些更像是有意为之。
如果用这些数据训练大模型,那么“某某药酒包治百病”这样的笑话,就不是笑话了。

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>