从数据污染到数据投毒

央视315晚会曝光的GEO技术,已经不是一个新问题,我在大模型流行初期,在测试大模型调试、及训练的时候就曾意识到,只是当时起的名字叫数据污染。
中文AI大模型早期被人诟病甚至耻笑的一点,就是张口就来、胡说八道,什么关公战秦琼,黄龙士大战李昌镐,这主要原因是训练数据来源本身不过关,从网络上搜集的资料良莠不齐,反过来还重新污染网络。
后来测试大模型调校时,发现用来训练的中医数据集中也存在诸如“鸿茅药酒包治百病”之类的数据。这应该不是数据生成者手滑眼花所致。
污染变投毒,看来AI大模型相关的商业利益更大了。
这种形势下,不说安全性,保证数据的完整、真实性是第一位的。

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>