从数据污染到数据投毒

央视315晚会曝光的GEO技术，已经不是一个新问题，我在大模型流行初期，在测试大模型调试、及训练的时候就曾意识到，只是当时起的名字叫数据污染。
中文AI大模型早期被人诟病甚至耻笑的一点，就是张口就来、胡说八道，什么关公战秦琼，黄龙士大战李昌镐，这主要原因是训练数据来源本身不过关，从网络上搜集的资料良莠不齐，反过来还重新污染网络。
后来测试大模型调校时，发现用来训练的中医数据集中也存在诸如“鸿茅药酒包治百病”之类的数据。这应该不是数据生成者手滑眼花所致。
污染变投毒，看来AI大模型相关的商业利益更大了。
这种形势下，不说安全性，保证数据的完整、真实性是第一位的。

Leave a Reply Cancel Reply