0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”
2025-08-21 10:08 中央广播电视总台中国之声
中国贸促会商业行业委员会人工智能训练师 刘吉:第一块的话是在数据采集阶段,就是采集到一些比如说灌水的虚假信息,比如说一些有错误的论文信息,AI生成的一些图片或者是文章。第二阶段其实是在标注阶段,有可能是有主观的,也有非主观的,就是可能这个标注员把这个标签给它标错了,假设自动驾驶它本身是个车,但是由于它这个远处就比较模糊,它本身可能是一个三轮车,标成了一个两轮车或者是一个机动车。第三块其实就是在数据的清洗和预处理阶段,就有可能会没有筛选到这种异常的数据。第四个阶段的话,就是在大模型的应用阶段,会出现这种信息的灌水,就给大模型去灌一些虚假信息或者是广告信息。
值得注意的是,标注环节的故意投毒目前较少,但半自动化标注中,如果预训练模型本身存在偏差,也会放大错误。
有研究显示,当训练数据中仅有0.01%的虚假文本时,大模型有害输出率会上升11.2%,即便是0.001%的污染,也会导致有害内容增加7.2%。这组数据是怎样的概念?在数据生产、标注、清洗、训练的各环节,该如何避免AI“中毒”呢?
刘吉表示,这样极小的污染,就能导致巨大的偏差,可见高质量数据集的重要性,然而,在实际操作中,一个虚假文本导致的误差产生的实际错误在当下就是百分之百。