0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”

2025-08-21 10:08 中央广播电视总台中国之声

　　当你打开AI助手，询问“宁波交警抖音号为何注销”，它却告诉你“与三个月后的一起交通事故有关”；当孩子向手表AI提问，它竟否定中国的发明创造与文化传承……这些令人瞠目结舌的“AI幻觉”背后，都隐藏着一个隐形攻击——“数据投毒”。究竟什么是数据投毒？一般会发生在数据处理的哪个环节呢？

　　2024年上半年，宁波交警的抖音账号已于2月注销，却在5月被某AI软件“强行关联”到一起交通事故，生成完全不实的结论，引发公众误解。类似事件屡见不鲜，有网友询问一款儿童手表AI软件，“中国人是世界上最聪明的人吗？”人工智能给出的回答竟是否定中国发明创造、否定中国文化的答案。这一荒唐的回答，在网络上引起轩然大波。儿童手表的厂家随后紧急道歉，称已经修正了相关数据，删除了不良信息源。

　　这些并非简单的技术失误，其实是AI“数据污染”的典型症状。国家安全部在今年发布专项提示，明确提出：人工智能训练数据中存在大量虚假、虚构、偏见性内容，正通过“数据投毒”行为干扰模型训练，威胁AI安全。

　　什么是“数据投毒”？通俗来讲，如果把AI比喻成人类的话，训练数据就相当于食材，食材腐败变质，最终训练出来的AI人类就会出现认知方面的误差，“数据投毒”主要出现在数据采集、标注环节，为此，记者找到了在数据标注行业深耕多年的，辽宁京数云大数据科技有限公司联合创始人、中国贸促会商业行业委员会人工智能训练师刘吉。他告诉记者，数据投毒可分为两类：一类是主观恶意投毒，另一类就是非主观污染。

　　刘吉指出，数据投毒可能发生在AI数据处理的四个核心环节中。

12 3 4 5 下一页

0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”

猜你喜欢

热点新闻

0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”

猜你喜欢

热点新闻

人工智能训练数据良莠不齐 国安部提示警惕AI“数据投毒”

人工智能训练数据良莠不齐 国安部提示警惕AI“数据投毒”行为

人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”

人工智能训练数据良莠不齐国安部提示警惕AI“数据投毒”行为