AI垃圾充斥论文库?科研人员称AI痕迹难以发现、部分领域有AI造假的可能
2025-01-22 16:53 第一财经
刘耀文表示,以往一些学术造假事件被发现,往往是因为论文出现低级错误,例如多篇文章使用同一张图、数据单位出错,又或是数据存在人为痕迹(如66.7是100的2/3,可能人为编造),而不是因为其他研究者尝试复现实验。其背后,学术界重视个人声誉,对学术权威一般不予质疑,复现实验也需要成本,生物医学领域复现实验的成本就非常高。即便复现实验,一些研究领域也存在很大变量空间,就像“9点取的样本和10点取的样本不同”,研究者可能很难确认无法复现实验的原因,特别是在一些起步比较晚、缺少公理的研究领域。
刘耀文表示,学术造假后果可以参考“心肌干细胞”论文造假事件。2018年,哈佛大学医学院教授、心肌再生领域开创者皮耶罗·安韦萨被发现有31篇学术论文造假,几乎使整个研究领域遭受毁灭性打击。
刘耀文担心的是,有了AI技术后,论文作者可能会用AI生成看上去更专业、更真实的数据,例如数据更加随机,数据造假更难被发现。如果用AI生成实验图,看上去也更真实,实验图造假可能导致实验结果出错。他认为,个人研究者很难辨别他人的论文是否造假,一个原因是很多学术论文库不开源,难以找到足够的论文比对判断。
2023年,查尔斯特大学教授Geoffrey M. Currie也在一篇论文中指出Al伪造的监测难点。他表示,“深度伪造”或带来图像虚构,比如生成对抗网络GAN可以去除噪点使医学图像更清晰,但也可能被用于生成高仿真的医学图像。此外,AI生成的文本可能会通过“扭曲短语(Tortured phrases)”的方式绕过抄袭软件的监测,AI可能会修改某些文本导致文本变味。
学术期刊如何规定AI技术使用?