174名北大学生能否考过AI？结果很意外

2025-12-28 14:20 新华社

　　在这场精心设计的考试中，人类展现出了复杂的科学直觉。作为基线，参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身，就足以说明这套题目的硬核程度。

　　而AI的表现如何？

　　即便是接受测试的顶尖模型，其成绩也仅与低年级本科生的平均水平相当。

前沿模型在SUPERChem上的表现

前沿模型的正确率与RPF关系

　　让团队感到意外的是视觉信息带来的困惑。化学的语言是图形，分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言，当引入图像信息时，其准确率不升反降。这说明，当前的AI在将视觉信息转化为化学语义时，仍存在明显的感知瓶颈。

输入模态对不同模型的影响

　　然而，即使选对了答案，解题步骤也可能经不起推敲。因此，团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下，AI是真懂还是装懂，一目了然。

　　团队发现，AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备，但在处理需要严密逻辑和深刻理解的硬核化学问题时，仍显得力不从心。

推理断点所属化学能力分布

　　通向AGI的一小步

1 2 34 5 6 下一页