北大牵头搞了个大项目，ai 到底懂不懂，之前都没有啥像样的标准来衡量。

北京大学最近发布了一个叫作SUPERChem的评估体系，主要就是想给人工智能在化学领域的能力定个标准。现在AI融入科研越来越深，大家都在想知道它到底在自然科学里能干到什么程度。特别是那些需要逻辑推理、空间想象和直觉的领域，AI到底懂不懂，之前都没有啥像样的标准来衡量。这次北大牵头搞了个大项目，就是想解决这个问题。北京大学化学与分子工程学院联合计算中心、计算机学院和元培学院的老师们组成了个跨学科团队，花了不少功夫才把SUPERChem给弄出来。这个体系最核心的是一个有500道难题库，题目的内容都是最前沿的化学问题，像晶体结构解析、反应机理推演这些。他们设计这些题可不是为了考记忆的，而是要看能不能深层次地推理和解决问题。做这个题库本身就是一项很严谨的科研工作。出题的老师里头还有化学奥赛金牌得主呢，大概有一百个北大的优秀师生一起参与。为了不让AI靠死记硬背答题，他们严格按照“原创”和“隔离”的原则来选题，保证题目不在AI平时训练的数据里头出现。题目形式都是选择题，还做了不少设计来防着模型通过模式匹配或者数据泄露直接拿到答案。更关键的是，他们搞了一套像学术期刊审稿那样的三阶段质量管控流程。每一道题都要先有初稿和解析说明，然后由不同的人来初审和终审。据项目主创赵泽华博士说，一道题从写出来到最后进库，平均得经过至少三个人的审核，有些题改了15次呢，就是为了保证科学性和有效性。拿这个高标准的标尺做了个测试，174名北京大学化学与分子工程学院的大二学生还有几款国际上最厉害的大语言模型在同一个平台上答题。结果很清楚：学生的平均准确率是40.3%，这说明题真的很难；而那些AI模型表现跟低年级本科生差不多。项目的另一位主创黄志贤博士分析说，这反映出大模型现在的局限。现在主流的大模型主要是用文本序列来训练的，在理解化学里那些二维结构式、三维空间构象这些“多模态”信息方面还不行。化学世界很立体也很复杂，一维的逻辑对它们来说是个大挑战。这个SUPERChem项目不仅仅是个“人机PK”，它的意义在于为评估AI在复杂科学领域的认知能力搭了个框架。这说明咱们国家在AI和基础学科交叉这块儿正在从跟着别人跑到自己制定标准了。团队明确说了不想展示AI的缺点，而是想通过精准诊断给全世界的AI研究圈指条明路。这体现了中国顶尖大学在科技变化中主动担责的精神。