中国首个传统书画智能评测平台将开放公众可参与评估人工智能审美能力

围绕“机器是否能够理解中国画”这一带有公共关切与学术难度的问题，北京大学近日公布“智镜”大语言模型审美评估平台的新阶段进展：研究团队以“考试”方式对大模型进行系统测评，让模型对中国古代书画作品进行解读，再由专业人士依据统一标准进行评判，力图以可量化、可对照的方式呈现其“中式审美”能力的真实水平。

问题：中式审美如何被准确识别与评价中国画讲求以形写神、气韵生动，重在“意境”“神采”“格调”等难以直接用单一指标衡量的要素。

对普通观众而言，看懂一幅作品往往需要长期的审美训练与文化积累；对大模型而言，难点在于如何将作品所承载的历史语境、题材典故、笔墨语言与审美范式进行综合理解。

北京大学艺术学院教授李洋指出，审美能力并非一蹴而就，传统艺术的理解更依赖系统性的文化训练。

由此，“能否看懂中国画”不仅是技术问题，也是评价体系与知识结构的问题。

原因：既有评测框架偏“通用”，缺少面向中国艺术的标准化工具团队在对全球主流大语言模型评测体系进行调研后认为，现行许多评测更多建立在通用语义理解或以西方美学传统为主的框架上。

中国古代艺术体系成熟而复杂，从山水、人物到花鸟，从文人画传统到宫廷绘画体系，均有自身的概念体系与评价维度，但长期缺少一套能够对模型表现进行系统评估的工具与标准。

这导致一个现实困境：模型即便在通用能力上表现良好，也可能在中国古代艺术理解上出现“看似合理、实则失准”的偏差，难以被精准发现与纠正。

影响：为模型本土化优化提供“可诊断”的抓手，也提升公众文化参与度为回应上述缺口，北京大学艺术学院联合计算艺术实验室于2025年3月启动“智镜”平台建设，其名称寓意“照镜子”——通过评测让模型暴露不足、明确改进方向。

据介绍，目前平台上的“中国画考试系统”已纳入超过1.8万张中国古代书画图像，每件作品配有创作背景、风格流派、文化寓意及评论文献等信息，形成结构化“试题”数据库。

专家进入系统后，可查看模型对作品的解读，并从作品信息准确性、构图分析、笔墨技法、意境阐释等维度进行评分与评语，进一步归纳模型在审美范式、历史背景、文化常识等方面的典型错误。

这一做法的意义在于，将传统美学中的关键概念通过专业评审转化为更可操作的评估维度，使“审美能力”不再停留于抽象讨论，而是形成可比对的证据链。

同时，平台计划于今年5月开放社会公众参与阅卷，有望在专业评审之外引入更广泛的审美感受与理解差异，促成公众对传统艺术的再认识，也为评测体系积累更丰富的反馈样本。

对策：以专业评审为“主轴”，构建可迭代的评测与纠偏机制从方法上看，“考试+阅卷”的路径强调两点：一是以作品与文献构成的高质量题库，减少评测的随意性；二是以专家评审保障标准的专业性与一致性，避免仅凭主观好恶“打分”。

在此基础上，评测不仅要给出分数，更要形成“可解释”的错误类型与改进建议，例如：对题跋、题材典故理解不足，对时代风格与流派特征混淆，对笔墨语言的描述停留于概念堆砌等。

通过持续积累案例与反馈，平台可以成为模型本土化优化的“诊断台账”，让调整从经验试错转向有据可依的定向改进。

前景：从评测工具走向文化传播与技术治理的交汇点随着多模态内容生成与文化应用场景日益丰富，模型对传统艺术的理解能力将影响公共文化服务、数字文博、艺术教育等多个领域。

面向中国古代书画建立系统评测，既可推动相关技术在文化语境中的适配，也有助于形成更符合本土知识体系的评价范式。

业内人士认为，未来若能在数据标注规范、评审一致性、公众参与机制、版权与文献引用规则等方面进一步完善，并持续扩展到书法、碑帖、器物与建筑等更广泛的传统艺术门类，有望形成可复制、可推广的评测体系，为文化与科技融合提供更稳固的基础设施。

"智镜"平台的推出，标志着我国在人工智能与传统文化融合领域迈出了重要一步。

这一创新举措不仅为人工智能的本土化调优提供了科学依据，更重要的是，它体现了在全球科技竞争中，如何坚守文化自信、推动文明互鉴的深刻思考。

随着平台的逐步完善和推广，相信将有更多的人工智能模型通过这一"考试系统"的检验，在理解和传承中华优秀传统文化的道路上取得更大进步。

这也启示我们，科技发展与文化传承并非对立，而是可以相互促进、相互成就的。

中国首个传统书画智能评测平台将开放 公众可参与评估人工智能审美能力