我国首套中国画AI审美评估系统将开放公众可参与"阅卷"检验智能水平

问题—— 随着大语言模型在内容生成、文化传播等领域加快应用，如何判断其对中国传统艺术的理解深度与表达准确性，成为学界与产业界共同关注的现实课题。

尤其在中国画领域，审美评价不仅涉及图像识读，更牵连历史语境、文化象征与艺术观念。

北京大学近日发布“智镜”平台建设进展，提出以“中国画考试系统”对模型进行审美能力测评：模型作答、人类专家阅卷，并计划引入公众参与，从而更客观呈现模型的中式审美水平与不足。

原因—— 业内普遍使用的模型评测体系多源自通用能力考核或西方美学框架，强调形式分析、风格归类等可量化指标，对中国传统绘画强调的“意境”“气韵”“神采”等核心范畴缺少系统化转换路径。

中国古代艺术体系成熟，涉及画史脉络、文人传统、题跋诗文、宗教与礼制图像等多维知识结构，单靠通用语料训练容易出现“看似合理、实则失据”的解读。

北大艺术学院教授李洋指出，理解中国画往往需要长期积累与审美训练，这一特性使得“能不能看懂、看得准不准”难以仅凭模型自述或简单问答判断，亟需建立可复核、可对比的评估机制。

影响—— “智镜”平台的探索，意在把传统美学概念转化为可操作的评价指标，为模型能力边界提供“可见的刻度”。

据介绍，该系统已收录超过1.8万张中国古代书画图像，并为每件作品补充创作背景、风格流派、文化寓意与评论文献等信息，形成“试题”与知识支撑库。

专家进入系统后，可查看模型对作品的解读与分析，再从作品信息准确性、构图理解、笔墨技法辨析、意境阐释等维度给出评判，同时标注典型错误类型，如审美范式套用不当、画史背景张冠李戴、文化常识误读等。

这种“以评促改”的方式，一方面有助于推动模型在文化内容生产中的可靠性建设，另一方面也为数字文化治理、教育应用与文博传播提供更可参考的质量标准。

对策—— 从方法论看，平台采取“专家评审为主、公众参与为辅”的分层机制，既保证专业判断的严谨性，又通过公众阅卷扩大样本与反馈广度，形成更具代表性的评价数据。

下一步关键在于：其一，完善评价指标的可解释性与一致性，避免单一风格偏好影响结论；其二，建立可追溯的错误类型库与纠偏流程，将问题从“结果描述”推进到“原因定位”；其三，推动评测标准与训练优化形成闭环，使模型在吸收传统艺术知识时更重语境与证据链，减少凭空臆断式表达；其四，在开放公众参与时，加强引导与质量控制，通过分级题目、示例标注、共识校验等方式提升评分有效性，防止“热度化”评价稀释专业标准。

前景—— 平台计划于今年5月向社会公众开放参与阅卷，这意味着中国传统艺术评价有望在更大范围内与数字技术形成互动。

业内人士认为，此类评测体系若能持续迭代，有望扩展至书法、诗词、器物与建筑等更广阔的传统美学领域，并为文化内容生产、博物馆数字化讲解、艺术教育辅助等应用提供更可靠的能力基线。

与此同时，随着全球范围内模型竞争加剧，围绕本土文化语境建立评测标准，也将成为推动技术发展与文化表达相互促进的重要抓手。

让机器读懂中国画,不仅是技术命题,更是文化课题。

智镜平台的建设实践揭示出一个重要趋势:人工智能的发展需要扎根于本土文化土壤,才能真正服务于人类文明的多元发展。

当传统美学遇见现代算法,当专家智慧融入评估体系,技术进步与文化传承找到了新的交汇点。

这不仅为人工智能注入了中国审美的基因,也为世界展示了中华文化在数字时代的创新活力。

我国首套中国画AI审美评估系统将开放 公众可参与"阅卷"检验智能水平

我国首套中国画AI审美评估系统将开放公众可参与"阅卷"检验智能水平