问题—— 随着大语言模型在内容生成、文化传播等领域加快应用,如何判断其对中国传统艺术的理解深度与表达准确性,成为学界与产业界共同关注的现实课题。
尤其在中国画领域,审美评价不仅涉及图像识读,更牵连历史语境、文化象征与艺术观念。
北京大学近日发布“智镜”平台建设进展,提出以“中国画考试系统”对模型进行审美能力测评:模型作答、人类专家阅卷,并计划引入公众参与,从而更客观呈现模型的中式审美水平与不足。
原因—— 业内普遍使用的模型评测体系多源自通用能力考核或西方美学框架,强调形式分析、风格归类等可量化指标,对中国传统绘画强调的“意境”“气韵”“神采”等核心范畴缺少系统化转换路径。
中国古代艺术体系成熟,涉及画史脉络、文人传统、题跋诗文、宗教与礼制图像等多维知识结构,单靠通用语料训练容易出现“看似合理、实则失据”的解读。
北大艺术学院教授李洋指出,理解中国画往往需要长期积累与审美训练,这一特性使得“能不能看懂、看得准不准”难以仅凭模型自述或简单问答判断,亟需建立可复核、可对比的评估机制。
影响—— “智镜”平台的探索,意在把传统美学概念转化为可操作的评价指标,为模型能力边界提供“可见的刻度”。
据介绍,该系统已收录超过1.8万张中国古代书画图像,并为每件作品补充创作背景、风格流派、文化寓意与评论文献等信息,形成“试题”与知识支撑库。
专家进入系统后,可查看模型对作品的解读与分析,再从作品信息准确性、构图理解、笔墨技法辨析、意境阐释等维度给出评判,同时标注典型错误类型,如审美范式套用不当、画史背景张冠李戴、文化常识误读等。
这种“以评促改”的方式,一方面有助于推动模型在文化内容生产中的可靠性建设,另一方面也为数字文化治理、教育应用与文博传播提供更可参考的质量标准。
对策—— 从方法论看,平台采取“专家评审为主、公众参与为辅”的分层机制,既保证专业判断的严谨性,又通过公众阅卷扩大样本与反馈广度,形成更具代表性的评价数据。
下一步关键在于:其一,完善评价指标的可解释性与一致性,避免单一风格偏好影响结论;其二,建立可追溯的错误类型库与纠偏流程,将问题从“结果描述”推进到“原因定位”;其三,推动评测标准与训练优化形成闭环,使模型在吸收传统艺术知识时更重语境与证据链,减少凭空臆断式表达;其四,在开放公众参与时,加强引导与质量控制,通过分级题目、示例标注、共识校验等方式提升评分有效性,防止“热度化”评价稀释专业标准。
前景—— 平台计划于今年5月向社会公众开放参与阅卷,这意味着中国传统艺术评价有望在更大范围内与数字技术形成互动。
业内人士认为,此类评测体系若能持续迭代,有望扩展至书法、诗词、器物与建筑等更广阔的传统美学领域,并为文化内容生产、博物馆数字化讲解、艺术教育辅助等应用提供更可靠的能力基线。
与此同时,随着全球范围内模型竞争加剧,围绕本土文化语境建立评测标准,也将成为推动技术发展与文化表达相互促进的重要抓手。
让机器读懂中国画,不仅是技术命题,更是文化课题。
智镜平台的建设实践揭示出一个重要趋势:人工智能的发展需要扎根于本土文化土壤,才能真正服务于人类文明的多元发展。
当传统美学遇见现代算法,当专家智慧融入评估体系,技术进步与文化传承找到了新的交汇点。
这不仅为人工智能注入了中国审美的基因,也为世界展示了中华文化在数字时代的创新活力。