我国推出"智衡"人工智能测评平台 助力构建产业高质量发展新体系

人工智能加速走向产业应用的背景下,“如何量化评估、如何对比验证、如何长期稳定运行”成为智能产品规模化落地的关键。市场监管总局、国家发改委近日联合发布《人工智能计量体系和能力建设指引(2026版)》,提出以计量能力建设提升技术可测性,推动《国务院关于深入实施“人工智能+”行动的意见》《计量发展规划(2021—2035年)》落地,旨在为产业高质量发展提供可验证、可追溯、可复现的基础支撑。 现实中,智能产品迭代快、场景多样,评测常遇到指标口径不统一、数据来源差异大、结果解释链条不完整等问题:一上,“能不能用”需要对功能与性能做客观验证;另一方面,“好不好用”取决于鲁棒性、稳定性和泛化能力;更重要的是,“管不管用”还要经受安全性与可信度检验。缺少统一的“基准尺”,研发、采购、验收、运维等环节难以形成一致判断,应用风险也更容易链条末端集中暴露。 这些问题背后,既有技术复杂度上升带来的测评难度,也与标准化、计量化基础能力不足有关。随着深度学习、大模型、智能体等路线并行发展,算法表现与数据分布高度对应的,场景变化可能引发性能波动;同时,测评不仅要给出结果,还要回答“结果从何而来、误差有多大、问题在哪里”。这需要引入测试充分性分析、测量不确定度评定、缺陷定位溯因等计量方法,让结论更可解释、更可比。 围绕上述需求,北京航天计量测试技术研究所依托国家市场监督管理总局重点实验室(人工智能计量测试与标准)以及中国计量测试学会感知与认知计量专业委员会,推出“智衡”人工智能测评平台,目标是以标准化手段构建衡量人工智能水平的“基准尺”,推动测评能力从“能测”提升到“测得全、测得准、测得稳、测得广”。 从具体落地看,该平台着力贯通“指标—方法—数据—对象”四个关键环节:其一,面向功能性能、鲁棒性、安全性等方向建立10大类150余项指标体系,衔接GB/T 45225、GB/T 42888等相关标准要求,实现从功能表现到安全可信的全维度覆盖,提高一站式测评效率。其二,强化计量保障能力,集成测试充分性计量、测量不确定度评定、模型缺陷定位等技术,对测评过程、数据、结果与溯因开展全链路分析,提升数据可靠性和结论可信度。其三,完善数据底座,汇聚图像(可见光、红外、雷达)、视频、文本、音频等多模态数据,覆盖海陆空天多场景,并具备仿真生成、样本增广、质量评价等数据全流程管理能力,为跨场景对比验证提供基础。其四,增强对象适配能力,提供灵活接入方式,支持目标识别、态势理解、文本分析、决策规划等多类功能测试,适配不同技术路线与应用形态,更好满足行业多样化测评需求。 在推进路径上,计量体系建设需要“标准牵引、平台承载、应用验证、持续迭代”协同发力。业内人士认为,一上应以国家指引为统领,加快形成覆盖关键指标、数据规范与测试方法的标准体系,促进跨机构、跨行业结果互认;另一方面要通过第三方能力建设与示范应用,将测评嵌入产品全生命周期管理,推动研发端“按尺子改进”、应用端“按尺子选型”、监管端“按尺子核验”。据介绍,“智衡”平台相关技术方法、数据集与工具模块等成果已入选国家首批计量支撑产业新质生产力发展十大重点项目,并获得CNAS、CMA、DIAC等能力认可,累计开展近200次测评服务,为多项重大工程建设提供系统级方案。 展望未来,随着《指引(2026版)》持续推进,人工智能计量将从“单点评测”走向“体系化度量”,从“结果给分”走向“过程可追溯、结论可解释、风险可预警”。业内预计,在重点行业加快数字化、智能化转型过程中,面向复杂场景的统一测评与计量支撑将成为提升产品可靠性、降低应用风险、促进供需高效对接的重要基础设施,并继续带动标准、数据与测试工具的生态化发展。

对人工智能产品的性能与可信度进行衡量和评价,是产业健康发展的基础;“智衡”平台的推出,反映了我国在人工智能计量体系建设上的新进展。由国家层面推动、对标国际先进水平的测评体系,为智能产品可靠运行提供了“基准尺”,也为行业规范化发展提供了可参照的标准。随着平台在更多领域落地应用,有望深入提升我国人工智能产业竞争力,为经济社会高质量发展提供支撑。