中国信息通信研究院发布"方升"大模型基准测试体系3.0版本 构建科学权威的人工智能评测生态

当前,人工智能正加快融入政务服务、工业制造、教育科研等领域,模型能力迭代迅速、应用场景持续扩展;,如何建立可比、可追溯、可解释的评测体系,成为行业从“能用”走向“好用、放心用”的关键议题。2月3日,中国信息通信研究院“方升”智测研讨会京召开,以“人工智能评测体系的技术创新与产业实践”为主线,围绕基准测试体系建设与生态协同路径展开研讨,推动形成更科学、系统、可信的评测生态。问题在于:一上,大模型能力维度更为复杂,涵盖语言理解、推理、代码、多模态交互以及面向行业任务的综合表现;另一方面,应用落地对安全、合规、可靠性提出更高要求。若缺少统一的测试口径与公开透明的评估方法,容易出现“指标口径不一、结果难以复现、选型缺少依据”等情况,不仅抬高企业成本,也可能带来数据安全、输出可信度等风险。同时,国际竞争加剧,权威基准体系既是技术能力的“度量衡”,也是产业治理与规则构建的重要支点。原因于:其一,技术快速演进使评测指标容易落后,传统静态题库难以覆盖新能力与新风险;其二,行业应用差异大,同一模型在不同场景的效果分化明显,缺少分层分域的评测框架就难以准确刻画;其三,数据、算力、工程化与合规要求交织,评测不应止于“跑分”,还需覆盖数据质量、鲁棒性、安全对齐、可控性等要素;其四,产业链协同不足时,评测数据集、工具链和测试流程难以沉淀为可复用标准,影响规模化推广。针对上述挑战,会议传递出清晰方向:以统一、权威的基准体系牵引创新、规范应用。与会致辞指出,构建科学权威的基准测试体系,有助于形成可对标、可迭代的能力画像,为技术路线选择、产品选型和监管决策提供支撑。中国信息通信研究院介绍,在主管部门指导下,“方升”大模型基准测试体系已完成多轮升级,形成覆盖基础属性、通用能力、行业应用与面向未来智能等维度的框架,并持续向有关上报送测试观察,为研判产业态势提供参考。影响层面,统一评测体系的价值主要体现三上:一是为研发提供“指挥棒”。通过可复现的指标与数据集,更准确定位模型短板,促进算法、数据与工程协同优化,减少无效迭代。二是为应用提供“准入尺”。尤其政务、金融、医疗等对可靠性要求更高的领域,评测可与安全合规要求衔接,形成可落地的选型依据与风险控制路径。三是为生态提供“公共品”。评测体系越开放、越可复用,产业链协同成本越低,越有利于形成从基础能力到行业能力的全链条服务,提升整体竞争力。对策上,会议强调以“分层分类、动态更新、场景牵引、协同共建”为路径完善评测能力。一上,推动评测框架从单一能力走向全维度覆盖,既测基础能力,也测任务能力、行业能力和面向未来的高级智能特征;既关注平均水平,也重视稳定性、鲁棒性与安全边界。另一方面,推动测试数据动态更新,避免“背题式”优化,提高评测对真实应用的代表性。研讨期间,多位来自高校与科研机构的专家围绕智能体、智能化软件、多模态模型、世界模型与具身智能等方向作专题分享,表明评测体系需要紧跟技术前沿持续扩容与升级,以覆盖新的能力形态与潜风险。值得关注的是,面向重点行业的基准与数据集建设正在提速。会上介绍了政务大模型基准测试能力体系建设进展,通过联合多方构建评测数据集,推动政务场景模型在安全、合规和可控条件下落地应用。与此同时,教育等垂直领域的评测能力探索也在推进,强调以业务需求为牵引进行架构与指标设计,体现出评测正从通用能力比较转向更强调“可用性、可管控、可持续运营”的行业化评估。前景判断上,随着大模型从“规模驱动”转向“能力与治理并重”,评测体系将从技术工具升级为产业基础设施:一是基准测试将更强调多维度综合评价,覆盖推理、代码、多模态、工具使用、智能体协作等能力;二是评测与安全治理将更紧密结合,形成覆盖开发、部署到运维的全生命周期评估;三是“场景化+标准化”将并行推进,通过行业数据集、测试平台与评价标准协同,提升应用交付效率;四是国际对标压力将推动我国评测方法、数据集建设与标准规则上持续发声,增强产业话语权与规则参与度。

人工智能评测体系建设是一项系统工程——需要政府引导、市场主导——并汇聚各方力量共同参与。“方升”标准的推出不仅补齐了国内对应的体系建设的短板,也为全球AI治理提供了中国方案。面向新一轮科技革命和产业变革,建立健全评价机制将成为提升治理能力、把握发展主动权的重要支撑。(全文约1200字)