中国信息通信研究院发布"方升"大模型基准测试体系3.0版本构建科学权威的人工智能评测生态

当前，人工智能正加快融入政务服务、工业制造、教育科研等领域，模型能力迭代迅速、应用场景持续扩展；，如何建立可比、可追溯、可解释的评测体系，成为行业从“能用”走向“好用、放心用”的关键议题。2月3日，中国信息通信研究院“方升”智测研讨会京召开，以“人工智能评测体系的技术创新与产业实践”为主线，围绕基准测试体系建设与生态协同路径展开研讨，推动形成更科学、系统、可信的评测生态。问题在于：一上，大模型能力维度更为复杂，涵盖语言理解、推理、代码、多模态交互以及面向行业任务的综合表现；另一方面，应用落地对安全、合规、可靠性提出更高要求。若缺少统一的测试口径与公开透明的评估方法，容易出现“指标口径不一、结果难以复现、选型缺少依据”等情况，不仅抬高企业成本，也可能带来数据安全、输出可信度等风险。同时，国际竞争加剧，权威基准体系既是技术能力的“度量衡”，也是产业治理与规则构建的重要支点。原因于：其一，技术快速演进使评测指标容易落后，传统静态题库难以覆盖新能力与新风险；其二，行业应用差异大，同一模型在不同场景的效果分化明显，缺少分层分域的评测框架就难以准确刻画；其三，数据、算力、工程化与合规要求交织，评测不应止于“跑分”，还需覆盖数据质量、鲁棒性、安全对齐、可控性等要素；其四，产业链协同不足时，评测数据集、工具链和测试流程难以沉淀为可复用标准，影响规模化推广。针对上述挑战，会议传递出清晰方向：以统一、权威的基准体系牵引创新、规范应用。与会致辞指出，构建科学权威的基准测试体系，有助于形成可对标、可迭代的能力画像，为技术路线选择、产品选型和监管决策提供支撑。中国信息通信研究院介绍，在主管部门指导下，“方升”大模型基准测试体系已完成多轮升级，形成覆盖基础属性、通用能力、行业应用与面向未来智能等维度的框架，并持续向有关上报送测试观察，为研判产业态势提供参考。影响层面，统一评测体系的价值主要体现三上：一是为研发提供“指挥棒”。通过可复现的指标与数据集，更准确定位模型短板，促进算法、数据与工程协同优化，减少无效迭代。二是为应用提供“准入尺”。尤其政务、金融、医疗等对可靠性要求更高的领域，评测可与安全合规要求衔接，形成可落地的选型依据与风险控制路径。三是为生态提供“公共品”。评测体系越开放、越可复用，产业链协同成本越低，越有利于形成从基础能力到行业能力的全链条服务，提升整体竞争力。对策上，会议强调以“分层分类、动态更新、场景牵引、协同共建”为路径完善评测能力。一上，推动评测框架从单一能力走向全维度覆盖，既测基础能力，也测任务能力、行业能力和面向未来的高级智能特征；既关注平均水平，也重视稳定性、鲁棒性与安全边界。另一方面，推动测试数据动态更新，避免“背题式”优化，提高评测对真实应用的代表性。研讨期间，多位来自高校与科研机构的专家围绕智能体、智能化软件、多模态模型、世界模型与具身智能等方向作专题分享，表明评测体系需要紧跟技术前沿持续扩容与升级，以覆盖新的能力形态与潜风险。值得关注的是，面向重点行业的基准与数据集建设正在提速。会上介绍了政务大模型基准测试能力体系建设进展，通过联合多方构建评测数据集，推动政务场景模型在安全、合规和可控条件下落地应用。与此同时，教育等垂直领域的评测能力探索也在推进，强调以业务需求为牵引进行架构与指标设计，体现出评测正从通用能力比较转向更强调“可用性、可管控、可持续运营”的行业化评估。前景判断上，随着大模型从“规模驱动”转向“能力与治理并重”，评测体系将从技术工具升级为产业基础设施：一是基准测试将更强调多维度综合评价，覆盖推理、代码、多模态、工具使用、智能体协作等能力；二是评测与安全治理将更紧密结合，形成覆盖开发、部署到运维的全生命周期评估；三是“场景化+标准化”将并行推进，通过行业数据集、测试平台与评价标准协同，提升应用交付效率；四是国际对标压力将推动我国评测方法、数据集建设与标准规则上持续发声，增强产业话语权与规则参与度。

人工智能评测体系建设是一项系统工程——需要政府引导、市场主导——并汇聚各方力量共同参与。“方升”标准的推出不仅补齐了国内对应的体系建设的短板，也为全球AI治理提供了中国方案。面向新一轮科技革命和产业变革，建立健全评价机制将成为提升治理能力、把握发展主动权的重要支撑。（全文约1200字）

中国信息通信研究院发布"方升"大模型基准测试体系3.0版本 构建科学权威的人工智能评测生态

中国信息通信研究院发布"方升"大模型基准测试体系3.0版本构建科学权威的人工智能评测生态