问题:从“会生成”到“能发现”,科学研究呼唤系统级支撑 近一段时期,智能技术发展迅速,但支撑重大科学问题上仍有明显瓶颈:一是算力资源分散,异构平台之间调度成本高;二是高质量科学数据供给不足,标准不统一、更新不及时,模型训练与评测缺少稳定“底座”;三是模型推演与实验验证衔接不紧,导致从提出假设到获得可重复结果的周期偏长。如何把算法能力转化为面向科学突破的持续产出,正成为各国科研竞争的关键议题。 原因:科研链条长、要素多,传统模式难以适配新范式 科学发现往往跨学科、跨尺度、跨平台,既需要大规模计算,也依赖长期积累的领域数据和严格的实验流程。以往不少团队按课题分散推进:算力申请、数据清洗、工具搭建、实验排期等环节彼此割裂,容易形成“信息孤岛”和“能力孤岛”。同时,通用模型复杂数理推理、专业知识表达与可验证性上仍有短板,继续加剧了“模型—数据—实验”之间的脱节。 影响:打通要素壁垒,有望缩短科研周期并提升协同效率 鉴于此,上海人工智能实验室在第二届浦江AI学术年会上发布“AGI4S珠穆朗玛计划”,提出以“设施层—模型层—服务层—场景层”的全栈体系重构科研流程。其重点不在单点能力升级,而是以系统工程把算力、数据与实验端贯通,推动科研从“局部优化”转向“全流程提速”。 算力端,计划以DeepLink超智融合算力平台为枢纽,探索“算力一张图”的统一调度:联通多类算力资源,降低跨平台迁移与运维负担,提升高复杂度仿真与训练任务的稳定性和可用性。 数据端,实验室提出建设超大规模科学智能数据库Sciverse,规划容量达100PB级,目标是形成覆盖广、持续更新、可直接服务的科学数据底座。目前依托智能文档解析引擎MinerU等工具,已开放海量公开文献数据并沉淀大规模词元资源,同时强调以接口化方式对外提供能力,缓解科学模型训练中“缺高质量数据、缺持续供给”的问题。 实验端,计划推动自主实验平台与具身智能能力结合,缩短“设计—合成—测试”的链路周期。对应的机器人系统已在合成科学等场景探索非标准化实验操作,意在更快形成“推演—验证”的闭环,提高科研结果的可证实性与可复现性。 对策:以“通专融合”大模型与平台化工具,形成可复用的科学创新底座 在模型与工具层面,上海人工智能实验室提出“通专融合”的SAGE技术架构,并发布科学多模态大模型Intern-S1-Pro,聚焦复杂数理逻辑推理等关键能力,以支撑更高难度的科学问题求解。,一站式科学发现平台面向科研人员提供专业智能体、领域工具与数据集的聚合式调用,并探索对接多类实验设备,力图将数据处理、流程编排、实验管理等基础工作标准化、产品化,降低跨学科研究门槛,提升协作效率与迭代速度。 为增强长期供给能力,会议期间还提出多项共建机制:在算力侧推动普惠与互联互通;在数据侧联合多家科学数据机构协同治理,打通跨学科壁垒;在应用侧以场景牵引促进产学研协作,形成可复制、可推广的科学智能实践路径。 前景:从单点突破走向体系竞争,开放协作与规范治理将成关键 业内认为,科学智能进入深水区后,竞争焦点将从“模型参数与演示效果”转向“数据质量、实验闭环与工程化体系能力”。“珠穆朗玛计划”将科研所需关键要素进行平台化集成,有望在材料、生命科学、合成化学等方向加速产出可验证成果。但也需要看到,科学数据治理、实验安全与可靠性评估,以及跨机构协作中的知识产权与标准体系建设,仍是必须同步推进的基础工作。面向未来,谁能率先建立开放共建、可持续迭代、可审计可验证的科学智能基础设施,谁就更可能在重大科学问题上占得先机。
科学探索如同攀登高峰,决定成败的往往不是单一装备,而是路线规划、补给体系与协同能力的整体水平。以算力、数据、模型、工具与实验验证构成的闭环体系为支撑,科学智能有望从“辅助科研”走向“促进发现”。随着共建机制健全、数据与实验标准持续强化、开放合作推进,这类面向重大科学问题的系统性工程,或将成为提升原创突破能力的重要抓手。