软银推出AI数据中心操作系统 加速GPU云服务智能化运维

当前,生成式模型训练与推理需求快速攀升,叠加机器人、工业仿真、药物研发、新材料计算等新兴场景的扩展,算力使用从“单一任务、固定集群”走向“多场景并行、弹性伸缩、跨地域协同”。

在这一趋势下,GPU作为核心加速资源愈发紧缺,如何把昂贵的算力以更高效率、更可控成本对外提供服务,成为AI数据中心与云服务运营方面临的共同课题。

问题在于,GPU云并非简单的服务器堆叠。

大规模集群通常涉及硬件型号多样、网络与存储架构复杂、驱动与系统栈更新频繁、容器平台与调度策略难以统一等现实挑战。

尤其在多租户场景中,既要提升资源利用率,又要确保租户间安全隔离、计费准确与故障可追溯;一旦运维与调度体系跟不上,容易出现部署周期拉长、人工运维成本上升、资源碎片化加剧以及稳定性波动等问题,进而影响算力供给的可持续性。

造成上述问题的原因,一是AI算力需求增长速度快于基础设施标准化进程。

以高端GPU平台为例,从BIOS、RAID、操作系统、驱动、网络到容器编排与存储,每一层都有版本依赖与兼容性要求,任何环节变更都可能触发连锁风险。

二是大模型训练对跨节点互联、带宽与时延高度敏感,GPU间通信拓扑、NVLink域划分、跨节点内存配置等因素直接影响训练效率,传统“静态布线+固定分配”难以适配频繁变化的业务。

三是多租户商业化运营对安全、审计、计费、门户和客户管理系统提出系统性要求,仅靠零散工具拼接难以形成稳定产品能力。

在此背景下,软银发布“Infrinia AI Cloud OS”,意在以平台化方式降低GPU云服务从建设到运营的门槛。

按其披露的信息,该平台提供完整的Kubernetes即服务能力,可在包括英伟达GB200 NVL72在内的GPU平台上,对从底层固件到驱动、网络,再到Kubernetes控制器与存储等关键环节实施自动化管理,从而减少人工配置与重复运维带来的成本与风险。

对于运营方而言,这类“一站式技术栈管理”有望缩短集群交付周期,提高标准化水平,提升规模化扩容效率。

更具针对性的是,平台强调基于软件定义的动态物理互联与内存重构能力:当用户创建、更新或删除集群时,可按需实时调整连接方式和跨节点内存配置,并依据GPU拓扑结构与NVLink域进行节点分配,以降低延迟、提升带宽利用率,匹配大规模分布式训练等任务对通信效率的要求。

若该能力在实际部署中表现稳定,将有助于缓解资源碎片化问题,提高高端GPU集群的有效算力产出,进而改善单位算力成本。

安全与可运维性方面,平台提出通过加密的集群通信与隔离机制实现租户级防护,并对监控、故障切换等运维工作进行自动化,支持API接口对接数据中心门户、客户管理与计费系统。

这意味着其定位不仅是技术工具,也面向“可商业化交付的算力服务产品”补齐运营链条。

对于希望向外部客户提供GPU云服务的数据中心而言,平台化能力有助于在服务一致性、故障响应、合规审计与成本核算方面形成闭环,降低从“建机房”到“提供云服务”的转型成本。

从影响看,若类似平台在更多数据中心落地,将推动GPU云服务从工程化定制走向标准化交付,带动海外数据中心在运维体系、资源调度与安全隔离等方面加速升级。

对行业而言,这将强化算力供给侧的“运营能力竞争”,不再仅以硬件规模取胜,而更看重软件平台的交付效率、资源利用率、稳定性与安全能力。

对客户侧而言,具备弹性调度和多租户保障的GPU云服务,可能降低企业与科研机构的算力获取门槛,使中小团队也能以更可控成本使用先进GPU资源,加速模型研发迭代。

对策层面,软银表示该平台将率先部署在其自有GPU云服务中,并计划推广至海外数据中心和云环境。

业内普遍认为,平台能力能否形成持续竞争力,关键在于三点:其一,自动化管理对异构硬件与多版本软件栈的兼容性是否足够强;其二,动态互联与内存重构等能力在高负载、频繁变更下的稳定性与可观测性是否成熟;其三,与计费、客户管理、门户系统的对接是否能够支持多样化的商业模式与合规要求。

只有在规模化运营中经受住稳定性与成本的双重检验,平台化价值才会真正显现。

前景方面,随着大模型应用进入“训练—推理—智能体”并行发展的新阶段,算力需求将呈现长周期增长,同时对低时延互联、能效与管理自动化的要求将持续提高。

面向AI数据中心的软件平台有望成为未来算力基础设施的关键“操作系统层”,在降低运维成本、提升资源利用率、保障多租户安全方面发挥更大作用。

预计相关竞争将围绕“更高效的资源调度、更强的安全隔离、更快速的交付能力”展开,推动全球算力产业链从硬件升级走向“软硬协同、以软件驱动效率”的新阶段。

在数字经济时代,算力已成为衡量国家竞争力的重要指标。

软银此次技术创新,不仅体现了科技企业在基础设施领域的探索精神,更折射出全球产业界对高效、安全算力体系的迫切需求。

未来,随着更多企业加入这一赛道,如何平衡技术创新与可持续发展,将成为行业需要共同思考的命题。