从超算到智算,从硬件到软件——是石科技四年深耕算力"深水区",探索国产芯片适配与高性能计算融合新路径

问题——算力需求激增,“能用”与“好用”之间仍有落差 近一年来,开源大模型训练成本和推理性能上的进展,带动全球再次关注算力基础设施。讨论焦点常落在模型本身——但真正影响落地效果的——往往是算力供给与使用效率:一上,行业对算力的需求快速攀升;另一方面,国产加速卡、异构集群不同框架和任务下的适配与调优仍有不小门槛。“买得到算力”不等于“跑得稳、跑得快、跑得省”。在资源紧张、架构多样的现实条件下,如何把有限算力转化为可持续的训练与推理能力,成为算力服务进入“深水区”后绕不开的问题。 原因——瓶颈不只在芯片,更在系统级优化与生态衔接 业内普遍认为,算力瓶颈很难用单一硬件指标解释。 首先,大模型训练与推理涉及编译、通信、并行策略、内存和数据管线等多个环节,任何一处短板都可能放大整体效率损失。 其次,智算中心通常由CPU、加速卡、网络与存储组成异构系统,任务从科学计算到大模型训练差异很大。若缺少统一、高效的调度与优化手段,容易出现资源闲置、能耗上升。 再次,国产芯片生态仍在完善,软件栈、算子库与框架适配需要长期投入,单靠增加设备难以释放硬件潜力。 ,由国家超级计算无锡中心有关团队孵化的企业是石科技(METASTONE)近日宣布完成开源大模型在国产加速卡上的适配,引起行业关注。公司负责人介绍,团队早期参与国产“申威”架构的高性能计算移植工作,在实践中体会到从算法到系统的整体重构难度,因此形成了以并行优化为核心、以软硬件协同为抓手的技术路线。 影响——以效率撬动成本,打通大模型与产业应用的“计算通道” 算力效率直接影响大模型训练周期、推理成本与应用可达性。业内人士指出,在算力价格、能耗与供给约束同时存在的情况下,提高单位算力产出往往比单纯扩容更现实。 以算力服务为例,更高效的通信与并行策略可能显著缩短训练时间;更稳定的框架适配与任务调度可降低故障率和运维成本;更精细的资源分配也能为科研类“长尾”任务留出可用计算窗口,避免高端资源被少数任务长期占用。 在业务布局上,是石科技同时面向头部大模型客户与大量科研客户:一上提供国产加速卡适配与性能优化,支持大模型训练与推理;另一方面服务气象、航空航天、生物医药等依赖高性能计算的科研场景。受访人士认为,这种“超算与智算并行”的服务模式,有助于推动算力设施从单一供给走向平台化能力,让算力更接近“随取随用”的基础设施形态,并在更多行业沉淀可复制的应用路径。 对策——从“囤芯”转向“强平台”,让国产算力形成可持续竞争力 在“算力焦虑”最明显的阶段,一些市场主体倾向于用硬件快速扩张来应对需求。但实践显示,如果缺少软件栈优化与统一调度,硬件堆叠可能带来利用率偏低、能耗偏高、适配成本上升等问题。是石科技在2023年前后选择不盲目跟进硬件扩张,而是持续投入并行优化、异构调度与平台能力建设,希望用“软件+系统工程”提升整体效率。其判断是:当供需从极度紧张走向动态平衡,竞争更取决于谁能把算力用得更充分、服务更稳定、成本更可控。 业内专家建议,推动国产算力生态成熟需要多方协同: 其一,补齐从编译器、算子库到框架适配的全栈能力,降低迁移成本; 其二,建立更开放的接口与标准,促进不同硬件与平台互联互通; 其三,强化面向行业场景的工程化能力,把模型能力转化为可验证、可运维、可迭代的应用; 其四,加快工程人才培养,形成既懂芯片、又懂系统、也懂应用的复合型队伍。 前景——算力进入精细化运营阶段,“软硬协同”将成关键赛道 随着大模型应用从探索走向规模化,算力建设正从“拼规模”转向“拼效率、拼稳定、拼生态”。未来智算中心将更重视资源精细化管理与绿色低碳运行,国产芯片的竞争力也会越来越取决于系统级性能、软件生态与开发者体验。同时,科学计算与智能计算的融合趋势将持续增强,在气象预报、材料研发、生命科学等领域催生更多交叉创新场景,这既提高了对算力服务的要求,也带来更广阔的市场空间。

算力是数字经济的重要基础设施,其水平直接影响科技竞争力与产业升级能力;是石科技的探索为国产芯片的规模化应用提供了可操作的路径,也为算力产业从“有供给”走向“高效率、可运营”提供了参考。在全球竞争加剧与技术自主并行推进的背景下——更多类似的工程化创新——将成为中国算力产业持续进阶的重要支撑。