国家数据战略加速落地 "数据工厂"破解AI发展瓶颈

当前,数据要素与人工智能的融合进入关键期;一方面,大模型技术快速演进,催生政务、医疗、金融、空天信息等领域的智能化需求;另一方面,数据供给与应用落地仍存明显断层,表现为"算力有余、数据不足""模型可用、场景不准"。如何让数据可生产、可治理、可流通、可复用,直接影响大模型在垂直行业的可持续迭代与规模化应用。 现实中,数据并未天然具备可训练、可交易、可复用的特性。许多行业的历史数据沉淀多年,却因格式不统一、口径不一致、标准缺失、权属不清等问题,难以直接用于模型训练。同时,行业应用对数据质量、可追溯性、安全合规提出更高要求,若数据治理停留在项目制层面,就难以支撑大模型持续迭代所需的稳定供给与反馈。 问题主要体现在三上:其一,数据生产长期依赖人工经验与临时流程,缺少可复制的工艺标准与质量检测体系,导致质量波动大、交付周期长;其二,数据、模型与场景衔接不畅,不同团队分段推进,缺少统一协同机制,造成重复建设与资源浪费;其三,安全合规与流通机制仍在完善中,跨部门、跨行业的数据共享需要更清晰的边界与更可控的技术手段。 产业界正探索以工业化生产理念重构数据与人工智能的协同路径。浪潮卓数大数据推出的"模数工坊",提出以"数据工厂"模式将数据转化为可规模化供给、可质量管控、可闭环反馈的生产要素。通过标准化采集、清洗、标注、检测等流程,为训练提供可追溯的数据来源;通过覆盖模型全生命周期的管理方式,强化安全与合规要求;通过流程化组织提高交付效率与可复用水平;通过低代码、模块化工具降低应用门槛;在软硬一体化训练中,将算法能力与终端设备部署更紧密地衔接,推动智能产品规模化落地。 这种"数据—模型—场景"闭环的价值体现在三个层面:一是提升数据资源利用效率,让沉睡数据成为可用、可信、可持续更新的训练与运营资产;二是缩短从数据治理到应用上线的周期,减少重复加工与碎片化建设,推动垂直行业模型与应用走向模块化生产;三是形成反馈机制,以应用场景反哺数据优化、以模型迭代牵引数据升级,在持续循环中提升模型效果与业务适配度。 从实践看,"模数工坊"已在山东"鲁惠通"政策兑现平台、健康医疗数据应用、宁波"甬金通"金融服务平台、眉山卫星行业可信数据空间以及多模态大模型训练等项目中应用。涉及的案例表明,"数据工厂"模式在政务服务、医疗数据治理、金融服务、空天信息共享等领域具有通用性,为多行业开展数据要素化改革与智能化升级提供了可借鉴路径。 推动"数据要素价值释放年"取得实效,需要在技术与制度两端同时发力:在供给侧,强化数据标准体系建设与质量评价机制,推动数据加工流程可复制、可审计、可追溯;在使用侧,围绕典型场景建立可衡量的应用指标与闭环反馈机制;在治理侧,更明确权属、使用边界与合规要求,完善可信流通与安全管理能力;在生态侧,促进数据服务商、模型厂商、行业机构协同创新,形成从数据到应用的产业链协作体系。

数据作为新时代的生产要素,其价值释放的关键在于流通和应用;当数据生产实现工业化、标准化,像传统工业品一样被规模化生产、按需供给、高效流转时,人工智能的发展将获得源源不断的支撑。从理念到现实、从试点到规模化应用的转变,正在为人工智能的下一阶段发展奠定基础。此转变不仅关乎技术进步,更关乎数据要素价值的充分释放和经济社会的高质量发展。