国家数据战略加速落地 "数据工厂"破解AI发展瓶颈

当前，数据要素与人工智能的融合进入关键期；一方面，大模型技术快速演进，催生政务、医疗、金融、空天信息等领域的智能化需求；另一方面，数据供给与应用落地仍存明显断层，表现为"算力有余、数据不足""模型可用、场景不准"。如何让数据可生产、可治理、可流通、可复用，直接影响大模型在垂直行业的可持续迭代与规模化应用。现实中，数据并未天然具备可训练、可交易、可复用的特性。许多行业的历史数据沉淀多年，却因格式不统一、口径不一致、标准缺失、权属不清等问题，难以直接用于模型训练。同时，行业应用对数据质量、可追溯性、安全合规提出更高要求，若数据治理停留在项目制层面，就难以支撑大模型持续迭代所需的稳定供给与反馈。问题主要体现在三上：其一，数据生产长期依赖人工经验与临时流程，缺少可复制的工艺标准与质量检测体系，导致质量波动大、交付周期长；其二，数据、模型与场景衔接不畅，不同团队分段推进，缺少统一协同机制，造成重复建设与资源浪费；其三，安全合规与流通机制仍在完善中，跨部门、跨行业的数据共享需要更清晰的边界与更可控的技术手段。产业界正探索以工业化生产理念重构数据与人工智能的协同路径。浪潮卓数大数据推出的"模数工坊"，提出以"数据工厂"模式将数据转化为可规模化供给、可质量管控、可闭环反馈的生产要素。通过标准化采集、清洗、标注、检测等流程，为训练提供可追溯的数据来源；通过覆盖模型全生命周期的管理方式，强化安全与合规要求；通过流程化组织提高交付效率与可复用水平；通过低代码、模块化工具降低应用门槛；在软硬一体化训练中，将算法能力与终端设备部署更紧密地衔接，推动智能产品规模化落地。这种"数据—模型—场景"闭环的价值体现在三个层面：一是提升数据资源利用效率，让沉睡数据成为可用、可信、可持续更新的训练与运营资产；二是缩短从数据治理到应用上线的周期，减少重复加工与碎片化建设，推动垂直行业模型与应用走向模块化生产；三是形成反馈机制，以应用场景反哺数据优化、以模型迭代牵引数据升级，在持续循环中提升模型效果与业务适配度。从实践看，"模数工坊"已在山东"鲁惠通"政策兑现平台、健康医疗数据应用、宁波"甬金通"金融服务平台、眉山卫星行业可信数据空间以及多模态大模型训练等项目中应用。涉及的案例表明，"数据工厂"模式在政务服务、医疗数据治理、金融服务、空天信息共享等领域具有通用性，为多行业开展数据要素化改革与智能化升级提供了可借鉴路径。推动"数据要素价值释放年"取得实效，需要在技术与制度两端同时发力：在供给侧，强化数据标准体系建设与质量评价机制，推动数据加工流程可复制、可审计、可追溯；在使用侧，围绕典型场景建立可衡量的应用指标与闭环反馈机制；在治理侧，更明确权属、使用边界与合规要求，完善可信流通与安全管理能力；在生态侧，促进数据服务商、模型厂商、行业机构协同创新，形成从数据到应用的产业链协作体系。

数据作为新时代的生产要素，其价值释放的关键在于流通和应用；当数据生产实现工业化、标准化，像传统工业品一样被规模化生产、按需供给、高效流转时，人工智能的发展将获得源源不断的支撑。从理念到现实、从试点到规模化应用的转变，正在为人工智能的下一阶段发展奠定基础。此转变不仅关乎技术进步，更关乎数据要素价值的充分释放和经济社会的高质量发展。