陆峰：高质量数据集建设的模式、路径和制度保障

由北京前沿未来科技产业发展研究院的陆峰博士带来的“前沿未来培训”，《加快推进高质量数据集建设的模式、路径和制度保障》一文中提到，高质量数据集不仅是经过采集、加工可直接用于AI模型开发的基础资源，更承载着人工智能发展的战略使命。全国已建成超过3.5万个高质量数据集，这不仅推动了相关技术的进步，还通过解决“关键样本稀缺”痛点，例如GAN生成缺陷样本，为数据合成增强提供了技术支持。不过，与发达国家相比，国内在总量和行业覆盖上仍有差距。高质量数据集建设面临着数据供给不足、技术工具薄弱等多重挑战。为了突破这些瓶颈，“政府引导、国企运营、生态共建”的联合众创机制应运而生。莆田市全域多模态城市治理数据集就是公共数据授权运营的成功案例。此外，龙头企业还通过赋能产业链上下游带动模式推动高质量数据集的发展。在实施路径上，体系规划阶段需要从复杂业务问题中锚定核心价值场景并明确目标。工程建设阶段要系统获取高保真数据，清洗降噪后进行标注并注入行业知识。流通运营阶段则通过平台化运营和市场化流通推动价值释放。标准规范体系包括基础标准、质量标准和行业标准等多个层面。数据工程能力建设涵盖管理体系、开发维护等五大核心要素以及智能化工具支撑。为了保障数据安全可信和个人信息保护，《高质量数据集建设指南》等4项技术文件由全国数标委发布。北京前沿未来科技产业发展研究院院长陆峰博士建议将人才体系建设作为重点工作之一，形成“院校培养—企业实训—专项认证”三级体系。同时还要通过试点示范、工程项目等多种形式提供资金与政策支持。授课老师陆峰博士通过本次课程详细解读了《关于深入实施“人工智能+”行动的意见》等政策要求和“1+1”参考路径的指导文件。从“大水漫灌”转向“精准滴灌”的场景驱动模式被广泛认可为基于应用场景的专业化建设模式之一。此次培训还提出了全流程管控的动态反馈机制和涵盖规范性、完整性等十余项指标的质量评估指标体系。智能辅助标注模式通过预标注、人工校验等环节优化了传统“炼化”模式。除了技术路径外，还探索了行业专识数据集和跨领域合成数据集等多元化的建设模式。同时还要注意版权合规问题以及实现“数据—数据集—模型—智能应用”闭环反馈的飞轮效应。最后强调了四类核心主体协同发展的重要性以及严格匿名化处理原始数据的必要性。