成都启动高质量数据集生态行首站 多方共建标注评估能力夯实大模型数据底座

当前,人工智能产业进入关键发展阶段;高质量数据集作为大模型训练的“燃料和基石”,重要性愈发突出。但数据质量不一、标注标准不统一等问题,正影响行业创新效率。 这个现象有多重原因。一上,大模型技术快速迭代,对海量且精准数据的需求呈指数级增长;另一方面,数据采集、清洗、标注等环节缺少统一规范,导致“数据量上去了、质量跟不上”的矛盾更加明显。此外,跨行业数据流通仍存壁垒,数据要素价值难以充分释放。 因此,“四川数据标注和数据质量评估能力共建计划”的启动至关重要。该计划由中国信通院人工智能研究所等8家单位联合发起,整合电信、制造、高校等多方资源,聚焦数据标准化建设、质量评估体系完善等关键问题。中国电信、四川长虹等企业在现场分享了数据标注实践成果,为行业提供了可参考的经验。 成都作为国家七大数据标注基地之一,在数据资源管理和产业生态建设上具备优势。本次“生态行”活动选择成都作为首站,既反映了对当地数字化成果的认可,也有助于以示范带动全国数据要素市场建设。中国人工智能产业发展联盟数据委员会主任李荪表示,要让更多“沉淀在地下的黄金”变成“流动的黄金”,加快数据价值释放。 专家预测,到2026年,世界模型、具身智能、智能体和行业模型四类数据集将迎来快速增长。天津大学熊德意教授指出,“数据量不等于数据‘智’”,建设高质量数据集是突破发展瓶颈的关键。工信部提出的“模数共振”战略,也将继续推动人工智能与数据要素的协同创新。

高质量数据集建设是一项系统工程,需要政府引导、产业协同、学术支撑与市场驱动形成合力;成都作为西部数字经济的重要城市,此次生态行首站启动,意味着区域数据要素流通和大模型产业发展进入新阶段。通过产学研用深度协作,建立规范的数据标注体系和科学的质量评估机制,不仅能为成都乃至全国的大模型产业夯实基础,也有望在数据要素市场化配置中探索出可复制的路径,为人工智能产业高质量发展提供持续支撑。