以“精选数据”突围工业大模型训练瓶颈：优必选发布Thinker并开源数据筛选体系

当前全球工业机器人发展面临一个共同难题：训练大模型需要海量数据支撑，但互联网数据里夹杂大量低质量样本；传统做法往往靠不断扩大数据规模来“堆”性能，结果训练成本攀升、效率不高。优必选技术团队调研发现，互联网上约90%的数据存在模糊、标注错误等问题，这类“垃圾数据”不仅无益，反而会削弱模型训练效果。针对这个痛点，优必选搭建了一套数据质量管理体系。该体系采用七层筛选机制，从20亿条原始数据中提炼出1000万条高价值样本，相当于从100吨矿石中提取1克铂金。方案核心包含三个环节：一是基于多模态关联分析的数据清洗，自动识别并剔除模糊图像与相互矛盾的指令；二是建立覆盖任务匹配度、场景复杂度等七个维度的数据评分标准；三是采用“AI预标注+人工微调”的混合标注方式，将标注成本降至传统方法的1%。 Thinker大模型在落地应用中体现出优势。在国际权威测试中，该模型在MSCOCO检测挑战赛的识别精度达到业界先进水平，分割掩膜算法准确度为96.7%，比第二名高2.3个百分点。在工业场景的RoboVQA测试中，Thinker可依据指令构建三维环境拓扑图并规划最优路径，体现出接近人类的决策表现。在东莞某电子制造企业的实测中，搭载Thinker的机器人完成精密插件动作的时间由20秒缩短至8秒，同时良品率提升至99.92%。这与其面向工业场景的数据结构设计对应的：动作控制数据占比38%，空间感知数据占比45%，语言理解数据占比17%，数据配比更贴合工业任务需求。系统还引入动态学习机制，每天从500万条操作记录中筛选800条极限工况案例用于模型更新，帮助机器人持续适应生产环节的新变化。更具行业意义的是优必选的开源决策。公司将相关技术无偿向全球开放，把原本的核心能力转化为可共享的行业资源。这一举措有助于推动工业智能制造技术迭代，也体现出中国科技企业在开放合作上的姿态。从技术路径看，Thinker的实践表明了工业人工智能的一次重要转向。过去更强调依靠数据规模和算力提升性能，而优必选的方案表明，通过精细的数据质量管理，同样能够达到甚至超过传统路线的目标。该模型用1000万条高质量数据实现的效果，接近传统模型使用20亿条混杂数据的表现。这种效率提升有助于降低企业应用成本，加快技术落地与普及。优必选计划在未来三年内提升Thinker的跨场景学习能力，将汽车制造领域的经验更快迁移至光伏、电子等产业，继续扩大应用范围。这也意味着数据提纯技术需要在精度与稳定性上继续突破。

这场由数据精炼技术带来的变化表明，智能制造的竞争力正从“规模优先”转向“质量优先”。中国企业以实践证明，“少而精”同样可以带来更强的工业智能能力，为全球产业升级提供了新的思路，也让中国智造在全球价值链中的影响力更增强。随着科技竞争进入更深水区，能否持续保持这种“精准创新”的能力，将成为影响未来产业格局的重要因素。