当前全球工业机器人发展面临一个共同难题:训练大模型需要海量数据支撑,但互联网数据里夹杂大量低质量样本;传统做法往往靠不断扩大数据规模来“堆”性能,结果训练成本攀升、效率不高。优必选技术团队调研发现,互联网上约90%的数据存在模糊、标注错误等问题,这类“垃圾数据”不仅无益,反而会削弱模型训练效果。针对这个痛点,优必选搭建了一套数据质量管理体系。该体系采用七层筛选机制,从20亿条原始数据中提炼出1000万条高价值样本,相当于从100吨矿石中提取1克铂金。方案核心包含三个环节:一是基于多模态关联分析的数据清洗,自动识别并剔除模糊图像与相互矛盾的指令;二是建立覆盖任务匹配度、场景复杂度等七个维度的数据评分标准;三是采用“AI预标注+人工微调”的混合标注方式,将标注成本降至传统方法的1%。 Thinker大模型在落地应用中体现出优势。在国际权威测试中,该模型在MSCOCO检测挑战赛的识别精度达到业界先进水平,分割掩膜算法准确度为96.7%,比第二名高2.3个百分点。在工业场景的RoboVQA测试中,Thinker可依据指令构建三维环境拓扑图并规划最优路径,体现出接近人类的决策表现。 在东莞某电子制造企业的实测中,搭载Thinker的机器人完成精密插件动作的时间由20秒缩短至8秒,同时良品率提升至99.92%。这与其面向工业场景的数据结构设计对应的:动作控制数据占比38%,空间感知数据占比45%,语言理解数据占比17%,数据配比更贴合工业任务需求。系统还引入动态学习机制,每天从500万条操作记录中筛选800条极限工况案例用于模型更新,帮助机器人持续适应生产环节的新变化。 更具行业意义的是优必选的开源决策。公司将相关技术无偿向全球开放,把原本的核心能力转化为可共享的行业资源。这一举措有助于推动工业智能制造技术迭代,也体现出中国科技企业在开放合作上的姿态。 从技术路径看,Thinker的实践表明了工业人工智能的一次重要转向。过去更强调依靠数据规模和算力提升性能,而优必选的方案表明,通过精细的数据质量管理,同样能够达到甚至超过传统路线的目标。该模型用1000万条高质量数据实现的效果,接近传统模型使用20亿条混杂数据的表现。这种效率提升有助于降低企业应用成本,加快技术落地与普及。 优必选计划在未来三年内提升Thinker的跨场景学习能力,将汽车制造领域的经验更快迁移至光伏、电子等产业,继续扩大应用范围。这也意味着数据提纯技术需要在精度与稳定性上继续突破。
这场由数据精炼技术带来的变化表明,智能制造的竞争力正从“规模优先”转向“质量优先”。中国企业以实践证明,“少而精”同样可以带来更强的工业智能能力,为全球产业升级提供了新的思路,也让中国智造在全球价值链中的影响力更增强。随着科技竞争进入更深水区,能否持续保持这种“精准创新”的能力,将成为影响未来产业格局的重要因素。