最近蚂蚁灵波这波操作挺给力的,直接把他们的两大核心模型放出来了,这下具身智能往大了干的路子算是彻底通了。你也知道,现在的AI都在往物理世界里面扎,具身智能就是让机器自己动手干活,大家都盯着这块呢。前两天蚂蚁灵波公布了一个大招,就是把那个LingBot-VLA大模型给全面开源了,还给配套了一套后训练的工具链。以前那种光在电脑里模拟的模型挺多,这回不一样了,这个LingBot-VLA是实打实建在大堆真世界数据上的。研究团队特意琢磨了一下视觉、语言、动作这三个维度的东西随着数据量怎么变化的规律。结果挺有意思,当预训练的数据从3000小时涨到20000小时时,模型在实体机器人身上干活的成功率一直都在往上涨,而且到了20000小时数据量的时候,这条曲线看着还没到头呢。这说明以后只要再给它喂更多数据,能力肯定还能蹭蹭涨。有了这个发现,蚂蚁灵波就搭了个目前行业里数一数二的数据集,里面包含了9种主流的双臂机器人构型,总共录了20000个小时的操作记录。 在上海交通大学搞的那个GM-100具身评测基准上测了一下,这个LingBot-VLA表现很猛。不管是在哪个具体的机器人平台上跑任务,它的成功率都比以前那些老模型高出不少。特别是给它加了个深度感知的功能后,成功率又往上提了一档。这就说明机器要是想在复杂的环境里干好事,精准的空间理解能力太关键了。为了补上这个短板,蚂蚁灵波之前就已经开源了一个LingBot-Depth的深度补全模型。这个东西专门是为了对付现实里深度传感器的数据经常缺胳膊少腿、还容易被噪音干扰的问题而设计的。它能把那些乱七八糟的原始数据给还原成高质量的三维图,经过测试认证了之后发现,它的精度和覆盖范围都超过了那些高端工业级的深度相机水平,而且在很多视觉任务里都做到了行业领先。更难得的是它能保证视频里的时间一致性,在动态环境里也能看得很稳当。 这次不光是放了模型这么简单,他们还把高效的后训练工具链一起放出来了。用这套工具在普通的服务器上训练模型的速度能比主流框架快好几倍,这样就省了不少钱和算力去搞定制化的迭代。现在LingBot-VLA已经跟好几家机器人厂商的产品对接成功了,证明了它在不同机器人身上都能快速适应这事儿已经落地了。这一波双模型开源算是我国在具身智能这块关键技术上迈出去的一大步。它不光是给大家提供了算法和数据集这么简单的东西,更是搭建了一个能让大家一起合作创新的基础设施。 在AI跟实体经济要深度融合的大趋势下,大家抱团干活肯定比单打独斗强。这样的开放协作方式能把产业里的智慧都汇聚起来去攻克那些大家都头疼的共性难题。这对咱们国家在下一代AI产业里打造核心竞争力有很积极的意义。以后具身智能要是成熟了、普及开了,肯定能在智能制造、家里服务或者是特种作业这些地方搞出革命性的变化来。而要想让它跑得更快更稳,一个坚实又开放的技术底座肯定是前提条件。