蚂蚁灵波把两个核心模型全开源

蚂蚁灵波这次拿出了两个核心模型，一个是LingBot-VLA，另一个是LingBot-Depth，打算开源出来，推动具身智能这个产业的技术普及和生态共建。具身智能就是机器人能和环境进行智能互动，现在人工智能正往物理世界渗透，这就是大家抢着搞的热门方向。蚂蚁集团最近在这个领域有了大动作，旗下的蚂蚁灵波科技说要把LingBot-VLA和整个后训练工具链都放出来，让大家随便用。之前他们放出来的LingBot-Depth模型效果也很好，这回一起公布出来。这种做法不光是秀自己有技术突破，更是想用开源来带动整个产业发展。先说LingBot-VLA，这是个视觉、语言、动作三结合的模型。它能听懂人话、看懂画面，直接把动作指令给机器人发过去，让机器人能去做通用的任务。这次不光开放了模型本身，还把训练工具链一起给了大家。数据显示，这套工具链在8块GPU上跑的时候，单块卡一秒钟能处理261个样本，比别人快上1.5到2.8倍。这样一来，下游的厂商和研究机构就不用买那么贵的算力和数据了，赶紧拿这个模型去适配自己的机器人，创新的门槛一下子就降下来了。现在它已经和星海图、松灵、乐聚这些国内厂商的机器配合得挺好，证明了它不管什么样的机器人都能通用。要想技术过硬，就得在数据和算法上多下功夫。蚂蚁灵波他们用了很多真实机器人干活的数据做了研究，发现VLA模型的性能跟预训练数据量有很直接的关系。数据量从3000小时增加到2万小时的时候，成功率一直往上走，就算是到了2万小时也没见顶。这个发现很关键，说明以后只要继续喂更大规模的数据就能变强。他们把这套数据集都准备好了，有9种主流双臂机器人的操作数据。在上海交大那个叫GM-100的评测基准上测了一下，LingBot-VLA在三个真家伙上的平均成功率比别人高不少。特别是加上了深度感知信息后，空间理解能力更强了，平均成功率直接飙到了17.3%。这些研究结果给以后开发大模型提供了很好的经验和数据底子。机器人要想在现实世界里稳稳当当走路，就得看得准。LingBot-Depth就是专门用来解决看深度问题的模型。它能把那些低成本、不完整、有噪声的原始数据转成高质量的三维场景信息。这个模型是用奥比中光的Gemini 330系列双目相机采集的，还用深度引擎芯片的数据练过了。测试下来发现这个模型在深度精度和像素覆盖率上都比顶级的工业级相机强。在NYUv2和ETH3D这些国际考试里也都拿到了最高分。关键是它不用搞太复杂的时序建模就能保持视频里的深度信息不打架。经过奥比中光实验室的认证后发现这个模型在精度、稳定性和复杂场景下的适应性都达到了行业顶尖水平。这就给机器人和自动驾驶这些领域提供了一把利器。这次蚂蚁灵波把两个核心模型全开源出来是很有战略眼光的一步棋。不光是在底层技术上拿出了真本事来证明自己行，更是把经过大规模验证的先进模型和高效工具链分享给了大家。这就好比给大家发了一把万能钥匙，让产学研的力量聚在一起去攻克难题，加速技术落地。在人工智能跟实体经济结合越来越深的大趋势下，这种促进技术普惠、共建生态的做法对提升咱们国家在前沿科技上的整体竞争力非常有好处。以后怎么在这个开放的基础上制定标准、搞场景创新还有产业协同合作才是关键的下一步。