在2025年的外滩大会之后,蚂蚁集团旗下的灵波科技把自家研发的高精度空间感知模型LingBot-Depth给了大家。这个模型是通过训练奥比中光Gemini330系列双目3D相机采集的芯片级原始RGB-Depth数据搞出来的。一旦遇到像玻璃这种高反光的物体,传统的ToF或结构光传感器就容易失灵,导致深度图出现大面积数据空洞。LingBot-Depth就能利用RGB图像里的纹理和轮廓信息,把这些缺失的地方给补全了。它用了一种叫Masked Depth Modeling的技术,专门来修复这种深度信息。 这个开源举动是灵波科技时隔半年发布的阶段性成果。蚂蚁集团这次开放核心代码和权重,主要是想让大家一起搭把手搞开发。这不仅仅是为了解决透明反光物体的感知难题,更是给我国具身智能产业生态注了新的活力。大家可以基于这个模型进行二次开发,这对机器人运动规划和避障这些任务特别有帮助。 把这项技术开源出来,其实是想推动技术生态共建。现在机器人和自动驾驶车在家庭、工业和公共服务环境里用得越来越多了。LingBot-Depth的出现能让智能终端的三维视觉能力更上一层楼。灵波科技这次还会陆续放出几款具身智能方向的模型,丰富开源图谱。 我国企业这次开源高精度空间感知模型,就是为了让机器像人一样精准地感知世界。蚂蚁集团最近在做AI方面的布局挺全面的,“阿福”、“灵光”、“百灵”这些大模型都有了。这次放出LingBot-Depth,就是在夯实智能体前端感知这一环。它不仅能降低硬件依赖成本,还能让下游的任务更可靠。 这个技术路径其实是算法创新,通过增强消费级深度相机的感知能力来解决问题。随着更多基础模型被开放出来,大家能一起攻克关键核心技术,这对提升我国在全球AI领域的影响力很有帮助。未来随着更多工具的开源,肯定能汇聚更多创新力量,赋能各行各业的智能化转型。