最近李想在微博上吐槽了个行业里的大痛点:你说这些智能驾驶系统为啥老是关键时刻掉链子?我研究了一下数据发现,全球80%的自动驾驶事故都是因为感知系统搞错了。背后的大问题是大家都把AI当成看2D视频的工具用了。那为啥AI就是不懂3D世界呢?这得从咱们小时候学骑车说起,那会儿可不是靠看录像练的,全靠身体的感觉和对空间的判断。李想打了个很形象的比方:这就好比你开车只看行车记录仪的画面一样,完全搞不懂真实物理世界的深浅。你看现在的那些传统BEV架构吧,高度信息都没了;OCC方案呢,连语义理解都不懂,导致AI永远像个盲人一样摸不到三维世界的本质。 关键就在这儿:现在主流的智驾系统还在用2D视频训练AI呢,而人类的安全感可是建立在对3D物理空间的认知上的。现在这种做法就像隔着一层塑料布在看东西一样。那理想是怎么破局的?他们弄了个原生3DViT三维视觉编码器,直接让AI在3D空间里干活,把几何结构和语义信息一块儿搞定了。自家的马赫芯片也给力,算力是以前的三倍,500米内的情况都能稳稳感知到。现在的激光雷达也不用那么折腾了,直接降级成高精度标定工具就好。 是不是觉得还不够过瘾?其实理想后面还有大招呢!他们推出了MindVLA-o1模型,把空间理解、推理决策还有驾驶行为都给合到了一起。这种多模态思考能力让AI能像人一样模拟场景变化,逻辑推理能力特别强。李想还强调说这不仅能用于自动驾驶,连机器人领域都能用上,这是开启物理AI新纪元的大事儿。 你之前遇到过自动驾驶系统误判的情况吗?赶紧在评论区说说你是怎么处理的。大家都好奇:这项技术是不是太超前了?数据可是明摆着的:理想汽车的感知系统比行业平均水平快了30%不止呢。这可不是瞎吹的幻想,这就是正在发生的现实。真正的智能驾驶不能只看视频得去感知世界。你是不是也在盯着自动驾驶技术的进展?未来几年它到底会怎么改变咱们的出行方式?欢迎大家在评论区留下看法。 技术进步往往是从看得见的地方开始的。大家有没有想过:如果AI要真正懂这个世界,是不是得先从看懂3D开始?