李想剖析自动驾驶技术困境 力推原生3D视觉新方案

问题:投入巨大却难破瓶颈,症结“看得见”但“读不懂” 近年来,车企与科技公司持续加码智能驾驶,资金、人才和算力投入不断上升,但量产落地和体验提升仍普遍面临“进步不够快、边界不够清晰、安全不够稳”的难题。李想在公开表述中认为,矛盾不在于传感器数量或数据规模本身,而在于训练与表征方式长期停留在“二维素材驱动”:系统更像在看行车记录仪片段,缺少对三维空间结构、物体相对位置和物理约束的整体理解,因此难以形成接近人类驾驶员的空间直觉和足够的安全冗余。 原因:三维信息被压缩,语义与几何“各说各话” 李想将人类驾驶能力追溯到幼年阶段通过运动与交互建立的三维空间认知:在行走、抓取、躲避等过程中,逐步形成对距离、遮挡、速度与风险的综合判断。相比之下,行业常见技术框架在二维到三维的转换中容易出现信息损失与理解割裂。 一上,鸟瞰视角等表征方式便于工程实现与规划控制,但可能高度信息、层级结构和遮挡关系上被“压平”;另一上,占用网络等路线更强调体素填充与几何一致性,却可能对交通参与者意图、可通行区域语义等表达不足。结果是几何不够准确、语义不够到位,系统在复杂场景里更依赖规则补丁和长尾数据堆叠,能力边界依然难以覆盖。 影响:感知不稳传导至决策,量产体验与安全信任承压 业内普遍认为,智能驾驶的关键在于“感知—理解—决策—执行”的闭环。一旦对三维世界缺少结构性理解,就容易在远距目标、小目标、异形障碍物、立交与坡道等场景中放大不确定性:感知偏差会传导到轨迹规划与控制,进而影响舒适性与安全性。 对企业来说,如果仍主要依赖二维数据堆叠和规则修补,不仅迭代周期拉长、算力与数据成本上升,也会使能力提升难以稳定转化为用户可感知的体验,继续影响行业对技术路线的判断以及社会对安全的信任。 对策:以原生三维表征为抓手,推动“几何+语义”同步建模 针对上述痛点,理想提出以“原生三维视觉编码器”为核心的技术设想:在建模阶段尽量减少二维到三维的反复转换,直接在三维空间中完成特征提取与编码,让几何结构与语义理解同步推进。 李想同时提到,在自研芯片带来更高算力支撑后,系统有望实现更远距离的稳定感知,并推动传感器分工调整:激光雷达更多用于高精度标定与校准,由视觉体系承担更主要的空间结构建模与目标理解任务。,理想还提出将空间理解、推理决策与驾驶行为统一建模,力求在同一框架内打通“看懂场景—判断风险—选择动作”的链路,减少模块之间的信息损耗与策略割裂。 前景:从智能驾驶走向更广义的物理世界智能体,竞争将转向底层能力 从行业趋势看,智能驾驶的竞争正在从“传感器堆料、功能堆叠”转向“底层表征、数据闭环与计算平台”的系统比拼。若原生三维表征能在量产场景中验证稳定性与可扩展性,可能为复杂道路、极端天气、施工改道等长尾问题提供更具泛化能力的路径。 更值得关注的是,此路线与机器人等领域存在方法共通之处:无论是汽车还是机器人,最终都需要在真实世界中完成空间理解、交互与动作生成。业内人士认为——未来一段时期——算力平台、三维数据体系、模型泛化能力与安全验证体系将成为企业拉开差距的关键变量,技术路线的收敛与标准化也将加快。

自动驾驶的发展不只是工程堆叠,更是对人工智能认知能力的考验。从二维走向三维,意味着系统对物理世界的理解从“看见”迈向“读懂”。理想汽车提出的探索为行业提供了新的思路,也提示业界:真正的智能不在于单纯增加数据与硬件,而在于建立更贴近真实世界规律的表征与推理能力。无论最终效果如何——这类面向底层能力的尝试——都将推动行业向更成熟、更安全的阶段演进。