vivo提出AI技术新路径：以影像感知能力突破虚实交互瓶颈

过去两年，人工智能领域的发展速度惊人，创新成果频频刷新认知；从大模型到多模态技术，从内容生成到自主执行系统，AI进步令人瞩目。然而，技术突破的背后，一个核心问题逐渐显现：这些先进能力到底在多大程度上落地于现实世界？近日，vivo总裁兼首席运营官胡柏山在博鳌亚洲论坛上针对该现象进行了深入思考。他指出，虽然当前AI在数字领域取得显著进展，但仍局限于虚拟空间，缺乏对物理世界的直接感知能力。这一观点为行业探索AI下一步发展方向提供了新视角。问题关键在于AI处理的信息类型有限。胡柏山表示，不管是大模型还是智能体，处理对象主要是结构化的数字信息——如文本、图片、网页和数据库等，这些数据经过互联网长期积累，已能被机器直接理解。因此，AI才在写作、编程和信息整理等领域实现飞跃式发展。但一旦转向非数字化的真实场景，挑战随之而来。比如，摄像设备能拍摄图像，但系统难以真正理解画面中的行为；视频能完整捕捉现场，却难以准确判断场景变化。根本原因在于输入端缺乏直面现实的机制。 “困在黑屋子里的大师”比喻当前AI境况恰如其分。它虽然算力强大、知识丰富，却无法直接感知物理世界，就像被禁锢在黑暗中的高手，无论多强技巧也无法施展。AI想真正服务现实场景，必须补齐物理感知能力。这标志着人工智能正从“被动执行命令”向“主动感知与理解”迈进。这一变化将深刻影响产业竞争格局。过去两年，竞争焦点主要是模型性能和算力规模。但技术日趋成熟，同质化严重，单靠模型难以保持差异化。未来竞争关键在于对真实场景的理解和积累，能够更好将AI与现实连接的企业，将占据产业制高点。基于此，vivo选择了独特的技术路径：以影像为切入点，构建AI感知体系。胡柏山强调，影像是AI连接物理世界的首要引擎。这并非因为影像技术本身更先进，而是它在信息采集中的基础性作用。在现有条件下，影像是数字世界与物理世界最直接的信息桥梁。通过光学系统、传感器和算法，现实场景被转化为数字信号，成为AI可处理的对象。 vivo将手机视为AI落地的“第一现场”。这表明了对移动设备在AI应用中核心地位的准确把握。手机已是用户最直接的AI接触端，从语音助手、智能修图到通话摘要、文档处理，各类功能迅速普及，但仍多停留于数字层面。vivo的愿景是让手机摄像头成为AI感知现实的“眼睛”，令AI理解用户周围环境，提供更贴近生活的智能服务。实现这一目标，需要硬件、算法和应用多上创新。硬件方面，需提升光学系统和传感器性能，捕捉更高质量信息；算法层面，要加强视觉理解和场景识别能力；应用层面，则需将感知能力转化为实际用户价值。这是一个系统性工程，既关乎技术突破，也需深入洞察用户需求。从产业前景来看，这条路径代表了人工智能发展的重要趋势。只有具备物理感知能力，AI才能打开更多应用场景——涵盖智能家居、辅助医疗、工业检测、安全监控等诸多领域。作为最广泛使用的智能设备，手机将在这一转型中发挥关键作用。vivo的探索，既是对自身未来的战略布局，也反映了对整个产业方向的前瞻判断。

人工智能已迈入关键转折期。从聚焦模型能力，到强调感知能力建设，像vivo这样的企业正引领行业进入融合创新的新阶段。只有让机器真正“看见”并理解我们的世界，AI才能从“数字高手”成长为服务社会、改善生活的重要力量。这不仅是技术的突破，更是全行业共同推动科技普惠、实现人与智能和谐共生的必由之路。