(问题)随着短视频、直播、电商带货和线上娱乐快速发展,产业对“看得懂、听得懂、能对话、会生成”的智能能力需求不断上升;以文本为主的传统模型处理音频、视频等复杂信息时存在明显局限:一是多模态信息时序更长、噪声更大,关键线索不易稳定提取;二是业务场景常要求“边看边说、边听边答”的低时延交互;三是企业应用更看重可控输出与结构化结果,便于检索、审核和复用。如何让多模态能力从演示走向规模化落地,成为行业普遍关注的问题。 (原因)因此,阿里巴巴发布Qwen3.5-Omni,聚焦“音视频理解与实时交互”等关键能力。据介绍,该模型在音视频理解、识别、交互等多项任务评测中表现突出,并强调可生成更细粒度、可控的结构化描述。结构化输出可将视频画面、人物行为、场景变化、语音信息等要素有条理地归纳,便于在内容审核、素材检索、智能剪辑和创作辅助等环节直接使用。同时,模型支持多语种和方言识别,有助于覆盖跨区域、跨语种的内容生产与服务场景,满足平台出海与多元用户需求。 (影响)此次同步开放接口服务,被不少业内人士视为推动技术从“可展示”走向“可应用”的重要一步。阿里云对应的平台上线多档API,意味着企业可根据业务规模、时延要求和成本约束灵活选择,从而缩短研发周期、降低试错成本。对内容平台而言,音视频自动理解与摘要、重点片段定位、智能字幕与多语种翻译等能力,有望提升生产效率与分发效果;对直播与电商场景而言,实时识别与交互可用于商品讲解辅助、直播间运营支持以及客服与售后服务;对游戏与泛娱乐行业而言,多模态交互能力可为虚拟角色、剧情生成与沉浸式体验提供新的技术底座。面向普通用户开放体验,也有助于在消费端形成更直观的认知与使用习惯。 (对策)业内人士认为,多模态能力要实现大规模应用,仍需在“可用、可控、可靠”上持续打磨:一是提升复杂场景的鲁棒性,在长视频、多人物、强噪声环境下保持稳定理解与准确提取;二是强化输出的可控性与一致性,减少结构化描述中的遗漏、错配或过度推断;三是将安全治理前置到模型训练、数据管理与产品调用全链条,完善内容合规、隐私保护与风险处置机制;四是面向行业落地加强工具链建设,围绕内容审核、媒体资产管理、智能剪辑、知识库与检索等环节提供可复用组件,形成可规模复制的解决方案;五是继续优化算力与工程效率,降低训练和推理成本,让更多中小企业用得起、用得好。 (前景)从技术演进看,全模态模型正从“能理解”走向“能协作”:不仅识别音视频信息,还要与业务流程联动,完成检索、总结、生成、执行等连续任务。未来突破可能集中在三上:其一,更强的实时交互与低时延推理,让“边看边问、边听边答”成为常态;其二,更精细的跨模态对齐与因果推断能力,在复杂场景中准确抓住关键事件与关系;其三,与行业知识与工具系统深度融合,形成面向媒体生产、智能客服、教育培训、工业巡检等领域的“可验证、可追溯、可审计”应用闭环。随着接口生态完善、成本更下降,多模态能力有望从头部互联网场景扩展到更多实体行业,成为数字化转型的重要基础能力。
在全球数字化进程加速的背景下,人工智能创新正在重塑产业形态。Qwen3.5-Omni的发布表明了国内企业在多模态方向的研发推进,也为关键技术的自主可控积累了实践经验。未来,随着产学研用协同更紧密、多方生态更完善,我国有望在多模态人工智能领域加快追赶并形成领先优势,为高质量发展提供持续的技术支撑。