(问题)语音通话、在线会议、虚拟客服等场景中,声音能传递信息,却难以完整呈现情绪与意图。现实交流里,眉眼变化、嘴角弧度、口型节奏与语调起伏相互配合,信息密度更高。当前不少语音系统已能对话与问答,但在“说什么”和“怎么说”之间仍有明显落差:语音生成与面部表情、口型动画常难以精准同步,数字人容易出现“声画不同步”“表情僵硬”等现象,削弱交互体验与可信度。 (原因)研究团队认为,核心矛盾在于两类信息的组织方式不同:语言理解与推理更偏向离散符号序列处理,而面部动画属于连续时间序列控制,强调毫秒级节奏与细粒度运动。如果简单把两者塞进同一个模型,往往会互相牵制:要么语义准确但动作不自然,要么动作连贯却缺少贴合语境的表情变化。此外,高质量、可用于训练的语音—面部动画配对数据长期不足,也限制了模型的泛化与工程落地。 (影响)据介绍,香港中文大学(深圳)联合腾讯光子工作室和独立研究者提出Ex-Omni方案,并在预印本平台公开涉及的论文。该方案针对多模态交互中的“语义—语音—表情”协同生成,目标是在语音驱动下实时生成与内容、语气匹配的3D面部动画。若深入完成工程化,有望提升数字人在远程服务、智能座舱、在线教育与内容制作中的自然度与沉浸感,推动人机交互从“能说会答”走向“更有表达力、可沟通”。 (对策)在技术路径上,研究采用模块化的“分工协同”思路:一上由语言模型负责指令理解、语义推理与对话组织,解决“想表达什么”;另一方面引入专门的语音单元提供时间节拍支撑,承担“什么时间点如何发声”的连续控制,为面部动画生成提供稳定的时序框架。在此基础上,通过统一门控融合机制,把语义信息以可控方式注入时序生成过程,减少语义与时序相互干扰带来的失真,使口型与表情更容易在时间轴上与语音对齐,并在情绪表达上更贴近语境。 数据层面,研究团队构建了InstructEx训练数据集,覆盖语音识别、文本转语音、语音对话问答,以及大规模语音到面部动画的配对数据。针对面部动画标注成本高、难以规模化采集问题,团队引入现有的音频驱动面部生成模型生成高质量“教师标注”,以扩充训练样本、缓解数据瓶颈。业内人士指出,“以生成促训练”有助于在数据受限领域加快迭代,但也对标注质量控制、偏差校正与可解释评估提出更高要求。 (前景)从趋势看,多模态交互正从“简单叠加”走向“协同生成”:不仅要能处理文字、语音、图像,更要在同一时间线上做到表达一致、动作自然、情感可信。语音驱动3D面部动画的实时生成,是数字人走向规模化应用的重要环节。下一阶段,相关技术仍需在多语言口型适配、不同人脸拓扑与风格迁移、复杂情绪与社交表情建模、端侧低时延部署以及合成内容安全治理诸上继续突破。同时,面向公共服务与商业场景,也需要更完善的质量评测体系与使用规范,降低“以假乱真”等风险外溢,推动技术进步与社会信任同步建立。
让机器“开口说话”不难,难的是让交流回到更接近人类习惯的方式——声音、节奏与表情彼此呼应。此次研究通过机制设计与数据建设,打通语义理解与时间控制之间的关键环节,展示了数字人迈向自然交互的一条可行路径。面向未来,在提升表达能力的同时建立更完善的安全治理与行业规范,才能让更真实的数字交互更好服务效率提升与沟通需求。