港中大联合团队突破多模态交互技术瓶颈实现语音驱动3D面部表情实时生成

（问题）语音通话、在线会议、虚拟客服等场景中，声音能传递信息，却难以完整呈现情绪与意图。现实交流里，眉眼变化、嘴角弧度、口型节奏与语调起伏相互配合，信息密度更高。当前不少语音系统已能对话与问答，但在“说什么”和“怎么说”之间仍有明显落差：语音生成与面部表情、口型动画常难以精准同步，数字人容易出现“声画不同步”“表情僵硬”等现象，削弱交互体验与可信度。（原因）研究团队认为，核心矛盾在于两类信息的组织方式不同：语言理解与推理更偏向离散符号序列处理，而面部动画属于连续时间序列控制，强调毫秒级节奏与细粒度运动。如果简单把两者塞进同一个模型，往往会互相牵制：要么语义准确但动作不自然，要么动作连贯却缺少贴合语境的表情变化。此外，高质量、可用于训练的语音—面部动画配对数据长期不足，也限制了模型的泛化与工程落地。（影响）据介绍，香港中文大学（深圳）联合腾讯光子工作室和独立研究者提出Ex-Omni方案，并在预印本平台公开涉及的论文。该方案针对多模态交互中的“语义—语音—表情”协同生成，目标是在语音驱动下实时生成与内容、语气匹配的3D面部动画。若深入完成工程化，有望提升数字人在远程服务、智能座舱、在线教育与内容制作中的自然度与沉浸感，推动人机交互从“能说会答”走向“更有表达力、可沟通”。（对策）在技术路径上，研究采用模块化的“分工协同”思路：一上由语言模型负责指令理解、语义推理与对话组织，解决“想表达什么”；另一方面引入专门的语音单元提供时间节拍支撑，承担“什么时间点如何发声”的连续控制，为面部动画生成提供稳定的时序框架。在此基础上，通过统一门控融合机制，把语义信息以可控方式注入时序生成过程，减少语义与时序相互干扰带来的失真，使口型与表情更容易在时间轴上与语音对齐，并在情绪表达上更贴近语境。数据层面，研究团队构建了InstructEx训练数据集，覆盖语音识别、文本转语音、语音对话问答，以及大规模语音到面部动画的配对数据。针对面部动画标注成本高、难以规模化采集问题，团队引入现有的音频驱动面部生成模型生成高质量“教师标注”，以扩充训练样本、缓解数据瓶颈。业内人士指出，“以生成促训练”有助于在数据受限领域加快迭代，但也对标注质量控制、偏差校正与可解释评估提出更高要求。（前景）从趋势看，多模态交互正从“简单叠加”走向“协同生成”：不仅要能处理文字、语音、图像，更要在同一时间线上做到表达一致、动作自然、情感可信。语音驱动3D面部动画的实时生成，是数字人走向规模化应用的重要环节。下一阶段，相关技术仍需在多语言口型适配、不同人脸拓扑与风格迁移、复杂情绪与社交表情建模、端侧低时延部署以及合成内容安全治理诸上继续突破。同时，面向公共服务与商业场景，也需要更完善的质量评测体系与使用规范，降低“以假乱真”等风险外溢，推动技术进步与社会信任同步建立。

让机器“开口说话”不难，难的是让交流回到更接近人类习惯的方式——声音、节奏与表情彼此呼应。此次研究通过机制设计与数据建设，打通语义理解与时间控制之间的关键环节，展示了数字人迈向自然交互的一条可行路径。面向未来，在提升表达能力的同时建立更完善的安全治理与行业规范，才能让更真实的数字交互更好服务效率提升与沟通需求。

港中大联合团队突破多模态交互技术瓶颈 实现语音驱动3D面部表情实时生成

港中大联合团队突破多模态交互技术瓶颈实现语音驱动3D面部表情实时生成