南京大学联合团队提出Omni-Diffusion框架推动文本语音图像“任意互转”迈出关键一步

当前人工智能领域的一大难题，是让机器像人类一样自然地处理文字、语音、图像等混合信息。传统方案多采用模块化串联架构——类似翻译团队分工接力——容易在模块衔接中产生信息损耗，生成也较慢。南京大学周志华教授团队指出：“这种线性处理模式难以捕捉跨模态的深层关联，成为制约智能水平提升的关键瓶颈。”为此，团队提出基于统一表征空间的扩散模型框架：将不同模态数据统一转化为标准化数字代币，并通过掩码离散扩散技术实现并行处理。

多模态能力的关键不只是“能看会听会说”，更于不同信息形态之间能否稳定对齐、可靠转换。Omni-Diffusion所代表的统一扩散建模思路，为摆脱多模态系统“拼装式”架构提供了新的选择。面向未来，基础研究与应用需求需要合力推进：一上持续提升模型能力，另一方面完善评测标准与治理框架，才能让多模态技术更安全、更高效地服务真实世界的沟通与生产。

南京大学联合团队提出Omni-Diffusion框架 推动文本语音图像“任意互转”迈出关键一步

南京大学联合团队提出Omni-Diffusion框架推动文本语音图像“任意互转”迈出关键一步