蚂蚁灵波开源交互式世界模型突破长时视频生成技术瓶颈

近年来，数字场景生成技术快速发展，但在长时交互生成领域仍面临严峻挑战。

传统模型在长时间运行后容易出现画面失真、逻辑混乱等问题，严重制约了虚拟环境的应用效果。

这一技术瓶颈被业界称为“长时漂移”，成为制约交互式世界模型落地的关键障碍。

针对这一难题，蚂蚁灵波科技推出的LingBot-World模型通过多阶段训练和并行化加速策略，显著提升了生成稳定性。

测试数据显示，该模型可在10分钟内保持高质量输出，即使镜头移开60秒后返回，场景中的物体仍能保持结构和外观的一致性。

这一突破为复杂任务的模拟训练提供了可靠支持。

技术实现上，LingBot-World采用可扩展数据引擎，从大规模游戏环境中学习物理规律和因果关系，确保生成内容的逻辑连贯性。

同时，模型支持动作驱动的精细化生成，用户可通过键盘或鼠标实时操控场景变化，实现端到端交互延迟控制在1秒以内。

这种高响应速度使得模型在虚拟现实、游戏开发等领域具有广阔应用前景。

数据采集方面，蚂蚁灵波科技创新性地采用了混合策略，结合网络视频清洗和游戏引擎合成，解决了高质量交互数据匮乏的问题。

这一方法不仅提升了模型的泛化能力，还降低了不同场景的部署成本。

例如，仅需输入一张街景照片，模型即可生成对应的可交互视频流，无需额外训练。

目前，蚂蚁灵波科技已全面开源LingBot-World的模型权重和推理代码，此举有望推动行业技术共享，加速世界模型在更多领域的应用落地。

业内人士分析，该技术的开放将促进虚拟环境开发效率的提升，并为元宇宙、自动驾驶仿真等前沿领域提供新的技术支撑。

从“能生成”到“能交互”，再到“能稳定地长期交互”，世界模型的演进正在把生成技术推向更接近现实规律的方向。

开源不仅是技术扩散的加速器，也是一面镜子，推动行业在数据、评测与应用治理上形成共识。

面向未来，唯有在真实性、可控性与可靠性之间取得更高水平的平衡，世界模型才能更好支撑具身智能等前沿领域走向规模化落地。

蚂蚁灵波开源交互式世界模型 突破长时视频生成技术瓶颈