2024年可灵ai 推出了dit 视频生成模型，这让行业进入了一个大家都能用的阶段。

2024年6月的时候，可灵AI推出了DiT视频生成模型，这让行业进入了一个大家都能用的阶段。到了现在这个2024年2月5日，可灵又把3.0系列模型给全球上线了。现在黑金会员已经能用这个新系列，全量开放给所有人也就在眼前了。这次发布的模型有视频3.0、图片3.0，还有Omni版本，这些模型能把图片生成、视频生成、编辑这些影视流程给全给包了。这也意味着AI真正进入到了影视制作的核心环节。这个3.0系列是根据All-in-One的理念做的，把文字、图片、声音和视频这些多模态的输入输出都统一在一个体系里了。它不是简单地把功能堆在一起，而是把理解、生成和编辑变成了一个连贯的流程，创作者可以在一个模型里把所有事情都做完。以前创作得拆成好几步用好几个工具，现在不需要了。可灵在稳定性和表达力上下了很大功夫。以前画面容易崩、声音和动作对不上的问题这次解决了不少。通过“图生视频+主体参考”这种技术，不管镜头怎么变，人物形象、动作和声音都能保持稳定，品牌标识也能看得清。叙事方面支持最长15秒的连续生成，智能分镜和自定义镜头控制让创作者能直接把控节奏和结构。音画能力也到了影视标准，支持多语种和多种口音，人物口型、情绪表演更自然。可灵视频3.0是一个特别全能的模型，它像一个AI导演一样能解读剧本意图自动调度镜头。它支持最高15秒超长连续生成和多国语言、多种地方口音的表演。还有一个“图生视频+主体参考”技术能解决主体崩坏的问题。可灵视频3.0 Omni更是强化了角色一致性和指令响应速度。上传参考素材就能提取并绑定角色视觉特征和音色，角色在不同场景里都能保持一致的脸和声音。图片3.0系列则是强化静态画面的叙事感，用静帧讲故事。支持2K/4K超高清图直出，新增了系列组图生成功能保证风格统一。可灵AI从2024年6月DiT发布开始让大家能用AI做视频生成；到了2.0阶段变成了好用；这次基于All-in-One理念打造的3.0系列模型在O1和2.6的基础上又深化了Multi-modal Visual Language（MVL）交互理念。在专业可控和生成质量上有了大突破。