2024年6月的时候,可灵AI推出了DiT视频生成模型,这让行业进入了一个大家都能用的阶段。到了现在这个2024年2月5日,可灵又把3.0系列模型给全球上线了。现在黑金会员已经能用这个新系列,全量开放给所有人也就在眼前了。这次发布的模型有视频3.0、图片3.0,还有Omni版本,这些模型能把图片生成、视频生成、编辑这些影视流程给全给包了。这也意味着AI真正进入到了影视制作的核心环节。 这个3.0系列是根据All-in-One的理念做的,把文字、图片、声音和视频这些多模态的输入输出都统一在一个体系里了。它不是简单地把功能堆在一起,而是把理解、生成和编辑变成了一个连贯的流程,创作者可以在一个模型里把所有事情都做完。以前创作得拆成好几步用好几个工具,现在不需要了。 可灵在稳定性和表达力上下了很大功夫。以前画面容易崩、声音和动作对不上的问题这次解决了不少。通过“图生视频+主体参考”这种技术,不管镜头怎么变,人物形象、动作和声音都能保持稳定,品牌标识也能看得清。叙事方面支持最长15秒的连续生成,智能分镜和自定义镜头控制让创作者能直接把控节奏和结构。音画能力也到了影视标准,支持多语种和多种口音,人物口型、情绪表演更自然。 可灵视频3.0是一个特别全能的模型,它像一个AI导演一样能解读剧本意图自动调度镜头。它支持最高15秒超长连续生成和多国语言、多种地方口音的表演。还有一个“图生视频+主体参考”技术能解决主体崩坏的问题。可灵视频3.0 Omni更是强化了角色一致性和指令响应速度。上传参考素材就能提取并绑定角色视觉特征和音色,角色在不同场景里都能保持一致的脸和声音。 图片3.0系列则是强化静态画面的叙事感,用静帧讲故事。支持2K/4K超高清图直出,新增了系列组图生成功能保证风格统一。 可灵AI从2024年6月DiT发布开始让大家能用AI做视频生成;到了2.0阶段变成了好用;这次基于All-in-One理念打造的3.0系列模型在O1和2.6的基础上又深化了Multi-modal Visual Language(MVL)交互理念。在专业可控和生成质量上有了大突破。