咱们来聊聊国内音视频生成这块的动静吧。字节跳动刚出了个Seedance2.0,搞得挺火,连马斯克都忍不住在网上发评论说这速度太快了。不过我还得先说说前面发生的事儿,就在这个月早些时候,上海创智学院和模思智能联手搞了个MOVA,这可是咱们国家第一个开源的高质量音视频同步生成模型,填补了国内的一块空白。邱锡鹏教授是这项目的负责人,他还接受了解放日报的独家专访呢。 咱们先看效果,这MOVA生成的视频看着挺有真实感吧?大家都觉得Seedance2.0挺厉害的,毕竟人家是商用化的产品。但MOVA这种学院派路子又有啥特别的呢?说到这儿就得说说邱锡鹏了。 这两个模型最大的不同在哪儿?现在大家都盯着音视频生成这块呢,MOVA和Seedance2.0都做到了画面和声音同步输出,算是真正的音画一体了。不过看单段效果,还是有差距的:MOVA最长支持8秒、720p的分辨率;Seedance2.0能到15秒时长,还能有2K高清分辨率。现在市场上的模型大多都是闭源的,Seedance2.0也不例外,不给下载也不让本地部署。“完全开源,”邱锡鹏说,“这就是MOVA跟其他模型最大的不同。” 为啥要开源?他觉得只有这样才能普惠大众,吸引更多人研究,推动技术进步还能建设国内的开源生态。这就是他们为什么连360p和720p的基础模型都完整开源了。还有微调、推理、生成工作流这些全链路组件也都开源了。不管是做动漫还是游戏,都能用MOVA当底座自己改造。 这也不是邱锡鹏团队第一次搞开源了吧?2023年2月复旦大学发布了类ChatGPT的MOSS大模型,没过俩月就把它开源了。MOSS是国内第一个支持搜索、画图、计算这些插件的开源对话模型。 除了全栈开源,MOVA还搞了个混合专家创新架构,把质量和推理效率兼顾起来。“我们就把自己定位成挑战者嘛,”邱锡鹏说,“Seedance2.0是商用导向的大家伙,我们是要建开放社区的那种路子。” 做音视频模型比做文本模型难多了,数据量太大了不说,底层基础设施也不咋完善。“做这事特难,”邱锡鹏感慨道,“以前学术界基本没法搞定这事儿。”算法没太多现成的东西能抄,数据工程这块也不是高校和科研机构的强项。 好在上海创智学院有“研创学”的氛围,学生能深度参与大项目实战锻炼出来。哪怕刚开始没啥基础的学生经过半年打磨也挺有本事的。学院孵化的模思智能呢,用企业的优势把数据工程这块的难关给啃下来了。