上海创智学院和mova 联手搞了个mova

咱们来聊聊国内音视频生成这块的动静吧。字节跳动刚出了个Seedance2.0，搞得挺火，连马斯克都忍不住在网上发评论说这速度太快了。不过我还得先说说前面发生的事儿，就在这个月早些时候，上海创智学院和模思智能联手搞了个MOVA，这可是咱们国家第一个开源的高质量音视频同步生成模型，填补了国内的一块空白。邱锡鹏教授是这项目的负责人，他还接受了解放日报的独家专访呢。咱们先看效果，这MOVA生成的视频看着挺有真实感吧？大家都觉得Seedance2.0挺厉害的，毕竟人家是商用化的产品。但MOVA这种学院派路子又有啥特别的呢？说到这儿就得说说邱锡鹏了。这两个模型最大的不同在哪儿？现在大家都盯着音视频生成这块呢，MOVA和Seedance2.0都做到了画面和声音同步输出，算是真正的音画一体了。不过看单段效果，还是有差距的：MOVA最长支持8秒、720p的分辨率；Seedance2.0能到15秒时长，还能有2K高清分辨率。现在市场上的模型大多都是闭源的，Seedance2.0也不例外，不给下载也不让本地部署。“完全开源，”邱锡鹏说，“这就是MOVA跟其他模型最大的不同。” 为啥要开源？他觉得只有这样才能普惠大众，吸引更多人研究，推动技术进步还能建设国内的开源生态。这就是他们为什么连360p和720p的基础模型都完整开源了。还有微调、推理、生成工作流这些全链路组件也都开源了。不管是做动漫还是游戏，都能用MOVA当底座自己改造。这也不是邱锡鹏团队第一次搞开源了吧？2023年2月复旦大学发布了类ChatGPT的MOSS大模型，没过俩月就把它开源了。MOSS是国内第一个支持搜索、画图、计算这些插件的开源对话模型。除了全栈开源，MOVA还搞了个混合专家创新架构，把质量和推理效率兼顾起来。“我们就把自己定位成挑战者嘛，”邱锡鹏说，“Seedance2.0是商用导向的大家伙，我们是要建开放社区的那种路子。” 做音视频模型比做文本模型难多了，数据量太大了不说，底层基础设施也不咋完善。“做这事特难，”邱锡鹏感慨道，“以前学术界基本没法搞定这事儿。”算法没太多现成的东西能抄，数据工程这块也不是高校和科研机构的强项。好在上海创智学院有“研创学”的氛围，学生能深度参与大项目实战锻炼出来。哪怕刚开始没啥基础的学生经过半年打磨也挺有本事的。学院孵化的模思智能呢，用企业的优势把数据工程这块的难关给啃下来了。