mova1.5,让视频成为模型获取智能的第二个来源

哟,听说了没?2023年2月,复旦大学可是搞了个大新闻,类ChatGPT的对话大模型MOSS正式开源了,成了国内首个支持各种插件的对话模型。哎,结果没多久,上海创智学院和模思智能就联手推出了MOVA1.5这个模型。邱锡鹏教授是项目负责人,他把这俩模型的差别解读得挺透彻的。你看啊, Seedance2.0那是商用级别的,性能强到马斯克都在X平台夸它“发展速度太快了”,能生成长达15秒的2K高清视频。但你知道这MOVA1.5有啥特别的吗?它可是国内首个开源的高质量音视频同步生成模型!给大家个惊喜,MOVA支持最长8秒、720p的视频生成。别说,效果真是惊艳,给人一种身临其境的真实感。 为啥说它是个大不一样的“挑战者”呢?别的模型大多都闭源不给看,Seedance2.0就不提供文件、也不让下载部署。但MOVA不一样,它完全是对公众敞开大门的。邱教授说了,只有开源才能让技术普惠大家,吸引更多人参与研究,推动进步。所以MOVA不光开放了基础模型,还把从微调到推理、生成的全流程都给放出来了。不管你是做动漫还是游戏,都能用它当底座来优化开发。你看这动作多快啊?前面刚发了MOSS,两个月后又发布MOVA,这就是上海经信委和上海创智学院在做的事。 大家肯定好奇,这么难的音视频生成技术是怎么做到的?邱教授坦言啊,这在过去学术界几乎是不可能完成的任务。数据量太大了!比文本模型大得多,再加上基础设施还不完善。不过好在学院鼓励“研创学”结合,学生有机会参与实战,半年时间里就能练出真本事。模思智能作为企业呢,也解决了数据工程这块的关键难题。嘿!这次MOVA1.5马上要在3月底推出了,性能还会有大提升。这就相当于把一个完整的技术路线给大家展示出来了。 现在全球这块赛道竞争多激烈啊!邱教授觉得咱们国家的模型还得靠开源来推动生态建设。至于未来怎么走?他的理想状态是让视频模型像人类一样理解世界,让视频成为模型获取智能的第二个来源。这种“视频思考”的新范式和这次的MOVA1.5真是太契合了!只要把模型治理水平提上去了,智能迭代就有希望。其实视频生成本身只是个基础任务啊,核心价值在于把它变成赋能模型的工具!最终目标可是指向通用人工智能呢!