OpenAI的Sora刚靠60秒长视频火出圈,谷歌就赶在2024年I/O大会上甩出了Veo,直接把视频长度门槛拉到了70秒以上,支持1080p分辨率,还搞出了风格自定义和实时编辑这些绝活。实测对比挺有意思,张薇说他们拿Veo做了支化妆品广告,只用3小时就把原本两周的活儿干完了。就是给产品图配上“水润光泽”这种词,系统就能按分镜剧本生成成片,液体流动的质感已经到了专业级动态摄影的85%水准。最爽的是改起来方便,客户想让瓶身上的彩虹光强20%,传统做法得重拍,Veo直接拖个参数滑块就行。 李明这技术大拿试过两款工具后说,Sora像个有天赋的画家,Veo更像受过训练的动画师。生成舞蹈片段时,Veo能把人体关节转得很顺,Sora偶尔会把脚穿进地板。这差别主要是因为两家的训练数据路子不一样。谷歌是用了超过200万段标注好物理参数的合成视频喂的模型,而OpenAI主要是靠看纯视觉素材自己琢磨。 视频里那70秒的“海边落日”主题测试也很直观。Veo生成的海浪动起来特别连贯,浪花碎了以后泡沫消散的细节比Sora多了约17%的关键帧过渡。这多亏了谷歌新搞的“时空注意力机制”,能让模型同时盯着画面里的空间关系和时间轴上的变化。底层的“世界模型”管物理模拟,中层的“美学引擎”管艺术风格,顶层的“导演系统”负责协调各方,这种分层架构让用户只要喊个“赛博朋克风格的机器人维修过程”之类的提示词,就能同时控制内容和形式。 不过Veo也有弱点。动画师陈涛试了下50秒以上的复杂场景后发现,背景元素有时会轻微移位。这就好比乐团演奏时有些乐器慢慢走调了,外行不一定听得出来,但专业人士听着就觉得叙事不顺。谷歌的工程师解释说这是长序列建模的通病,下一代产品会通过“场景记忆体”技术来解决。不过抛开这点小毛病不谈,这个提升了80%效率的工具确实是在重新定义影视工业的标准了。