openai的sora靠60秒长视频火出圈，谷歌就赶在2024年i/o 大会上甩出了ve

OpenAI的Sora刚靠60秒长视频火出圈，谷歌就赶在2024年I/O大会上甩出了Veo，直接把视频长度门槛拉到了70秒以上，支持1080p分辨率，还搞出了风格自定义和实时编辑这些绝活。实测对比挺有意思，张薇说他们拿Veo做了支化妆品广告，只用3小时就把原本两周的活儿干完了。就是给产品图配上“水润光泽”这种词，系统就能按分镜剧本生成成片，液体流动的质感已经到了专业级动态摄影的85%水准。最爽的是改起来方便，客户想让瓶身上的彩虹光强20%，传统做法得重拍，Veo直接拖个参数滑块就行。李明这技术大拿试过两款工具后说，Sora像个有天赋的画家，Veo更像受过训练的动画师。生成舞蹈片段时，Veo能把人体关节转得很顺，Sora偶尔会把脚穿进地板。这差别主要是因为两家的训练数据路子不一样。谷歌是用了超过200万段标注好物理参数的合成视频喂的模型，而OpenAI主要是靠看纯视觉素材自己琢磨。视频里那70秒的“海边落日”主题测试也很直观。Veo生成的海浪动起来特别连贯，浪花碎了以后泡沫消散的细节比Sora多了约17%的关键帧过渡。这多亏了谷歌新搞的“时空注意力机制”，能让模型同时盯着画面里的空间关系和时间轴上的变化。底层的“世界模型”管物理模拟，中层的“美学引擎”管艺术风格，顶层的“导演系统”负责协调各方，这种分层架构让用户只要喊个“赛博朋克风格的机器人维修过程”之类的提示词，就能同时控制内容和形式。不过Veo也有弱点。动画师陈涛试了下50秒以上的复杂场景后发现，背景元素有时会轻微移位。这就好比乐团演奏时有些乐器慢慢走调了，外行不一定听得出来，但专业人士听着就觉得叙事不顺。谷歌的工程师解释说这是长序列建模的通病，下一代产品会通过“场景记忆体”技术来解决。不过抛开这点小毛病不谈，这个提升了80%效率的工具确实是在重新定义影视工业的标准了。