(问题)长期以来,计算机对视频的理解多停留在“识别物体”“估计光流”等层面。即使能够做短时运动预测,也往往依赖目标框或稀疏特征点。面对自然场景中云层飘移、水面涟漪、树叶摆动等细碎且连续的变化,传统方法容易出现运动断裂、局部撕裂、形变失真等问题,难以支撑高质量的视频生成与编辑,也更难满足机器人操作、无人系统感知等对动态一致性的要求。如何在更长时间跨度内,对画面中每个位置的运动做出细致、连贯且可控的预测,成为视频理解与生成领域的重要挑战之一。
从“预测一个物体下一帧位置”到“为每个像素绘制数秒内的运动轨迹”,视频理解正从粗粒度走向精细化、从短时预测走向中短时连续推演;未来,随着评测体系完善、算力与数据协同提升,以及在真实应用链路中的反复验证,像素级轨迹预测有望成为可控视频生成与智能感知的重要底座技术。但其社会化应用仍需在创新与治理之间保持稳妥平衡。