最近OpenClaw和LoGeR这两个项目让人觉得挺惊喜的,它们都用到了AI记忆技术,把3D重建这块儿给推动了一把。OpenClaw就是个私人助手,它能记住你说过的话、喜欢的设置,还有之前做的任务,就算换个地方聊天也能接着聊,特别方便。 再来说说谷歌DeepMind和加州大学伯克利分校一起搞的LoGeR。这个技术挺厉害的,以前3D重建只能搞几千帧,现在给它装上混合记忆模块之后,帧数直接干到了近2万帧。以前那种模型处理长视频容易卡壳,现在LoGeR把视频切成一段一段的来处理,还用了双向先验来猜这些小段里的东西。 当两段视频接不上茬的时候,LoGeR就用参数化的测试时训练(TTT)模块把坐标给统一起来。它还用上了滑动窗口注意力(SWA)来记住没压缩的上下文,这样就能把相邻的块对齐得很准。这个系统能在128帧的视频里训练好后,还能泛化到几千帧去用。 在KITTI数据集上试了一下,LoGeR把绝对轨迹误差(ATE)给降低了超过74%。哪怕是那种时间跨度很长的视频或者VBR序列,它也能把大结构保持住,回环闭合也很稳定。跟别的方法比起来,比如TTT3R的实验设置下,LoGeR在3D重建质量和位姿估计这块儿都赢了。 这种AI记忆技术不光让3D重建更准了,以后智能设备肯定也会更聪明、更灵活。咱们可以期待一下,未来的生活因为有了OpenClaw和LoGeR这些技术会变得更方便、更好玩。