我国科研团队在计算机视觉领域取得突破性进展 三项创新技术亮相国际顶会

问题——智慧城市测绘、机器人导航、工业质检与医学影像等场景中,计算机视觉不仅要“看得清”,更要“说得准、做得稳”。一上,点云驱动的三维重建常遇到结构复杂、遮挡严重、语义信息不完整等难题,传统以局部检测为主的方法很难保持整体拓扑一致;另一方面,真实生产中的异常分割往往缺少足够标注样本,在零样本设定下容易出现语义过于抽象、定位不够精细、跨模态对齐不足等问题;同时,相机在陌生或动态环境中的快速重定位仍是影响机器人稳定作业的关键瓶颈。 原因——业内不少方法仍将重建任务拆分为“检测—拼接”,或依赖随机采样的生成范式,容易得到“局部正确、整体失真”的结果;异常分割受限于“语言能描述、像素难对齐”的落差,模型对“异常”的理解难以准确落到具体空间区域;重定位方法多依赖点级对应关系,在弱纹理、重复结构或光照变化情况下鲁棒性不足。 影响——这些难点直接制约视觉智能从实验走向产业:建筑结构重建如果缺乏可控性与一致性,会影响数字孪生与资产管理的精度;异常分割若无法在缺样本条件下可靠工作,将推高质检与医疗筛查成本;重定位不稳定则可能导致机器人作业中断、定位漂移,甚至带来安全风险。 对策——针对建筑线框重建,研究团队提出BuildingGPT思路,将任务改写为“序列预测”:先对建筑结构进行层级化Token化,把几何与语义组织为有序序列;再用点云编码器将输入压缩为固定长度的潜在表示作为生成起点,模型在已生成序列条件下逐步预测后续Token,最后通过反Token化还原完整线框。为增强结构合理性与语义一致性,该方法采用两阶段训练:先进行自回归预训练获得基础生成能力,再引入直接偏好优化,使输出更贴近人类偏好与建筑结构规律。整体上,此路线强调“结构先行、全局一致、可控生成”,为复杂建筑表达提供了新思路。 针对零样本异常分割,研究团队提出AG-VAS框架:通过引入三个可学习语义锚点标记[SEG]、[NOR]、[ANO],把抽象的异常概念转化为具有空间指向的视觉实体,并以“正常—异常”的相对锚点建立对比语境,减轻语义漂移。为深入提升跨模态对齐,框架设计语义-像素对齐模块,加强语言语义嵌入与高分辨率视觉特征的映射;同时提出锚点引导的掩码解码器,用锚点条件约束实现更精细的异常定位。团队还构建指令数据集Anomaly-Instruct20K,将异常知识按外观、形状与空间属性结构化组织,为模型学习提供更可迁移的“异常描述”。实验显示,该方法在多项工业与医疗基准的零样本设定下保持领先且稳定的表现,体现出面向真实场景的泛化能力。 围绕相机重定位,团队还探索PlanaReLoc方向,将关注点从点级对应扩展到三维平面基元的区域结构匹配,尝试利用更稳定的几何结构提升在弱纹理或重复纹理场景中的定位可靠性,为移动机器人与AR等应用提供更稳健的支撑。 前景——视觉智能正从“检测与匹配”逐步走向“结构化生成与可控对齐”。随着城市级点云数据持续积累、工业现场对低停机质检需求增加,以及医疗影像对可解释定位的要求提升,上述研究在落地路径上更为清晰:三维重建可进一步走向标准化结构表达与可编辑建模;异常分割有望在缺标注场景中降低部署门槛;重定位则可通过更高层几何基元提升稳定性。下一步,如何在保证精度的同时降低算力与数据成本、完善评测体系与安全边界,将成为迈向规模化应用的关键。

基础研究的价值往往需要时间来验证。从建筑结构的序列化重建,到异常语义的锚点引导感知,再到平面基元驱动的场景重定位,这些看似分散的探索共同指向一个更大的问题:如何让机器真正理解三维世界的结构与语义。科研的意义不止于发表论文、刷新指标,更在于为未来的突破提供可复用的思路与工具。中国科学院自动化研究所的这批成果,可能会成为若干年后某项重要应用技术的起点之一。