从不同场景地图的视角对单目相机进行重定位的方案综述

您所在的位置：网站首页 › 多目视觉定位的优缺点 › 从不同场景地图的视角对单目相机进行重定位的方案综述

从不同场景地图的视角对单目相机进行重定位的方案综述

2024-07-14 09:24| 来源: 网络整理| 查看: 265

文章：A Survey on Monocular Re-Localization: From the Perspective of Scene Map Representation

作者：Jinyu Miaoa, Kun Jianga, Tuopu Wena, Yunlong Wanga, Peijing Ji

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系[email protected]。侵权或转载联系微信cloudpoint9527。

摘要

单目重新定位（MRL）在自主应用中具有关键地位，通过单个单目图像估计相对于场景地图的六自由度位姿。近几十年来，MRL技术取得显著进展，许多里程碑算法在定位精度和对视觉干扰的鲁棒性方面取得非凡成功。然而，在MRL研究中，场景地图的不同表示形式影响MRL方法的工作和性能。该综述通过对使用单目摄像头的MRL方法进行全面回顾，填补了现有综述中缺少地图方面的系统评估。主要内容包括：对MRL问题的定义和挑战的深入讨论，与现有综述的比较，MRL方法根据地图表示形式的分类，公共数据集的回顾和典型MRL方法的性能评估，以及对不同类型MRL方法的优缺点进行分析。此外，介绍了该领域的一些研究方向和个人观点。该综述可为对MRL感兴趣的新研究者提供有价值的参考材料，同时提供了一个持续更新的综述摘要，包括审阅过的论文和数据集，可在以下链接公开获取：https://github.com/jinyummiao/map-in-mono-reloc

图1：MRL发展概览。a) 每年以“视觉重定位”为标题的发表论文数量，b) MRL研究中的一些里程碑。

主要贡献

本综述的主要贡献可以总结如下：

据我们所知，这篇论文是首个专门关注以单目摄像头为主要传感器的视觉定位的综述。尝试提供深入的审查，使其成为新人和熟悉MRL问题的研究人员的系统参考资料。

本综述从一个新的角度审查了MRL方法，我们根据所使用地图的表示形式对现有算法进行了分类。地图与MRL解决方案之间的关系可以得到清晰的研究。

对于每一种带有不同场景地图的MRL方法，我们总结了典型的算法，同时介绍了广泛使用的数据集和评估指标。

此外，我们还在MRL研究中提供了一些开放性讨论，这有助于社区进一步改进MRL算法。

作为最终的贡献，我们在github.com上建立了一个不断更新的存储库，包括在本综述中审查的论文和数据集。

图2：本综述的结构。

内容概述

单目定位的挑战

单目重新定位（MRL）已经发展了几十年，在许多应用中取得了许多巨大的成功。然而，巨大的挑战仍然阻碍了MRL方法在真实世界自主性中的发展和使用。在图3中，给出了MRL算法的一些主要挑战：

图3：MRL方法的典型挑战。a）日夜变化，光照不断变化，b）季节变化，不同天气条件（夏天晴朗，冬天多雪），c）视点剧烈变化，d）外观相似的不同场所，称为感知混叠问题。

外观变化：由于单目摄像机是MRL解决方案中的主要传感器，因此场景的外观变化将极大地影响算法。条件外观变化，例如天气、光照、季节和昼夜变化使当前图像在视觉上与地图有很大的不同，从而对匹配构成挑战。而结构变化，如动态遮挡和布局变化将干扰几何位姿估计。

视点差异：当当前时间戳和建图阶段之间的摄像机视点差异很大时，MRL方法将受到有限的共视区域和物品布局变化的困扰。作为典型实例，无人机的跨视图MRL，相对视图，甚至是地面车辆的地面到空中MRL引起了越来越多的关注。

感知混淆：在一些场景中，具有视觉相似或重复纹理的情况下，当不同的地方具有相似的外观时，MRL方法将生成模糊的估计，例如走廊和停车场，这称为感知混淆问题。

泛化和可扩展性：现实世界的场景是无限的，我们无法穷尽所有类型、视觉条件和可能发生的场景干扰。实际的现实世界自主性要求MRL方法在各种场景中稳定工作，甚至在未见过的环境中也能工作，这被称为泛化能力。此外，现实世界是无界的，我们还需要可扩展的MRL解决方案，以限制随着车辆不断探索而不可忍受的地图大小和计算成本的增加。

地理标记帧地图

在建图阶段，许多帧都被标记了地理位置，甚至是精确的六自由度（6 DoF）姿势。这些地理标记帧可以作为MRL方法中的场景地图。在这一领域中，一些提案通过检索到的地理标记帧的历史姿势（图4a）或查询图像与地理标记帧之间的估计相对姿势（图4b）来估计自身位姿。

图4：使用地理标记帧作为地图的MRL方法示意图，包括a）VPR和b）RPR方法。

视觉地点识别（VPR）：在给定当前查询图像的情况下，VPR通过检索参考图像来识别车辆返回到先前访问的场景时重新观察到的地点，通常用作分层定位流水线中的粗略步骤，或者作为同时定位与地图构建（SLAM）系统中的环路闭合检测（LCD）模块。检索到的参考图像的姿势可以被视为当前查询图像的近似姿势。

相对姿势估计（RPR）：RPR方法旨在估计查询图像与地图中的参考图像之间的相对姿势，由于成对RPR的尺度恢复尚未完全解决，RPR方法无法实现非常高精度的定位性能。但是，对场景地图的低要求仍然使得RPR在轻型应用（如增强现实）中引起越来越多的关注。

视觉地标地图

视觉地标地图作为场景地图中最常用的表示格式，是通过运动结构（Structure from Motion，简称SfM）或同时定位与地图构建（Simultaneous Localization and Mapping，简称SLAM）构建的。视觉地标是通过三维重建从二维像素中提取的一些信息丰富而代表性的三维点，它们与各种观测图像中的对应局部特征相关联，包括二维关键点和高维描述子，如图7所示。

图 7: 使用视觉地标地图的MRL方法示意图

局部特征提取-匹配：局部特征检测图像中的大量显著像素（表示为关键点），并使用高维向量（表示为描述符）描述关键点的邻域。在VL-MRL方法的背景下，局部特征用于获取图像之间准确的2D-2D像素级对应关系。局部特征算法检测到的关键点应在不同的图像条件和质量下是可重复的，同时位于显著区域，以便由局部特征构建的视觉地标可以是稀疏的但富有信息，以代表整个场景。并且描述子应被指定为在不同视图之间准确建立检测到的特征点之间的对应关系，因此它们需要对典型的视觉干扰具有不变性。如图8所示，大多数先进的局部特征即使在高性能GPU设备上也无法满足效率要求，这阻碍了局部特征算法在实时应用中的使用

图8：在HPatches数据集上的每秒处理帧数（FPS）和平均匹配精度（MMA）

局部特征提取-匹配方案在大多数情况下表现良好，并长时间支持高精度的VL-MRL。然而，仍然存在一个根本缺陷，即如果提取的局部特征非常糟糕，则无法进行良好的匹配。对于匹配的监督只能优化匹配模块，但不能在提取模块上做任何努力，如图9a所示）。为解决这个问题，提出了联合局部特征提取和匹配解决方案，或称为免检器匹配。

图9：a) 局部特征提取-匹配方法和b) 提取与匹配方法的示意图。

联合提取与匹配方案：联合提取与匹配方案突破了需要首先提取优秀局部特征的匹配限制，在具有挑战性的场景中实现了令人印象深刻的匹配性能，使VL-MRL方法更加实用，但它需要Iq和Ir作为输入，这要求场景地图另外保存Ir，增加了场景地图的存储成本。需要探索一种存储友好的方案。

图10: 由SuperPoint+ SuperGlue、DRCNet和 LoFTR 等局部特征匹配的一些实例

位姿求解器：在给定准确的2D-3D对应关系的情况下，PnP是一个成熟的问题，可以得到很好的解决，可以精确地估计姿势。然而，在大多数实际情况下，2D-3D对应关系通常存在许多甚至主导性的不匹配，给姿势估计过程带来挑战，PnP求解器通常集成到RANSAC循环中，以更稳健、更精确地估计。

进一步的改进：除了特征提取、匹配和位姿求解器之外，还有一些尝试改进VL-MRL方法的工作。

交叉描述符匹配: 克服了传统VL-MRL方法对相同局部特征的假设，通过将不同类型的描述符转化为其他描述子或联合嵌入，间接匹配不同描述子。

线特征: 引入线对线的局部特征，提供了在人造环境中的额外约束，通过新颖的线段描述符增强了在点特征偏向或稀疏场景中的定位性能。

稠密CNN匹配: 利用多尺度密集CNN特征解决室内环境中纹理稀疏区域的问题，通过GN损失优化深度特征，专门用于直接图像对齐。

VL-MRL无SfM：探索了基于稠密3D网格的替代方案，无需在建图和定位阶段进行局部特征匹配，以降低计算和内存成本。

地图压缩: 引入SceneSqueezer框架，通过对Ir进行聚类、学习点选择模块修剪视觉地标、学习量化进一步压缩描述符，实现场景地图的压缩，减小存储需求。

位姿验证和校正: 利用虚拟视图进行姿势验证，提出姿势校正来重新组织局部特征，以提供更可靠的候选姿势。

开源工具箱: 通过开源工具箱如HLoc2、Kapture-Localization3和XRLocalization4，促进VL-MRL研究的发展，简化新贡献验证和提案评估的流程。

图11：点和线互补，以实现更好的定位

Point Cloud Map (点云地图)

由于保存了高维特征描述子，视觉地标地图对存储有很大需求。外观的敏感性（例如，光照）也对使用单目摄像头进行地图构建产生挑战，并影响了视觉地标地图的重建。作为替代方案，激光雷达可以提供对场景地图几何结构的直接和精确的3D感知，由高精度激光雷达构建的点云地图通常是不受照明影响的，并且通常比视觉地图更精确。

图12：四种典型的跨模态I2P定位方法的示意图，包括基于几何的a) G-I2P，和基于学习的 b) I2P-VPR，c) I2P-RPR，以及d) I2PMLoc。

基于几何的跨模态定位：基于几何的Image-to-Point cloud (G-I2P)方法通过传统的几何规则在LiDAR地图中定位摄像头。在G-I2P的研究中，立体摄像头是一个自然的选择，因为我们可以通过立体匹配轻松将2D图像数据提升到3D，从而使摄像头与点云地图之间的对齐变得更加容易。对于G-I2P，已经做出了许多尝试并取得了令人瞩目的成功，但所有这些工作都需要集成到视觉里程计（VO）流程中，以获得位姿的初始猜测，并且仅使用一个单目图像进行重新定位较为困难。这些方法往往在点云地图中应用连续的重新定位来进行绝对姿势估计，以便将绝对约束添加到VO系统中，缓解长期探索中的漂移问题。

基于学习的跨模态定位：跨模态视觉地点识别（I2P-VPR）：最近，学者们开始探索基于深度学习的方法，通过仅使用一个单目图像实现I2P定位。首先，许多研究将GF-VPR方法引入到这个跨模态I2P定位任务中，并提出了I2P-VPR算法。跨模态数据之间的固有差异使得I2P本地化变得困难。借助高维CNN特征，跨模态数据的匹配变得可能。总体而言，I2P-VPR仅用于检索参考点云片段并提供粗略的姿势估计。I2P-RPR和I2P-MLoc可以提供更精确的姿势估计。I2P-RPR避免了显式的特征匹配和姿势求解器，训练成本较低，但无法实现非常高的本地化精度。相反，I2P-MLoc在跨模态本地化任务中表现最佳，展现了良好的发展前景。

矢量化高精地图

在自动驾驶任务中，场景地图的紧凑性和准确性是两个至关重要的特征。因此，自2010年末首次出现以来，自动驾驶领域最广泛使用的地图是HD Map。通常，HD Map是由搭载高精度传感器（包括激光雷达、RTK和IMU）的移动建图系统创建的，精度可达厘米级。HD地图中的定位特征包括密集的点云和稀疏的地图元素。我们关注通常表示为带有语义标签的矢量的稀疏地图元素。这些元素对应于现实世界中的道路元素或标志，例如照明杆、道路标记和车道线。这种基于语义元素的地图表示比其他场景地图（如点云地图和视觉地标地图）更轻便，同时携带了高度详细的道路元素。具有HD地图的MRL（HD-MRL）被认为是批量生产车辆的有效解决方案，HD-MRL方法的基本公式包括从图像中识别HD地图的语义元素，然后通过将图像中检测到的2D元素与HD地图中相应的3D元素对齐来估计姿势。

图13: 带有矢量化HD地图的MRL方法示意图

HD地图应该是最紧凑且轻量级的场景地图，因此被自动驾驶研究所青睐。尽管它需要高昂的构建和维护成本，但最近提出的众包地图构建和更新策略可能有助于降低维护成本，使HD地图更广泛地被接受。在HD地图中进行MRL仍然是一个非常困难的问题，因为在视觉观测和HD地图中的语义元素之间进行精确的数据关联在理论上是困难的。传统方法寻求借助多传感器融合或在线测程法的帮助，而最近的基于学习的方法则利用了DNN模型先进的表示能力。基于定位性能和所需的传感器设置，我们认为基于学习的方法是HD-MRL更有前途的方式。

图14: HD地图与图像语义分割之间对齐的示例。(a) 精确对齐; (b)-(g) 在自由度扰动下的对齐结果: 滚动、俯仰、偏航、x、y 和 z。语义分割: 自由空间 (黄色)、车道标线 (橙色和紫色)。从HD地图投影: 车道标线 (绿色) 和路牌 (青色)。

基于学习的隐式地图

在当前深度学习时代，学者们开始以更加隐式的方式重新思考场景地图的表示格式。一些最近提出的作品将场景地图编码到神经网络中，使网络可以实现一些惊人的功能，比如直接恢复图像的姿势（称为绝对姿势回归，APR）、估计图像中每个像素的3D坐标（称为场景坐标回归，SCR）或呈现场景的几何结构和外观（称为神经辐射场，NeRF）。由于高性能计算设备、成熟的深度学习技术和庞大的训练样本数量，这种隐式地图可能是未来MRL方法（称为NN-MRL）的新选择。这里回顾了基于APR、SCR和NeRF的MRL方法，如图15所示。

图15: 具有隐式地图的MRL方法的示意图，例如a) APR方法，b) SCR方法，以及c)和d)基于NeRF的方法

作为一种新兴技术，NeRF具有两个有利特征：1) 场景的隐式表示；2) 在新的视点渲染合成图像的能力。这两个特征在MRL研究中展现了巨大的潜力。当前在这一领域的尝试主要集中在将NeRF与APR方法结合使用。在NeRF的辅助下，APR在小型和中型场景中的表现可以与甚至优于VL-MRL方法。但我们必须说，在MRL中利用NeRF仍然是一个待探讨的开放性问题。

图16: NeRF增强的APR方法实例，a) 使用查询图像和渲染图像之间的光度一致性的Direct-PoseNet，b) 使用查询图像和渲染图像之间特征一致性的DFNet。

实验

在室外Cambridge Landmarks 和室内7Scenes 上比较了许多具有各种场景地图的MRL方法，如表8和表9所列。

在室外场景中，MRL方法的定位准确性排名应为：

NeRF姿态估计器 > I2P-MRL > SCR > APR+NeRF ≈ VL-MRL > RPR > APR > VPR。

在室内场景中，MRL方法的排名略有变化：

NeRF姿态估计器 ≈ I2P-MRL ≈ SCR ≈ APR+NeRF ≈ VL-MRL > RPR > APR > VPR。

可以看出，在小尺度室内场景中，尽管APR和RPR的表现不如其他MRL方法，它们仍然可以实现令人满意的定位性能。鉴于APR和RPR对于构建地图的低要求，它们可以用于一些不需要高精度定位的应用，如虚拟现实（VR）。VPR仅检索视觉上相似的参考图像，并将参考姿势视为查询姿势的近似姿势，因此在室外场景中，当参考图像很少时，其定位精度非常有限。在室内场景中，大多数具有各种场景地图的MRL方法实现了可比较的定位性能。但在室外场景中，不同方法之间的差距更为显著。像NeRF-Loc、I2P-MRL、SCR和APR+NeRF这样将NeRF用作姿态估计器的方式似乎是MRL研究中具有前景的方法。将基于NeRF的定位适应到大规模无界场景中，减少I2P-MRL对高精度点云地图的要求，降低SCR的训练成本应该被探索，以使这些MRL方法更实用。

未来视觉定位的趋势

端到端流程：MRL方法需考虑环境变化的鲁棒性，端到端定位系统可能是未来的趋势。这种方法整合了特征提取、匹配和姿势估计，通过姿势监督学习几何先验，弥补了特征匹配和定位之间的差距。

资源友好型MRL：实现实时自我姿态估计需要考虑场景地图的存储需求和算法运行效率。轻量级、紧凑的场景地图和资源友好型MRL方法将更受欢迎，其中端到端和NN-MRL方法作为粗步骤，提高效率。

新型地图的MRL：使用新类型场景地图，如密集网格地图和隐式神经网络地图，是MRL研究中的新趋势。理想的场景地图应该轻巧易建、提供全面信息，并抵抗实际场景变化。

多传感器融合用于定位：多传感器融合是解决视觉信息对环境干扰敏感的问题的有效手段。将MRL与其他传感器定位系统结合，如IMU、GNSS等，有望提高稳定性和性能。

总结

在这项研究中将MRL方法定义为一种交互过程，涉及查询图像和场景地图之间的相互作用，通过该过程估计姿态。接着系统地审查了基于所使用的场景地图表示格式的MRL方法。具体而言涵盖了使用地理标记帧地图、视觉地标地图、点云地图、高精地图以及最近提出的学习隐式地图的MRL方法。我们对每种MRL方法及其相关组件进行了全面审查。此外回顾了MRL方法的评估，并根据典型算法的评估结果得出了一些结论。我们提出了该领域的一些未解问题，并陈述了我们的个人观点。最后作为对学术社区的持续贡献，在网站上列出了已审查的论文和数据集，以方便研究人员根据他们的兴趣找到最匹配的MRL方法。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测（代码开源）

用于三维点云语义分割的标注工具和城市数据集

更多文章可查看：点云学习历史文章大汇总

SLAM及AR相关分享

TOF相机原理介绍

TOF飞行时间深度相机介绍

结构化PLP-SLAM：单目、RGB-D和双目相机使用点线面的高效稀疏建图与定位方案

开源又优化的F-LOAM方案：基于优化的SC-F-LOAM

【论文速读】AVP-SLAM：自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

易扩展的SLAM框架-OpenVSLAM

基于鱼眼相机的SLAM方法介绍

以上内容如有错误请留言评论，欢迎指正交流。如有侵权，请联系删除

让我们一起分享一起学习吧！期待有想法，乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉，点云，高精地图，自动驾驶，以及机器人等相关的领域。

分享与合作：微信“cloudpoint9527”（备注：姓名+学校/公司+研究方向）联系邮箱：[email protected]。

【本文地址】

公司简介

联系我们