SLAM论文综述

有这样一个说法,计算机视觉研究方向可以分为两个主要方向:基于学习的方法和基于几何的方法。基于学习的方法目前最火的属于Deep Learning,基于几何的方法最火的非SLAM莫属了。这里的学习笔记主要记录在公众号“计算机视觉life”中学习的专题《从零开始一起学习SLAM》和高翔博士的《视觉SLAM十四讲》,小白我也是从零基础刚开始学习,希望笔记能一直记录下去吧~

很多小伙伴入门SLAM用的是高翔的《视觉SLAM十四讲》,需要下载高清电子版的话可以戳这里,提取码是:onkn

点击这里,可以下载几篇SLAM领域的综述论文,提取码:79um。目前只看了一篇中文的综述(惭愧),其他的等学习了一部分基础知识后再回来总结。

**《基于单目视觉的同时定位与地图构建方法综述》**概要

目前用在SLAM上的Sensor主要分两大类,激光雷达和摄像头,而基于单目视觉的同时定位与地图构建技术(V-SLAM)属于使用摄像头做Sensor一大类,这篇论文简述了V-SLAM中的基于单目视觉的SLAM的基本原理(具体看论文去~)。代表性的单目V-SLAM系统为:

  • 基于滤波器的V-SLAM:论文介绍了MonoSLAM和MSCKF两个系统。

  • 基于关键帧BA(BA指的是集束调整:bundle adjustment):论文重点介绍了ORB-SLAM。

  • 基于直接跟踪的V-SLAM:论文介绍了DTAM和LSD-SLAM。

基于滤波器和基于关键帧 BA 的 V-SLAM 通常都需要在图像中提取并匹配特征点, 因此对环境特征的丰富程度和图像质量(如模糊程度、图像噪声等)十分敏感. 相比之下, 直接跟踪法(Direct Tracking)不依赖于特征点的提取和匹配, 而是直接通过比较像素颜色来求解相机运动, 因此通常在特征缺失、图像模糊等情况下有更好的鲁棒性.

此外论文对这三种单目V-SLAM系统的优缺点做了详细分析。

近年研究热点与发展趋势

  • 缓解特征依赖

V-SLAM 最大的局限在于过于依赖场景特征. 基于直接跟踪的方法通过直接对比像素颜色, 避免了对特征缺失/图像模糊非常敏感的特征提取和匹配过程, 从而很大程度上缓解了特征依赖. 然而, 稠密或半稠密的直接跟踪会引入很大的计算量, 若要运行在计算性能较低的移动设备上, 就需要将图像降采样至很小的分辨率, 那么必然会降低跟踪精度。

V-SLAM 对场景特征的依赖, 本质上是由于使用了过于底层的局部特征(点特征), 如果能利用边缘、 平面等更为高层的图像信息, 也能有效地缓解特征依赖。

  • 稠密三维重建

基于单目摄像头的稠密三维重建的难点在于需要实时恢复稠密的深度图, 这一过程通常都需要引入很大的计算量, 关键是如何权衡重建精度和计算效率。

上述方法虽然都能实时重建出稠密的三维信息, 但大多依赖于 GPU 并行计算. 然而在很多 AR 应用中, 往往 GPU 需要用来绘制虚拟物体. 因此如何进一步提高效率, 只用 CPU 就能恢复稠密或半稠密的三维信息, 仍值得进一步研究。

  • 多传感器融合

基于单一传感器的定位方案不可避免地都有各自的固有局限: 仅基于图像的 V-SLAM 依赖场景纹理特征; 仅基于 IMU 的定位通常有严重的误差累积; 仅基于深度的 SLAM 依赖于场景几何特征, 且设备获取深度的精度和范围受限于设备的成本和功耗. 只有将不同传感器数据融合起来, 才能互相取长补短, 达到最高的精度和鲁棒性. 如今大多数移动设备都配有单目摄像头和 IMU, 有的甚至配有双目、 鱼眼或深度摄像头, 如何融合这些多传感器数据成为近年来的一个研究热点。

updatedupdated2019-12-282019-12-28