1. SlamCraft:单目平面稠密 SLAM

  • [1] Rambach J, Lesur P, Pagani A, et al. SlamCraft: Dense Planar RGB Monocular SLAM[C]. International Conference on Machine Vision Applications MVA 2019. + ==SlamCraft:单目平面稠密 SLAM== + Jason Rambach:德国人工智能研究中心  作者主页谷歌学术增强现实应用 + 2019 第二届国际机器视觉与应用会议(ICMVA 2019),2019 年 4 月 12 日在东京召开,EI 收录

摘要

  • 基于关键点的单目 SLAM 方法仅在 3D 点云中提供有限的结构信息,这不能满足增强现实等应用的需求;
  • 提供环境稠密地图的 SLAM 系统要么计算量大,要么需要来自其他传感器的深度信息;
  • 本文使用深度神经网络来估计 RGB 输入图像中的平面区域,并将其输出与 SLAM 系统的点云图迭代地融合,以创建一个有效的单目平面 SLAM 系统
  • 实验中提供了创建的地图的定性结果,以及本文方法的跟踪精度和运行时间的定量评估。

主要贡献

本文探索了将基于传统投影几何的 SLAM 系统CNN 输出信息相结合的潜力,提出了一种新的融合框架,应用于基于关键点的单目 SLAM 系统,将其稀疏点云与 CNN 平面表面分割系统相结合,以创建一个适用于室内 AR 的高效且稳健的稠密平面 SLAM 系统,无需使用任何深度传感器。

  • ① 提出一个仅使用单目 RGB 图像输入的高效的稠密平面 SLAM 框架
  • ② 提出一种基于平面信息的紧凑 surfel 地图表示方法;
  • ③ 利用在关键点上的平面约束,通过直接点修正提高跟踪精度

实现方法

  • ① 首先利用 ORB-SLAM2 对每帧图像处理,获取 3D 点和关键帧
  • ② 然后在一个新的独立的线程中利用 Planenet 网络仅针对关键帧进行平面分割(出于神经网络前向处理时间的考虑),输出的是图像 2D 分割出的不同的平面或非平面区域
  • ③ 为分割出的平面创建平面方程,并为其分配第一阶段获取的 3D 点
  • ④ 由于 3D 点并不提供在 3D 空间中平面的大小和边界,为此为每个平面提供一个平面维护的 surfels,其由 3D 点组成,表示以该点为中心的正方形区域属于该平面,同时为动态地更新和移除 surfels ,每个 surfel 也存在一个概率值

2. PlaneNet:从单张 RGB 图像进行分段平面重构

摘要

  • 本文提出了一种深度神经网络(DNN),用于从单个 RGB 图像分段重构平面深度图
  • 虽然 DNN 已经为单图像深度预测带来了显著的进步,但是分段的平面深度图重建需要结构化的几何图形表示,即使 DNN 也难以完成;
  • 本文所提出的端到端 DNN 学习直接从单个 RGB 图像推断出一组平面参数和相应的平面分割掩模
  • 从 ScanNet(一个大型 RGBD 视频数据库)生成了超过 5000 个分段平面深度图,用于训练和测试;通过定性和定量评估表明,所提出的方法在平面分割和深度估计精度方面均优于 baseline 方法。
  • 本文提出了第一个端到端神经网络结构,用于从单个 RGB 图像中进行分段平面重建

实现方法

DRNs 框架上构建王阔,这是一个灵活的框架,可用于全局任务(如图像分类)和像素预测任务(如语义分割),将预测任务分为三个分支:

  • 平面参数化:从全局池化开始预测平面参数,每个平面由法线和偏移参数化
  • 平面分割:从金字塔池化开始,接着是卷基层,以产生平面和非平面表面的 k+1 通道的似然图,然后附加一个稠密条件随机场(DCRF),并将其与先前层联合训练,最后输出的是平面和非平面深度图的概率分割掩膜
  • 非平面深度图:共享金字塔池化模块,再通过卷基层,模拟非平面结构并将其几何图形推断为 1 通道的标准深度图

3. 利用单目深度估计的视觉伪激光点云进行单目 3D 物体检测

摘要

  • 单目 3D 场景理解任务,例如对象大小估计,航向角估计和三维定位,是具有挑战性的;现在用于 3D 场景理解的成功的方法需要使用诸如深度相机,立体相机或 LiDAR 3D 传感器
  • 另一方面,基于单目图像的方法具有明显更差的性能,或者可以说是因为在 2D 图像中几乎没有明确的深度信息
  • 在这项工作中,我们的目标是通过增强基于 LiDAR 的算法来处理单个图像输入,从而弥合 3D 感应和 2D 感应之间在 3D 物体检测方面的性能差距;
  • 具体来说,我们执行单目深度估计将输入图像提升到点云表示,我们将其称为伪 LiDAR 点云
  • 然后使用我们的伪 LiDAR 端到端训练基于 LiDAR 的 3D 检测网络;
  • 除了两阶段 3D 检测算法的通道外,我们还检测输入图像中的 2D 物体提案,并从每个提案的伪 LiDAR 中提取点云截锥体(point cloud frustum );然后针对每个截锥体检测定向的 3D 边界框
  • 为了处理伪 LiDAR 中的大量噪声,我们提出了两项创新:
    • ① 使用 2D-3D 边界框一致性约束,在投影到图像上之后调整预测的 3D 边界框以与其对应的 2D 提案具有高重叠
    • 使用实例掩码而不是边界框作为 2D 提案的表示,以减少不属于点云截锥体中的对象的点的数量
  • 通过对 KITTI 数据集测试的评估,我们在所有单目方法中实现了鸟瞰和 3D 物体检测的最高性能,有效地使其性能比 SOTA 翻了两倍。

主要贡献

  • ① 提出了一个单目三维物体检测方法,增强了基于 LiDAR 的方法,可以处理单个图像输入
  • 由于单眼深度估计不准确,所提出方案的瓶颈是伪 LiDAR 中的噪声
    • 我们建议在训练期间使用边界框一致性损失,并在测试期间使用一致性优化来调整 3D 边界框预测
    • 我们证明了使用实例掩码作为2D检测到的提案表示的好处;
  • ③ 达到了最先进的性能,并且在标准 3D 物体检测基准上显示出所有单目方法的前所未有的改进。

实现方法

  • ① 首先对图像进行单目深度估计,通过相机矩阵恢复每个像素的 3D 坐标,以形成伪 LiDAR 点云
  • ② 通过实例分割得到用于提取点云视椎体的 2D 提案
  • ③ 为每个点云视椎体生成 3D 物体提案边界框,并与 2D 实例分割提案构造损失。

4. 单目 SLAM 的快速线性后端优化

摘要

  • 视觉 SLAM 中由于测量噪声的存在,测量结果受固有非线性的影响,导致测量的不一致性
  • 用于基于大规模关键帧 SLAM 的非线性优化算法会产生初始化,迭代,局部最小值和尺度错误等相关问题;
  • 本文所提出的方法避免了非线性优化算法中涉及的问题,所提出的系统使用单目相机以较低成本提供整个机器人轨迹,生成全局一致的环境三维模型,并在优化期间进行闭环检测
  • 本文系统采用线性优化方法,与众所周知的非线性全局优化相比只提供一种精确的解决方案,如 ORB-SLAM BA,它提供了多种非精确的优化解决方案;
  • 此外,系统实时运行,速度比目前最先进的 SLAM 系统快 3 倍,可用于微型飞行器(MAV)的自主导航;
  • 使用 EuRoC,TUM 和 KITTI 数据集测试,仿真结果和在大规模环境中=的 SLAM 实验表明,我们的系统可以替代滤波方法,具有比一些众所周知的系统更高的准确性,鲁棒性和更高的效率。

主要贡献

  • ① 保留了 SLAM 的可分离结构,因为我们使用被高斯噪声破坏的非线性测量来估计线性变量,因此所研究的系统具有线性特性,与其他系统相比,这是一个显着的改进;
  • ② 我们的系统不仅可以最大限度地提高机器人轨迹的精度,还可以阻止漂移累积,从而最大限度地减少跟踪失败的次数,实现了准确且全局一致的框架;
  • ③ 更好的初始化。

5. 基于多尺度深度特征融合闭环检测

摘要

  • 闭环检测在移动机器人导航领域起着非常重要的作用,它有助于在复杂环境中实现精确导航并减少机器人姿态估计的累积误差;
  • 目前的主流方法是基于词袋模型,但传统的图像特征对光照变化很敏感
  • 本文提出了一种基于多尺度深度特征融合的闭环检测算法,该算法利用卷积神经网络(CNN)提取更先进,更抽象的特征
  • 为了处理不同大小的输入图像并丰富特征提取器的感受域,本文采用多尺度空间金字塔池化(spatial pyramid pooling,SPP)融合特征
  • 此外,考虑到每个特征对闭环检测的不同贡献,本文定义了特征的可区分性权重并将其用于相似性度量,降低了闭环检测中误报的可能性;
  • 实验结果表明,基于多尺度深度特征融合的闭环检测算法具有较高的精度和召回率,并且比主流方法对光照变化更具鲁棒性

实现方法

考虑到视觉闭环检测与图像分类之间的相似性(它们都需要提取图像的特征,然后根据提取的特征完成相关任务),本文将 CNN 应用于闭环检测,并提出了一种闭环检测基于多尺度深度特征融合的算法,该算法包括三个模块:特征提取层,特征融合层和决策层:

  • 特征提取层:在 ImageNet 数据集上选择了预训练的 AlexNet 网络的前五个卷积层作为特征提取层,它可以提取更高级和更抽象的特征
  • 特征融合层:设计了一个多尺度融合算子,它具有空间金字塔池化(SPP),可以将深度特征与不同的感受域融合,并创建一个固定长度的图像表示;
  • 决策层:通过计算特征的可区分性权重开发了一种相似性度量方法,这有助于降低环闭合检测中误报的概率。

6. 用于在线处理和导航的实时密集建图

摘要

  • 自主机器人需要精确的定位和密集地图来进行运动规划,本文考虑导航场景,其中机器人周围的稠密表示必须立即可用,并且如果定位模块检测到闭环,则要求系统能够进行瞬时的图校正
  • 为了满足在线机器人应用的实时处理要求,本文提出的系统通过限制每个时刻要优化的变量数量来限制定位线程的算法复杂性
  • 还提出了稠密的地图表示以及局部稠密地图的重建策略
  • 尽管实时要求和规划安全所施加的限制,我们的方法的建图质量可与其他方法相媲美;
  • 在应用中,还引入了一些工程注意事项,例如系统架构,变量初始化,内存管理,图像处理等,以提高系统性能;
  • 广泛实验验证在 KITTI 和 NewCollege 数据集上进行,并通过围绕香港科技大学校园的在线实验进行;
  • 将实施作为开源机器人操作系统(ROS)软件包发布。

主要贡献

  • 引入了一种稠密的地图表示,很容易集成深度图,并且在循环闭合后可以灵活地实时更新
  • 提出了一种子卷包装和混合方案,它对截断的有符号距离函数(TSDF)进行操作,使用此方案,可以部分处理环境中的动态对象
  • 提出了一种局部地图重建策略,用于基于所提出的地图表示中固有的时间和空间相关性来重建即时机器人姿势周围的局部环境以进行规划;
  • 对图像角点特征检测,姿势图优化处理,捆绑调整初始化,内存管理和多线程系统架构进行了仔细的工程考虑,以提高系统性能;
  • 代码开源(还未上传):https://github.com/ygling2008/dense_mapping 。

7. 用于视频三维物体重建的光度网格优化

摘要

  • 在本文中,我们解决了从 RGB 视频重建三维物体网格的问题;
  • 我们的方法结合了最佳的多视图几何和数据驱动方法进行 3D 重建,通过优化对象网格来实现多视图光度一致性,同时利用形状先验约束网格形状
  • 我们将此作为一个分段的图像对齐问题进行预测;
  • 我们的方法允许从光度误差更新形状参数,而无需任何深度或掩模信息
  • 此外还从虚拟的角度展示了如何通过光栅化来避免零光度梯度的退化
  • 使用光度网格优化来演示合成的和现实世界视频的 3D 对象网格重建结果,而现有的无论是网状生成网络还是传统的表面重建方法都无法在不进行大量人工后处理的情况下实现。

主要贡献

  • ① 将多视图光度一致性与数据驱动的形状先验相结合,以使用 2D 光度信息优化 3D 网格;
  • ② 提出了一种新的网格光度优化方案,并引入虚拟视点光栅化步骤以避免梯度退化。

8. 融合多视图几何与直接公式的快速精准双目 SLAM

摘要

  • 本文提出了一种新颖的双目视觉 SLAM 框架 - 同时兼顾精度和速度
  • 该框架充分利用了基于关键特征的多视图几何(MVG)和基于直接的公式的优势;
  • 前端,系统执行直接公式和恒定运动模型来预测稳健的初始姿势,重新投影局部地图以找到 3D-2D 对应,最后通过重投影误差最小化来细化位姿,这种前端流程使系统更快;
  • 后端多视图几何用于估计 3D 结构,插入新关键帧时,通过三角测量生成新的地图点
    • 为了提高所提出系统的准确性,剔除了坏的地图点,并通过 BA 维护全局地图
    • 特别地,执行立体约束以优化地图
  • EuRoC 数据集的实验评估表明,所提出的算法可以在普通计算机上以每秒 100 帧以上的速度运行,同时实现高度准确性。

实现方法

  • 跟踪线程中,估计相机姿势
    • 第一步是通过基于稀疏模型的图像对齐来获得当前帧的预测姿势,如果基于稀疏模型的图像对齐失败,我们使用恒定运动模型来预测当前帧的姿势
    • 第二步是将本地地图重投影到当前帧并找到 3D-2D 对应关系
    • 第三步是通过最小化重投影误差来细化当前帧的姿态;
    • 最后一步是判断当前帧是否是关键帧,如果它是关键帧,执行立体匹配以获得深度并将其插入到映射线程中
  • 建图线程,多视图几何用于估计 3D 结构
    • 首先,找到接近当前关键帧的关键帧;
    • 然后执行特征匹配以找到关键帧之间的 2D-2D 对应关系;
    • 之后,执行三角测量以生成新的地图点;
    • 最后,优化局部地图,包括地图点和关键帧的位姿;
    • 经过一段时间后,通过使用全局 BA 来全局优化姿势和地图。

9. PLMP:多视图中的点线最小化

摘要

  • 本文对通过校正透视相机完全观察到的点、线一般分布的最小化问题进行了分类;
  • 证明了总共只有 30 个最小的问题,对于 6 个以上的相机,对于 5 个以上的点,对于 6 条以上的线,没有问题存在;
  • 提出了一系列检测最小化的测试,从计算自由度开始,以典型例子的符号和数值验证结束
  • 对于所发现的所有极小问题,我们给出它们的代数度,即解的个数,这些解的个数度量它们的内在复杂度;
  • 我们的分类表明有许多有趣的新极小问题,结果也显示了问题的难度是如何随着视图数量的增加而增加的
  • 重要的是,发现了几个新的小角度极小问题,这些问题在图像匹配和三维重建中可能是实用的。

10. 松耦合的半直接法单目 SLAM

摘要

  • 提出了一种新的半直接方法,用于单目 SLAM,它结合了直接法和基于特征点法的互补优势;
  • 本方案将直接法里程计与特征点法 SLAM 松耦合,以执行三个并行优化:
    • 光度 BA ,共同优化局部结构和运动估计;
    • 几何 BA ,用于细化关键帧姿势和相关的特征地图点
    • 位姿图优化,在存在闭环的情况下实现全局地图一致性。
  • 这是通过将基于特征的操作限制为来自直接测距模块的边缘化关键帧来实时实现的;
  • 两个基准数据集的表明,系统在整体准确性和稳健性方面优于最先进的单目里程计和 SLAM 系统。

主要贡献

本文提出了一种新颖的单眼 SLAM 半直接方法,它继承了直接 VO 的鲁棒性和基于特征的 SLAM 的地图重用能力(例如,闭环),本文的贡献是直接算法和基于特征的算法之间的松耦合

  • ① 在局部,直接法用于相对于局部准确的短期半密集地图快速且稳健地跟踪相机位姿
  • ② 在全局,特征点法用于细化关键帧姿势,执行闭环,以及构建全局一致的、可重用的、稀疏的特征点地图
  • ③ 这种策略能够在不影响其实时效率和性能的情况下补充每种方法的弱点,融合了 DSO 和 ORB-SLAM 两种基于直接法和基于特征法的最新技术,并在数据集上证明了其超出了这两种基准方法。

11. 用于建筑行业稳健的 SLAM 与 3D 重建

介绍

  • 作者想把 ORB-SLAM2 用在建筑行业的增强现实中,然后一边在算法上修改了 ORB-SLAM2 (第三章),一边用网页进行三维建模(第四章),然后这两部分并没有结合起来。。。。。好水啊,我上哪找的这论文。。。。

12. 应用于增强现实单目 VI-SLAM 算法调研与评估

摘要

  • 尽管视觉/视觉惯性 SLAM 已经取得了很大的成功,但由于缺乏合适的基准,目前还比较难从增强现实的角度来定量地评估各种 SLAM 系统的定位结果
  • 在实际增强现实应用中,很容易遇到各种各样很有挑战性的情况,例如快速运动、强旋转、严重的运动模糊、动态干扰等等;
  • 良好的增强现实体验要求相机跟踪丢失的频率尽可能小,而且要能从跟踪失败的状态中快速、准确地恢复回来
  • 现有的 SLAM 数据集/基准一般只提供相机位姿的精度估计,而且相机运动类型有些简单,与移动增强现实中的常见运动情况不是很吻合;
  • 本文构建了一个新的视觉惯性数据集以及相应的面向增强现实的评测标准,对现有的单目 VSLAM/VISLAM 方法进行了细致的分析和比较,并从中选出 7 个代表性的方法/系统在我们的基准上进行定量的评估。

主要内容

  • 第二章:V/VI-SLAM 依托的重要理论
  • 第三章:单目 V/VI-SLAM 的代表性方法,包括滤波、优化、直接法;
  • 第四章:视觉惯导数据集的使用,包括常用数据集、标定;
  • 第五章:提出的评估方法,在移动端(手机)AR 进行评估跟踪准确性、初始化精度、跟踪鲁棒性和重定位的耗时
  • 第六章:实验比较,浙大和商汤推出的商用 Sense SLAM(http://www.zjucvg.net/senseslam/) 与 VINS-Mono,MSCKF 等系统比较。

13. 隐私保护:利用线云进行基于图像的定位

  • [13] Pablo Speciale, Johannes L. Schonberg, Sing Bing Kang. Privacy Preserving Image-Based Localization[J] 2019. + ==隐私保护:利用线云进行基于图像的定位== + 苏黎世联邦理工、微软,作者主页工程地址 + Speciale P, Pani Paudel D, Oswald M R, et al. Consensus maximization with linear matrix inequality constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2017: 4941-4949. 最大化线性矩阵不等式约束 [PDF] [Code] [Video] [Project Page]

摘要

  • 基于图像的定位是许多 AR / MR 和自主机器人系统的关键技术;
  • 目前的定位系统依赖于场景的三维点云的长期存储来实现相机姿态估计,但这些数据透露了潜在的敏感场景信息
    • 这会带来显着的隐私风险,特别是对于许多应用程序而言,3D 建图是用户可能不完全了解的后台进程;
  • 我们提出以下问题:如何避免披露有关捕获的 3D 场景的机密信息,并允许可靠的相机姿态估计
  • 本文提出了第一个能够保护隐私的基于图像的定位;
  • 方法的关键思想是将地图表示从 3D 点云提升到 3D 线云
  • 这种新的表示模糊了基本的几何场景,同时提供了足够的几何约束,保证鲁棒和稳定的 6 自由度相机姿态估计。

主要贡献

  • ① 介绍了基于隐私保护图像的定位问题,并为其提出了首个解决方案;
  • ② 提出了一种基于将 3D 点提升到 3D 线的新颖 3D 地图表示形式,其保留足够的几何约束以用于姿势估计而不暴露所映射场景的 3D 几何信息;
  • 提出了用于计算相机姿态的最小解算器,给出了图像中的 2D 点与地图中的 3D 线之间的对应关系
  • ④ 研究了单视图和多视图在有无重力方向、有无场景尺度的八种情况。

14. 基于仿生视觉的 SLAM 数据转换

  • [14] Li M, Zhang W, Shi Y, et al. Bionic Visual-based Data Conversion for SLAM[C]//2018 IEEE International Conference on Robotics and Biomimetics (ROBIO). IEEE, 2018: 1607-1612. + ==基于仿生视觉的 SLAM 数据转换== + 北京理工大学仿生机器人与系统教育部重点实验室

摘要

  • SLAM 是大多数移动机器人实现自主导航的关键技术,传统的视觉 SLAM 使用相机获取数据并构建稀疏或密集的 3D 地图,便于机器人定位,但难以实现避障和自主导航
  • 本文提出了一种基于仿生视觉特性的创新数据转换算法,可以构建一个二维精确的室内导航地图
  • 该算法有两个主要的并行线程:RGB-D 相机地面检测和数据转换;
    • 地面检测线程实时检测地面,并根据几何不变性得到从相机到地面的变换矩阵
    • 数据转换线程首先对深度数据进行过滤,然后提取出基于人类视觉特性的可变分辨率模型,可以将转换时间消耗保持在较低水平而不影响精度;
  • 每组实验表明,算法转换的数据具有高精度,可以准确地构建导航地图。

主要贡献

  • 提出了一种基于仿生视觉特性的创新数据转换算法
  • 通过转换的数据构建导航地图
  • 比较 LiDAR 数据和仿生视觉转换后的数据,以验证转换算法的有效性。

15. 动态环境下使用光流的移动机器人精确定位方案

摘要

  • 视觉 SLAM 已经被研究了多年,并且已经提出了许多先进的算法,其在静态场景中具有相当令人满意的性能,但是在动态场景中,现有的视觉 SLAM 算法无法非常准确地定位机器人;
  • 为了解决这个问题,本文提出了一种新方法,它使用光流来区分和消除提取的动态特征点,使用 RGB 图像作为唯一输入,将静态特征点传入视觉 SLAM 算法以进行相机姿态估计;
  • 将本文算法与 ORB-SLAM 系统集成,并使用 TUM 数据集的具有挑战性的动态序列验证所提出的方法。

主要贡献

  • 提出了一种利用光流实时区分动态点的新方法;
  • 将所提出的方法集成到基于特征的单目 SLAM 系统中,在动态场景中,性能得到了显着提升。

16. 超越点云:用于主动视觉定位的 Fisher 信息

摘要

  • 为了使移动机器人能够稳健地进行定位,在规划阶段积极考虑感知要求至关重要,在本文中提出了一种主动视觉定位的新颖表示;
  • 通过仔细制定 Fisher 信息和传感器可见性,将定位信息汇总到离散网格中,即 Fisher 信息字段
  • 然后可以在恒定时间内从 field 计算任意位姿的信息,而不需要昂贵地迭代所有 3D 路标
  • 模拟和真实数据的实验结果表明我们的方法在高效主动定位和感知规划方面的巨大潜力。
  • 为了使相关研究受益,公开发布了 information field 的实现。

主要贡献

  • 提出了一种 6 自由度的视觉定位信息的新颖表示与使用点云的标准方法相比,它能够有效地计算 Fisher 信息,这是 Fisher 信息在这类任务中的首次利用;
  • 将 Fisher information field 的实现开源。

17. 一种紧耦合的视觉里程计方法

摘要与主要贡献

  • 单目视觉里程计可以被广泛地分类为直接、间接或两者的混合的方法,间接方法处理图像来计算几何残差,直接法直接处理图像像素来生成光度残差;
  • 这两种模式都有不同的但通常是互补的特性,本文提出了两者联合(Unified Formulation)的视觉里程计方法,称为 UFVO,主要贡献如
    • ① 通过联合多目标优化实现光度(直接)和几何(间接)测量的紧耦合
    • ② 利用效用函数作为决策者,将两种方法的先验知识结合起来
    • ③ 描述符共享,一个特征可以有多个描述符类型,其不同的描述符用于跟踪和建图
    • ④ 使用逆深度参数化对同一地图中的角点特征和像素特征进行深度估计
    • ⑤ 一种角点和像素选择策略,同时提取两种类型的信息,促进图像域的均匀分布
  • 实验表明,该系统能够处理较大的帧间运动,继承了直接法的亚像素精度,能有效地实时运行,与传统的间接系统相比,以很少的计算成本生成间接映射表示。

wuyanminmax@gmail.com
2019.04.01