2019 年 5 月论文泛读（下） Learning SLAM & Others（6+20）

Learning SLAM & Others 多视角立体重建的条件单视图外形生成 代码开源 Pointflownet：从点云学习刚体运动估计的表示代码开源三维点云的无监督稳定兴趣点检测 代码开源基于图的视觉惯性导航的封闭式预积分方法代码开源事件相机

三、 Learning SLAM

25. GN-Net：高斯牛顿损失的深度直接法 SLAM

[25] von Stumberg L, Wenzel P, Khan Q, et al. GN-Net: The Gauss-Newton Loss for Deep Direct SLAM[J]. arXiv preprint arXiv:1904.11932, 2019.

GN-Net：高斯牛顿损失的深度直接法 SLAM

慕尼黑工业大学 Google Scholor

摘要

直接法 SLAM 在里程计任务中表现出很好的性能，然而，它们仍然受到动态的光照、天气变化以及大型基线上的不良初始化的影响；
为了减轻这两种影响，我们提出了一种方法，为每个像素提供深度视觉描述符作为 SLAM 系统的输入；
在这项工作中，我们介绍了 GN-Net：一个用新颖的 Gauss-Newton 损失优化的网络，用于训练深度特征，它被设计为最大化 Gauss-Newton 算法内正确像素相应的概率；
- 与 SLAM 的方法中通常使用的单通道灰度图像相比，这会使具有更大聚类的特征重新产生；
- 我们的网络可以通过不同图像之间的 groundtruth 像素对应进行训练，这些对应可以通过仿真数据或任何最先进的 SLAM 算法生成；
我们证明了我们的方法对于错误的初始化，在白天的光线变化和天气变化中更加强大，从而超越了最先进的直接和非直接方法；
此外，我们发布了我们称之为重定位跟踪的评估基准，它是使用 CARLA 模拟器以及从 Oxford RobotCar 数据集中获取的序列创建的，基准数据集将很快将会公开。

主要贡献

我们基于直接图像对齐的特性推导出高斯-牛顿损失公式，并证明它提高了对大基线和照明/天气变化的鲁棒性；
实验评估表明，GN-Net 在重定位跟踪任务上优于最先进的直接和非直接 SLAM 方法；
我们利用 Carla 模拟器 [9] 以及牛津机器人车数据集 [22] 中的序列，创建了一个新的评估基准，该基准具有 groundtruth 真值姿态，用于我们所提出的照明、天气等变化条件下的重新定位跟踪。

实验

DSO
- 每当有帧的重新定位候选对象时，我们确保系统创建相应的关键帧，该候选系统使用粗略跟踪系统进行跟踪，粗略跟踪系统在金字塔方案中执行直接图像对齐；
- 我们使用标识作为初始化，而不需要对姿势进行任何其他随机猜测。
GN-Net (Ours)
- 与 DSO 一样，但对于重定位跟踪，我们将灰度图像替换为由我们 GN-NET 在特征金字塔的所有层上创建的特征；
- 使用第 3 节中描述的高斯-牛顿损耗公式对网络进行训练。
ORB-SLAM2
- 对于重定位跟踪，我们使用标准的基于特征的 2 帧位姿优化，也用于帧到关键帧的跟踪；
- 我们还尝试了在 ORB-SLAM 中实施的用于重新定位的 RANSAC 方案，但总体效果较差。

26. DirectShape：视觉车辆姿态形状估计的形状先验光度对准

[26] Wang R, Yang N, Stueckler J, et al. DirectShape: Photometric Alignment of Shape Priors for Visual Vehicle Pose and Shape Estimation[J]. arXiv preprint arXiv:1904.10097, 2019.

DirectShape：视觉车辆姿态形状估计的形状先验光度对准

慕尼黑工业大学 Google Scholor

摘要

从图像中理解三维场景是机器人、增强现实和自动驾驶场景中遇到的一个具有挑战性的问题；
本文提出了一种新的方法，从道路场景的双目图像中共同推断出车辆的三维刚体姿态和形状；
不同于以往的工作依赖于形状的几何对齐与稠密的双目重建，我们的方法直接工作在图像上，通过 3D 形状先验与双目图像的组合光度和轮廓对齐，有效地推断形状和姿势；
我们使用一个形状先验表示汽车在一个低维线性嵌入的体积符号距离函数（VSDF），为了有效地测量这两个对齐项的一致性，我们提出了一种自适应稀疏点选择方案；
在实验中，我们证明了我们的方法在姿态估计和形状重建方面优于最先进的方法，该方法使用稠密双目重建的几何对齐；
该方法作为一种细化方法，也可以提高基于深度的三维目标检测方法的性能，我们证明了我们的方法大大提高了近期的几个检测方法的准确性。
总结：这篇文章主要是做位姿和轮廓优化，首先从现有的系统中得到一个粗略的物体位姿和轮廓，然后通过轮廓对齐残差和光度一致性残差来优化这个位姿和轮廓。

主要贡献

提出一种用于联合 3D 姿态和形状估计的新方法，其直接在图像空间中工作并且提供优于使用几何公式进行对准的最先进方法的性能；
彻底推导出完全可微的优化框架，该框架在图像空间和基于 SDF 的 3D 形状嵌入之间运行；
我们的方法可以与最先进的基于学习的方法一起应用，并在很大程度上提高所有测试方法的性能。

27. 2D3D-MatchNet：学习匹配 2D 图像和 3D 点云的关键点

[27] Feng M, Hu S, Ang M, et al. 2D3D-MatchNet: Learning to Match Keypoints Across 2D Image and 3D Point Cloud[J]. arXiv preprint arXiv:1904.09742, 2019.

2D3D-MatchNet：学习匹配 2D 图像和 3D 点云的关键点

新加坡国立大学计算机视觉和机器人感知（CVRP）实验室

摘要

从 3D 传感器生成的大规模点云比基于二维图像的点云更准确，然而，由于二维-三维图像点云对应的困难，在视觉位姿估计中很少使用;
在本文中，我们提出了 2D3D-MatchNet–一种端到端深度网络架构，分别从图像和点云共同学习 2D 和 3D 关键点的描述符；
- 因此，我们能够直接匹配并建立来自查询图像和 3D 点云参考地图的 2D-3D 对应，以进行视觉姿态估计；
我们使用牛津机器人汽车数据集创建牛津 2D-3D 数据集，其中包括 groundtruth 相机姿势和 2D-3D 图像到点云对应，用于训练和测试深层网络，实验结果验证了我们的方法的可行性。

主要贡献

第一个提出深度学习方法来学习描述符的人，这些描述符允许直接匹配 2D 图像和 3D 点云的关键点；
我们的方法使得激光雷达的使用可以为视觉姿态估计建立更准确的 3D 参考图；
创建了一个数据集，其中包含大量 2D-3D 图像块到 3D 点云体对应，可用于训练和验证网络。

实现方法

2D3D-MatchNet 是一个类似于三联体的深度网络，共同学习给定图像块和本地点云之间的相似性；
网络分为三个分支，一个用于学习 2D 图像关键点的描述符，另外两个具有共享权重，学习 3D 点云关键点的描述符；
网络输入：
- ① 以 2D 图像关键点为中心的图像块；
- ② 以 3D 关键点为中心的固定半径球内的点云局部体素。

28. 多视角立体重建的条件单视图外形生成

[28] Wei Y, Liu S, Zhao W, et al. Conditional Single-view Shape Generation for Multi-view Stereo Reconstruction[J]. arXiv preprint arXiv:1904.06699, 2019.

多视角立体重建的条件单视图外形生成

清华大学 代码开源

摘要

在本文中，我们提出了一种新的基于图像的形状生成的方法；
大多数现有的基于深度学习的形状重建方法采用单视图确定性模型，其有时不足以确定单个 groundtruth 形状，因为后部被遮挡；
在这项工作中，我们首先引入一个条件生成网络来模拟单视图重建的不确定性；
- 然后，我们将多视图重建的任务制定为取每个单个图像上的预测形状空间的交集；
- 我们设计了新的不同指导，包括前向约束，多样性约束和一致性损失，以实现有效的单视图条件生成和多视图合成；
实验结果表明，我们提出的方法优于三维重建测试误差方面的最新方法，并证明了它对现实世界数据的泛化能力。

实现方法

首先是单视图训练通道，送入单个图像和一组随机输入，得到图像采样，然后部分件的前向约束和多样性约束一起使用，以使模型能够更多地关注前部，同时保持生成多样性；
利用不同的随机输入，本文的条件生成模型可以从每个视图生成多个形状；
最后一致性损用于合成所条件生成模型以获得最终的预测。

29. Pointflownet：从点云学习刚体运动估计的表示

[29] Behl A, Paschalidou D, Donné S, et al. Pointflownet: Learning representations for rigid motion estimation from point clouds[C]. CVPR 2019.

Pointflownet：从点云学习刚体运动估计的表示

图宾根大学即将开源代码（还未放出）

摘要

尽管在基于图像的 3D 场景流估计方面取得了重大进展，但是这些方法的性能尚未达到许多应用所要求的准确度；
同时，这些应用通常不限于基于图像的估计：激光扫描仪提供了传统相机的替代品，例如在自动驾驶汽车的背景下，因为它们直接产生 3D 点云；
在本文中，我们建议使用深度神经网络从这种非结构化点云估计 3D 运动，在单个前向传递中，我们的模型共同预测 3D 场景流以及场景中物体的 3D 边界框和刚体运动；
虽然从非结构化点云估计3D场景流的前景是有希望的，但它也是一项具有挑战性的任务，传统的刚体运动全局表示方法不允许神经网络进行推理，并提出了一种平移等变表示方法来解决这一问题；
为了训练我们的深层网络，需要一个大型数据集，因此，我们使用虚拟物体增强 KITTI 的实际扫描，真实地建模遮挡和模拟传感器噪声，与经典的和基于学习的技术进行了彻底的比较，突出了该方法的鲁棒性。

主要贡献

提出了一种基于自驾驶汽车的非结构化激光雷达数据联合三维场景流、刚体运动预测和三维目标检测的端到端可训练模型；
结果表明，全局表示方法不适用于刚体运动预测，并提出了一种局部平移等变表示方法来解决这一问题；
使用虚拟汽车来扩充 KITTI 数据集，考虑到遮挡和模拟传感器噪声，以提供更多(真实的)训练数据。

30. 为深度视觉测距选择记忆和细化位姿

[30] Xue F, Wang X, Li S, et al. Beyond Tracking: Selecting Memory and Refining Poses for Deep Visual Odometry[J]. arXiv preprint arXiv:1904.01892, 2019.

为深度视觉测距选择记忆和细化位姿

北京大学

摘要

以往的基于学习的视觉里程计(VO)方法大多将 VO 作为一个纯跟踪问题，相反，我们通过合并另外两个称为存储（Memory）和细化（Refining）的组件来呈现 VO 框架；
- Memory 组件通过采用自适应和有效的选择策略来保存全局信息，通过采用时空注意机制提取特征；
- 细化组件通过存储在 Memory 中的上下文改进了以前的结果；
在 KITTI 和 tumrgbd 基准数据集上的实验表明，我们的方法在很大程度上优于目前最先进的基于学习的方法，并与经典的单目 VO 方法产生了竞争结果，特别地，我们的模型在低纹理区域和突变运动等经典 VO 算法容易失败的具有挑战性的场景中取得了优异的性能。

主要贡献

我们提出了一个新颖的端到端 VO 框架，包括 Tracking，Memory 和 Refining 组件；
Memory 组件采用适应性和有效的策略来保存累积的信息；
Refining 组件采用时空关注机制来提炼有价值的特征。

四、 learning others

[31] Hou J, Dai A, Nießner M. 3D-SIC: 3D Semantic Instance Completion for RGB-D Scans[J]. arXiv preprint arXiv:1904.12012, 2019.
- RGB-D扫描的 3D 语义实例
- 慕尼黑工业大学
[32] Phalak A, Chen Z, Yi D, et al. DeepPerimeter: Indoor Boundary Estimation from Posed Monocular Sequences[J]. arXiv preprint arXiv:1904.11595, 2019.
- DeepPerimeter：单目序列室内边界估计
- Magic Leap Google Scholor
[33] Yang Z, Liu S, Hu H, et al. RepPoints: Point Set Representation for Object Detection[J]. arXiv preprint arXiv:1904.11490, 2019.
- RepPoints：目标检测的点集表示
- 北京大学
[34] Jiang S, Xu T, Li J, et al. Foreground Feature Enhancement for Object Detection[J]. IEEE Access, 2019, 7: 49223-49231.
- 目标检测的前景特征增强
- 北京理工大学
[35] Zakharov S, Shugurov I, Ilic S. DPOD: 6D Pose Object Detector and Refiner[J]. 2019.
- DPOD:6 自由度物体姿态检测与细化
- 慕尼黑工业大学，西门子
[36] Liu C, Yang Z, Xu F, et al. Image Generation from Bounding Box-represented Semantic Labels[J]. Computers & Graphics, 2019.
- 从边界框表示的语义标签中生成图像
- 清华大学 Computers & Graphics 中科院四区，JCR Q3， IF 1.352
[37] Qiu Z, Yan F, Zhuang Y, et al. Outdoor Semantic Segmentation for UGVs Based on CNN and Fully Connected CRFs[J]. IEEE Sensors Journal, 2019.
- 基于 CNN 和全连通 CRF 的 UGV 室外语义分割
- 大连理工大学点云处理代码中科院三区，JCR Q2，IF 2.698
[38] Ma X, Wang Z, Li H, et al. Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving[J]. arXiv preprint arXiv:1903.11444, 2019.
- 用于自动驾驶的彩色嵌入式三维重建精准单目三维物体检测
- 大连理工大学
[39] Sindagi V A, Zhou Y, Tuzel O. MVX-Net: Multimodal VoxelNet for 3D Object Detection[J]. arXiv preprint arXiv:1904.01649, 2019.
- 用于三维物体检测的多模态 VoxelNet
- 美国约翰斯·霍普金斯大学个人主页
[40] Li J, Lee G H. USIP: Unsupervised Stable Interest Point Detection from 3D Point Clouds[J]. arXiv preprint arXiv:1904.00229, 2019.
- 三维点云的无监督稳定兴趣点检测
- 新加坡国立大学即将开源代码（还未放出）

五、 event

[41] Scheerlinck C, Rebecq H, Stoffregen T, et al. CED: Color event camera dataset[J]. arXiv preprint arXiv:1904.10772, CVPRW 2019.
- 彩色事件相机
- 苏黎世大学项目主页 Google Scholor
- 基于事件的视觉研究：Event-based Vision: A Survey. CVPR 2019
- Focus is all you need: Loss functions for event-based vision. 2019
[42] Stoffregen T, Gallego G, Drummond T, et al. Event-based motion segmentation by motion compensation[J]. arXiv preprint arXiv:1904.01293, 2019.
- 基于事件的运动补偿运动分割
- 澳大利亚机器人视觉中心，苏黎世大学

六、传感器融合

[43] Xiao Y, Ruan X, Chai J, et al. Online IMU Self-Calibration for Visual-Inertial Systems[J]. Sensors, 2019, 19(7): 1624.
- 视觉惯性系统 IMU 在线标定
- 北京工业大学 Sensors 开源期刊
[44] Eckenhoff K, Geneva P, Huang G. Closed-form preintegration methods for graph-based visual–inertial navigation[J]. The International Journal of Robotics Research, 2018.
- 基于图的视觉惯性导航的封闭式预积分方法
- 特拉华大学代码开源
[45] Joshi B, Rahman S, Kalaitzakis M, et al. Experimental Comparison of Open Source Visual-Inertial-Based State Estimation Algorithms in the Underwater Domain[J]. arXiv preprint arXiv:1904.02215, 2019.
- 开源视觉惯导 SLAM 在水下的状态估计比较
- 美国南卡罗来纳大学哥伦比亚分校 Google Scholor
[46] Xia L, Meng Q, Chi D, et al. An Optimized Tightly-Coupled VIO Design on the Basis of the Fused Point and Line Features for Patrol Robot Navigation[J]. Sensors, 2019, 19(9): 2004.
- 基于点线特征融合的巡检机器人紧耦合的 VIO
- 东北电力大学 Sensors 开源期刊
[47] Ye H, Chen Y, Liu M. Tightly Coupled 3D Lidar Inertial Odometry and Mapping[J]. arXiv preprint arXiv:1904.06993, 2019.
- 紧耦合的激光惯性里程计与建图
- 香港科技大学 Google Scholor
- Focal loss in 3d object detection [J]IEEE Robotics and Automation Letters 4 (2), 1263-1270, 2019.
[48] Usenko V, Demmel N, Schubert D, et al. Visual-Inertial Mapping with Non-Linear Factor Recovery[J]. arXiv preprint arXiv:1904.06504, 2019.
- 具有非线性因子恢复的视觉-惯导建图
- 慕尼黑工业大学 Google Scholor
[49] Qiu X, Zhang H, Fu W, et al. Monocular Visual-Inertial Odometry with an Unbiased Linear System Model and Robust Feature Tracking Front-End[J]. Sensors, 2019, 19(8): 1941.
- 具有无偏差线性模型和前端鲁棒特征跟踪的单目视觉惯导里程计
- 多伦多大学 Google Scholor Sensors 开源期刊

七、Others

[50] Liu Y, Knoll A, Chen G. A New Method for Atlanta World Frame Estimation[J]. arXiv preprint arXiv:1904.12717, 2019.
- 亚特兰大世界框架估计的一种新方法
- 慕尼黑工业大学
[51] Zhao Y, Qi J, Zhang R. CBHE: Corner-based Building Height Estimation for Complex Street Scene Images[J]. arXiv preprint arXiv:1904.11128, 2019.
- 基于角点的复杂街景图像建筑物高度估计
- 墨尔本大学

wuyanminmax@gmail.com
2019.05.27

文章目录

三、 Learning SLAM

25. GN-Net：高斯牛顿损失的深度直接法 SLAM

摘要

主要贡献

实验

26. DirectShape：视觉车辆姿态形状估计的形状先验光度对准

摘要

主要贡献

27. 2D3D-MatchNet：学习匹配 2D 图像和 3D 点云的关键点

摘要

主要贡献

实现方法

28. 多视角立体重建的条件单视图外形生成

摘要

实现方法

29. Pointflownet：从点云学习刚体运动估计的表示

摘要

主要贡献

30. 为深度视觉测距选择记忆和细化位姿

摘要

主要贡献

四、 learning others

五、 event

六、传感器融合

七、Others