6 项开源代码工作:用于跟踪与建图的模块化优化框架   用于室内 RGB-D 重建的基于平面的几何和纹理优化   ReFusion:利用残差的 RGB-D 相机动态环境下的三维重建   学习双目,推断单目:用于自我监督,单目,深度估计的连体网络   用于地面机器人的 RGBD-惯导轨迹估计与建图   从单个深度图像完成语义场景理解 其他:将基于线的特定类别物体模型集成到单目 SLAM 中   基于鲁棒的物体 SLAM 的高速导航系统   无组织点云中平面检测的定向点采样

一、Geometric SLAM

1. 用于跟踪与建图的模块化优化框架

摘要

  • 本文探讨了如何将 SLAM 划分为其最小组成成分,从而最大限度地提高每个模块的可重用性和互换性
  • 特别是,提出的系统中的大多数组件不应该知道诸如地图是由单一的全局地图还是一组局部子地图组成,状态向量是在 SE(2) 或 SE(3) 中定义的,是否有速度等细节,任何数量的异构传感器都应该一起使用,它们的信息无缝地融合到一个一致的定位解决方案中
  • 由此产生的系统将有助于研究人员,促进可重复研究的发展,并使最先进的算法能够快速应用到产品原型中
  • 我们使用不同的传感器对 Kitti、Euroc 和 Kaist 数据集的实现进行了测试;
  • 本文重点介绍了三维激光雷达里程计测量与建图的框架和实验结果;
  • 用于 KITTI 数据集的 LiDAR SLAM 在大多数城市序列中实现了 1%-2% 的典型变换误差,同时由于我们的框架能够动态地从内存中换出,因此以 1.5 倍的实时速率处理数据并降低了内存需求;
  • 由于我们的框架能够动态地从内存中交换不是立即需要的地图部分,在需要时再次公开地加载它们;
  • 代码开源

主要贡献

  • 提出了一个开源的框架,提供一个统一的数学框架和 C++ API,从 SE(2)或 SE(3)表示的姿态的使用中解耦,或者在全局地图或相对子图之间进行选择;
  • 确保 SLAM 系统各组件的可重用性,例如基于 ORB 的视觉闭环检测器(如[19])应可用,无论主地图是基于激光雷达还是基于视觉的 SLAM 构建的
  • 支持不同的传感器:2D 和 3D 激光雷达,单目和双目相机,测距仪,IMU 和 GPS;
  • 允许用户在不同的状态向量表示中进行选择:仅姿态、姿态与线速度,或姿态与线速度、角速度;
  • 内置对相对坐标(即子地图)的支持,还允许存储解析信息和地图的层次表示;
  • 支持最常见的地图实体(无结构、点、线、平面路标) ,可由用户扩展到其他类型;
  • 支持不同的优化模式:平滑与批量优化
  • 具有方便的工具:内置异常堆栈跟踪报告、各代码段详细性能报告等;
  • 向 SLAM 模块公开统一的 API独立于来自实时传感器或主要数据集格式(如KITTI[20]、EuRoC[6]、ROS bag’s、MRPT rawlog’s)的数据
  • 透明地从动态内存切换,并在需要时返回与最近没有访问的地图区域相关的大部分数据。

2. 用于室内 RGB-D 重建的基于平面的几何和纹理优化

摘要

  • 本文提出了一种用平面基元重建 RGB-D 室内场景的新方法;
  • 该方法以 RGB-D 序列为输入,采用三维重建方法在序列上重建稠密的粗糙网格,生成具有清晰纹理和鲜明特征的轻量的低多边形网格,同时不丢失原始场景的几何细节
  • 为此,我们首先用平面基元(plane primitives)对输入网格进行划分,将其简化为一个轻量级网格
    • 然后平面参数、相机姿态和纹理颜色进行优化,使帧间光度一致性最大化
    • 最后网格几何进行优化,使几何与平面的一致性最大化
  • 与现有的只在场景中覆盖较大平面区域的平面重建方法相比,我们的方法在不丢失几何细节的情况下,通过自适应平面构建整个场景,并在最终网格中保留了鲜明的特征
    • 我们应用于几个 RGB-D 扫描序列,并与其他最先进的重建方法进行比较,证明了我们的方法的有效性。

3. 一种基于点特征和平面特征的 RGB-D 相机三维重建子地图连接算法

摘要

  • 在基于标准的点特征方法中,点特征的深度测量受到噪声的影响,这将导致不正确的全局环境结构
  • 本文通过引入平面和点作为特征,提出了一种基于 SLAM 与 RGB-D 相机连接的子图
  • 这项工作包括两个步骤:子图构建和子图连接
    • 使用几个相邻的关键帧,以及从这些关键帧中观察到的相应的块、视觉特征点和平面构建子图
    • 将子图按顺序融合成全局地图,通过平面特征关联和优化逐步恢复全局结构
  • 我们还证明了该算法可以在子图层次上增量地处理平面关联问题,因为每个子图都可以得到平面协方差
  • 子图的使用大大降低了优化过程中的计算成本,同时保留了所有关于平面的信息
  • 使用公开可用的 RGB-D 基准数据集测试和作者收集的数据集对该方法进行了验证,该算法可以在这些具有挑战性的数据集上生成精确的轨迹和高质量的三维模型,这是现有的 RGB-D SLAM 或 SFM 算法难以实现的。

主要贡献

  • 提出了一种新的有效的流形平面参数化方法
  • 提出了一种利用点、块、平面精确生成子地图的方法,块和平面对深度测量噪声有较强的抵抗能力,因此可以生成比单点测量更精确的子图;
  • 提出了一种以点和面为特征的子图连接方法,结果表明,这种新的平面处理方法比层次式平面利用[16]方法效率高得多,同时,我们的方法也能对最终配准结果产生由细到粗的影响;
  • 改进算法,对更具挑战性的数据集进行评估。

4. 将基于线的特定类别物体模型集成到单目 SLAM 中

  • [4] Joshi N, Sharma Y, Parkhiya P, et al. Integrating Objects into Monocular SLAM: Line Based Category Specific Models[J]. arXiv preprint arXiv:1905.04698, 2019.
    • 将物体集成到单目 SLAM 中:基于线的特定类别模型
    • 印度海德拉巴大学
    • Parkhiya P, Khawad R, Murthy J K, et al. Constructing Category-Specific Models for Monocular Object-SLAM[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018: 1-9.
    • 详见详读笔记

摘要

  • 我们提出了一种新的基于线的参数化特定类别的 CAD 物体模型
  • 所提出的参数化使用基于字典的 RANSAC 方法特定于 3D 类别的 CAD 模型和所考虑的物体关联起来,该方法使用物体视点作为先验并且在场景的相应强度图像中检测到边缘
  • 关联问题被认为是一个经典的几何问题,而不是数据集驱动的问题,从而节省了注释数据集以训练不同类别对象的关键点网络[1,2]所花费的时间和人力;
  • 除了消除了数据集准备的需要,该方法还加快了整个过程,因为该方法对所有物体只处理一次图像,从而消除了在所有图像中对图像中的每个对象调用网络的需要
  • 使用 3D-2D 边缘关联模块,然后使用线的切除算法来恢复物体姿势
    • 该公式对物体的形状和姿态进行了优化,从而有助于更精确地恢复物体的三维结构;
  • 最后,利用因子图公式将物体姿态与相机里程计相结合,建立了一个 SLAM 问题。

5. 一种基于手绘地图的使用物体度量移动机器人导航方法

摘要

  • 正确认识环境是移动机器人实现自主导航控制任务的前提,时变环境信息引起的不一致是认知环境技术发展和应用的瓶颈
  • 在本文中,我们提出了一种使用手绘地图的环境认知方法
    • 首先,我们使用单骨架细化(single skeleton refinement)和模糊 c 均值算法来分割图像
    • 然后,结合显著性图选择候选区域
    • 同时,我们使用超像素跨界方法来过滤窗户
    • 最终候选对象区域是基于显着性分割和超像素聚类的融合而获得的
  • 基于上述客观估计结果,采用人机交互的方法,构建了一种不准确的手绘导航环境地图
  • PASCAL VOC2007 的实验结果验证了该方法的有效性,平均平均精度为 41.2%,是测试方法中最好的,此外,机器人导航在实际场景中的实验结果也验证了该方法的有效性。

主要贡献

  • 提出了一种新颖的物体度量方法,它同时使用图像分割和超像素分析,该过程可以进一步降低物体检测阶段的计算成本
  • 提出了一种基于手绘地图的新导航方法,该方法由特定物体和粗略路径组成

6. 基于鲁棒的物体 SLAM 的高速导航系统

摘要

  • 我们提出了基于物体的鲁棒 SLAM 系统,用于高速自主导航(ROSHAN),这是一种适用于自主导航的物体级建图的新方法
  • 在 ROSHAN 中,我们将物体表示为椭球,并使用三个信息源(边界框检测,图像纹理和语义知识)推断其参数,以在基于椭圆体的 SLAM 中在共同的前向平移车辆运动下克服可观察性问题
  • 每个边界框在对象表面上提供四个平面约束,并且我们使用物体上的纹理以及椭圆体形状上的语义先验添加第五个平面约束
  • 我们在模拟中演示 ROSHAN,其中我们的表现优于基准方法,在正向移动相机序列中将形状误差减少了 83%,位置误差减少了 72%,我们对快速移动的自主四旋翼飞行器上收集的数据进行了类似的定性结果。

主要贡献

  • 我们提出了基于物体的鲁棒的 SLAM 系统用于高速自主导航(ROSHAN),其中我们将语义上有意义的对象体积地表示为椭圆体,并使用三种信息源在线推断椭圆体的参数:边界框检测,纹理和语义形状约束;
  • 我们对最先进的边界框测量模型进行了改进[18],引入了一种可区分的闭合形式的纹理测量模型,描述了一种语义形状先验,提出了一种对快速移动有用的单一测量初始化方案车辆
  • 与现有离线方法相反[17],[18]不假设已知的数据关联或批量优化

7. 具有挑战环境下的鲁棒的语义建图

摘要

  • 为了促进路径规划和探索等任务,传统的视觉 SLAM 通常为移动机器人提供几何图,忽略语义信息;
  • 为了解决这个问题,受到最近深度神经网络成功的启发,我们将它与视觉 SLAM 系统结合起来进行语义建图几何和语义信息都将被投影到 3D 空间中以生成 3D 语义地图
  • 我们还使用基于光流的方法来处理移动物体,使得我们的方法能够在动态环境中稳健地工作;
  • 我们在公共 TUM 数据集和我们记录的办公室数据集中进行了实验, 实验结果证明了该方法的可行性和令人印象深刻的性能。

主要贡献

  • 我们提出了一种将视觉 SLAM 与语义分割相结合以生成语义 3D 地图的新方法
  • 提出了一种基于光流的方法来处理动态因素,确保定位精度;

8. 无组织点云中平面检测的定向点采样

摘要

  • 3D 点云中的平面检测是点云分割,语义建图和 SLAM 等应用的关键预处理步骤;
  • 与最近仅适用于有组织点云的许多平面检测方法相比,我们的工作针对的是无法进行 2D 参数化的无组织点云
  • 我们比较了三种有效检测点云平面的方法
    • 一种是本文提出的一种新方法,它通过从具有估计法线的一组点中采样来生成平面假设,我们将此方法命名为定向点采样(OPS)
    • 以与传统的方法形成对比,传统方法需要三个无定向点的抽样来生成平面假设
  • 我们还实现了一种基于三个无定向点的局部采样的有效平面检测方法,并将其与 OPS 和基于八叉树的 3D-KHT 算法进行比较,以检测来自 SUN RGB-D 数据集的10000个点云的平面。

主要贡献

  • 我们提出 OPS,一种基于 RANSAC 的快速平面检测方法,在无组织点云中,只需要一个导向点的最小样本来生成平面假设
  • 我们比较 OPS 根据平面方向和平面分割对点云的点进行分类,采用两种替代方法
    • FSPF 的扩展,即对本文提出的三个无方向点进行采样;
    • 以及在八叉树中运行的 3D-KHT。

9. ReFusion:利用残差的 RGB-D 相机动态环境下的三维重建

摘要

  • 建图和定位是机器人系统的基本功能,尽管大多数建图系统都关注静态环境,但在实际环境中的部署要求它们处理动态对象
  • 在本文中,我们提出了一种 RGB-D 传感器的方法,该方法能够一致地映射包含多个动态元素的场景
  • 对于建图和定位,我们对截断的带符号距离函数(TSDF)采用有效的直接跟踪,并利用 TSDF 中编码的颜色信息来估计传感器的姿态使用体素哈希有效地表示 TSDF,大多数计算在 GPU 上并行化
  • 为了检测动力学,我们利用初始配准后获得的残差,以及模型中自由空间的显式建模
  • 我们在现有数据集上评估我们的方法,并提供一个显示高度动态场景的新数据集,这些实验表明,我们的方法往往超过其他先进的稠密 SLAM 方法;
  • 我们的数据集提供了运动捕捉系统获得的 RGB-D 传感器轨迹的真值数据,以及使用高精度地面激光扫描仪建立的静态环境模型;
  • 最后,我们以开放源代码的形式发布我们的方法。

二、Learning SLAM

10. 学习双目,推断单目:用于自我监督,单目,深度估计的连体网络

摘要

  • 自监督单眼深度估计领域近年来取得了巨大进步,大多数方法都假设立体数据在训练期间可用,但通常未充分利用它并仅将其视为参考信号;
  • 我们提出了一种新颖的自我监督方法,该方法在训练期间同等地使用左右图像,但在测试时仍然可以与单个输入图像一起使用,用于单眼深度估计
  • 我们的 Siamese 网络架构由两个双网络组成,每个网络都学习如何从单个图像预测视差图,然而,在测试时,仅使用这些网络中的一个来推断深度
  • 我们在标准的 KITTI Eigen 分割基准上展示了最先进的结果,同时也是新 KITTI 单视图基准测试中得分最高的自我监控方法;
  • 为了证明我们的方法能够推广到新的数据集,我们进一步提供了 Make3D 基准测试的结果,这在训练期间没有使用。

主要贡献

  • ① 提出了一种用于深度(视差)估计的自我监督学习的新方法,其同时且对称地训练成对的双目图像
  • ② 展示了在双目图像上训练的网络如何能够在测试时自然地用于单眼深度估计
  • ③ 报告了最先进的单眼视差估计结果,在某些情况下甚至优于监督系统

11. 基于 DeconvNet 的 SLAM 闭环检测方法

摘要

  • SLAM 问题在长期里程测量中存在着漂移,唯一的解决方法是基于回路闭合检测的图形优化,如果机器人检测到它在以前访问过的地方,它就能够精确地修正其位置;
  • 传统的识别已知位置的方法遵循一个基于特征的词袋模型,该模型丢弃某些几何和结构信息
  • 本文提出的方法利用深度去卷积网络将场景表示为低维向量,提出了一种 12 层反卷积网,其对图像进行自编码和解码,以学习图像的表示;
    • 在网络中使用本地连接的自动编码器大大减小了尺寸,而没有保留上下文信息的显着损失,通过比较这些表示来识别闭环;
  • 来自 KITTI 视觉里程计数据集和新的大学数据集的序列用于评估,将性能与最先进的技术进行比较,结果令人满意。

实现方法

  • 在这项工作中提出了一种基于自动编码器的深度学习网络,以提取用于表示图像的低维向量,自动编码器将图像编码为较低维矢量,该较低维矢量可被解码为图像本身
  • 换句话说,它提供了密集信息(即图像)的紧凑(稀疏)表示
  • 因此,它可以显着更快地比较两个密集表示,这是一个基本的要求;
  • 每当被比较的图像之间的距离低于阈值时,就识别出闭环,阈值可以手动设置,它可以调整以适应环境条件的变化,与相似度值成比例的置信比也可以用闭环来报告。

三、传感器融合

12. 具有显式遮挡处理和平面检测的精确的直接视觉激光里程计

摘要

  • 本文讨论了将三维激光扫描仪和相机信息相结合来估计移动平台运动的问题,提出了一种基于光度图像对准的直接激光视觉里程计方法
  • 我们的方法旨在最大化图像和激光扫描两者的信息使用,以计算准确的帧到帧运动估计;
  • 为了处理距离测量的稀疏性,我们的方法识别各个点云内的平面点集,然后从相机图像中提取其相应的像素块
  • 提取的平面图像块与非平面像素一起使用,以使用能够结合两种类型的像素对准的单应性公式来估计帧到帧的运动;
  • 为了获得较高的估计精度,我们明确地预测了不同位置的观测可能造成的遮挡
  • 我们使用 KITTI 数据集以及使用 Clearpath Husky 平台记录的数据来评估我们提出的方法,实验表明,我们的方法可以实现有竞争力的估计准确性,并产生一致的注册彩色点云

主要贡献

  • 本文的主要贡献是提出了一种新的直接联合激光相机运动估计方法
  • 我们利用平面信息,进行遮挡预测和两阶段配准
  • 通过这种新的配准方法,我们的方法能够利用单目相机图像和激光测距数据获得精确的帧到帧运动估计

13. 用于地面机器人的 RGBD-惯导轨迹估计与建图

摘要

  • 将相机传感器用于地面机器人的同步定位和绘图(SLAM)比基于激光的方法有许多优点,例如成本低、鲁棒性高;
  • RGBD 传感器有望同时满足这两方面的要求:从具有深度信息的相机中获取稠密数据;
  • 本文提出了一种基于开源软件 VINS-mono 的视觉 SLAM 系统,即 VINS-RGBD 与 IMU 数据融合;
  • 本文对 VINS 方法进行了分析,重点讨论了该方法的可观测性问题;
  • 然后,我们扩展了 VINS-mono 系统,在初始化过程和VIO(视觉惯性里程表)阶段使用深度数据
  • 此外,我们还集成了一个基于子采样深度数据和八叉树滤波的建图系统,以实现包括闭环在内的实时建图;
  • 我们提供用于评估的软件和数据集,广泛的实验是在不同的环境中使用手持、轮式和履带式机器人进行的,我们展示了 ORB-SLAM2 在我们的应用程序中失败,并看到我们的 VINS-RGBD 方法优于 VINS-mono。

主要贡献

  • 为 VINS-RGBD 系统制定和实现深度集成的初始化过程
  • 深度集成的视觉惯性里程计(VIO)的制定和实施,克服了视觉和仅 IMU VIO 系统的退化情况
  • 设计和实现后端建图功能,构建具有噪声抑制功能的稠密点云,适用于进一步的地图后期处理和路径规划;
  • 具有手持式,轮式机器人和跟踪机器人运动的彩色深度惯性数据集,具有用于groundtruth 的跟踪系统数据。

14. DS-VIO:基于双重 EKF 的稳健高效的双目视觉惯性测距仪

摘要

  • 本文提出了一种基于扩展卡尔曼滤波的实时鲁棒双目视觉惯性里程计
  • 基于 EKF 的算法的第一阶段是加速度计和陀螺仪的融合,第二阶段是双目相机和 IMU 的融合
  • 由于加速度计与陀螺仪、双目与 IMU 之间具有足够的互补性,基于双重 EKF 的算法可以实现高精度的里程计估计;
  • 同时,由于该算法的状态向量维数较低,计算效率与以前的基于滤波器的方法相当;
  • 我们称我们的方法为 DS-VIO(基于双重 EKF 的立体视觉惯性里程计),并通过将其与 EuRoC 数据集上的最新方法(包括OKVIS、Rovio、VINS-Mono和S-MSCKF)进行比较来评估我们的 DS-VIO 算法,结果表明,该算法在均方根误差方面具有可比性甚至更好的性能

15. 使用复合路标的在移动平台上自主着陆的微型飞行器

摘要

  • 在现有的基于视觉的微型飞行器(MAVs)在移动平台上自主着陆系统中,航标定位范围有限,移动平台测量偏差未知(如轮滑或编码器标定不准确),着陆轨迹打结严重影响系统性能;
  • 为了克服上述不足,本文提出了一种基于复合地标的自主着陆系统
  • 在所提出的系统中,将缺口环路标和二维路标组合为 R2D 路标,以提供大范围的视觉定位
  • 此外,编码器的轮滑和不精确校准被建模为编码器的未知测量偏差,并通过扩展卡尔曼滤波器在线估计
  • 在每个控制循环中,求解器将着陆轨迹规划为凸二次规划问题
  • 同时,提出了一种用于添加等式约束的迭代算法,并用于验证计划轨迹是否可行;
  • 仿真和实际着陆实验结果验证了以下几点
    • R2D 地标的视觉定位具有定位范围广,定位精度高的特点
    • 具有未知编码器测量偏差的移动平台的姿态估计结果是连续准确的;
    • 提出的着陆轨迹规划算法提供了可靠着陆的连续轨迹。

四、AR & MR & VR

16. 多运动刚体运动三维跟踪与重建

摘要

  • 大多数 SLAM 系统基于静态场景的假设而工作,所以相机的定位和场景的建图都会失败,导致包括运动物体在内的场景精度下降;
  • 本文提出了一种基于时间帧几何分割的运动目标在目标场景中的建图与运动相机定位同时进行的方法
  • 该方法利用目标场景的分割,仅利用场景的几何结构,在不识别目标的情况下,就可以估计出相机的相对姿态和每个几何分割区域
  • 为了验证该方法的有效性,实验表明该方法可以估计场景中所有分段区域的相对姿态,从而实现包括多个运动对象场景的 SLAM。
  • 主要贡献在于我们提出了一种仅利用几何信息,从输入的深度图像序列和目标的三维地图中,同时估计运动相机和被分割目标的姿态的方法

实现方法

  • 分割
    • 首先,为了估计每个物体的轨迹,将场景分割成不同物体;
    • 此时,基于目标场景中的对象大部分凸起的假设来执行边缘检测,并且其实现简单且快速的分割
    • 除了深度的连续性之外,还通过深度的凸度来执行边缘检测
  • 标签
    • 为了在动态场景中执行 SLAM,针对每个对象单独地执行 6DOF 位姿估计;
    • 因此,必须通过场景向同一对象提供相同的标签
    • 在上一步获得的边缘图中,执行连通分量标记以获得标签图,其中标签被分配给除了作为边的像素的每个像素
    • 为了使从前一帧获得的标签图对应于从当前帧获得的标签图,比较这些标签图并修改标签。
  • SLAM
    • 通过在每个对象和具有相同标签的 3D 模型之间执行点到平面 ICP 算法[15]来估计对象的姿势;
    • 此时,通过使用静态对象的姿势估计结果,可以获得传感器的自身位置;
    • 随后,通过使用对象和传感器的估计位置和取向,通过将点云与相同标签合并来更新 3D 模型

17. 通过混合现实重温协作:群件的发展

摘要

  • 协同混合现实(MR) 系统正处于一个关键时刻,因为它们很快就会变得更加普遍;
  • 然而,MR 技术直到最近才成熟到研究人员可以深入研究支持协作的细微差别,而不需要专注于创建支持协作的技术;
  • 在过去的 30 多年里,计算机支持的合作工作(CSCW) 领域主要集中在人类沟通和协作的基础上;
  • 由于 MR 研究现在正处于进入现实世界的边缘,我们回顾了三十年来的 MR 合作研究,并试图将其与 CSCW 的现有理论进行协调,以帮助 MR 研究人员定位,为他们的工作寻求富有成效的方向;
  • 为此,我们回顾了协作 MR 系统的历史,研究了 CSCW 和 MR 研究中常见的分类法和框架如何应用于协作 MR 系统的现有工作,探索了它们的不足之处,并寻找描述当前趋势的新方法;
  • 通过对新兴趋势的识别,我们为 MR 提出了未来的发展方向,并发现 CSCW 的研究人员可以在哪些领域探索新的理论,从而更全面地代表工作、娱乐和与他人相处的未来。

五、Learning others

18. 从单个深度图像完成语义场景理解

摘要

  • 本文主要研究语义场景补全,这是一项从单视图深度地图观测中生成一个完整的三维体素表示场景的体积占用地图和语义标签的任务
  • 之前的工作分别考虑了场景补全和深度图的语义标注,但是,我们注意到这两个问题是紧密相连的
  • 为了利用这两个任务的耦合特性,我们引入了语义场景补全网络(semantic scene completion network, SSCNet),这是一个端到端三维卷积网络,它以单个深度图像作为输入,同时输出相机视图中所有体素的占用率和语义标签
    • 我们的网络使用一个基于扩展的三维上下文模块,有效地扩展了接受域,使三维上下文学习成为可能;
    • 为了训练我们的网络,我们构建了 SUNCG 一个手工创建的大型三维场景合成数据集,具有稠密的体积注释
  • 实验结果表明,该联合模型的性能优于单独处理每个任务的方法,也优于语义场景完成任务的替代方法。数据集和代码可以在http://sscnet.cs.princeton.edu

19. 跳出边界框的思考:无约束 3D 房间布局的生成

摘要

  • 我们提出了一种房间布局估计方法,该方法不依赖于典型的盒子近似或曼哈顿世界假设;
  • 相反,我们将几何推理问题重新表述为实例检测任务,我们通过使用 R-CNN 直接回归 3D 平面来解决这个问题;
  • 然后,我们使用概率聚类的一种变体,将在视频序列中每个帧回归的 3D 平面,以及它们各自的相机位姿,组合成一个单一的全局 3D 房间布局估计;
  • 最后,我们展示了对垂直对齐没有任何假设的结果,因此可以有效地处理任何对齐的墙壁

主要贡献

  • 提供围墙、地板和天花板的类型和范围的边界面实例检测器
  • 对 RGB 图像中的每个房间平面实例进行直接平面回归
  • 结合即时测量,从 RGB 图像序列中获得 3D 布局,该序列不受 Boxy 或曼哈顿世界限制。

六、Others

20. LS3D: 单视图格式塔三维表面重建曼哈顿线段

摘要

  • 最近用于单视图三维重建的深度学习算法可以恢复粗糙的3D布局,但无法捕捉到优雅的城市景观的清晰线性结构;
  • 在这里,我们展示了对于 3D 曼哈顿建筑重建的特定问题,在经典的建设性感知组织框架内明确应用线性透视和曼哈顿约束允许计算准确且有意义的重建;
  • 所提出的 The proposed Line-Segment-to-3D (LS3D) 算法通过重复应用格式塔邻近原理来计算层次表示
    • 边缘首先被组织成线段,并且提取符合曼哈顿帧的子集;
    • 通过邻近度对正交线段的最佳二分组最小化总间隙并生成一组曼哈顿生成树,然后将每个生成树提升到 3D;
    • 对于每个 3D 曼哈顿树,我们识别完整的 3D 3-junctions 和 3-paths,并显示每个都定义了一个独特的最小跨度长方体;
    • 每个曼哈顿树生成的长方体一起定义了实体模型和该树的可见表面
    • 这些实体模型的相对深度由 L1 最小化确定,L1 最小化再次植根于深度和图像尺寸的接近原理;
  • 该方法具有相对较少的参数并且不需要训练;
  • 对于定量评估,我们引入了新的 3D 曼哈顿建筑数据集(3DBM),我们发现所提出的 LS3D 方法产生的 3D 重建在质量和数量上都优于由最先进的深度学习方法产生的重建。

主要贡献

  • 介绍了一种新颖的,可解释的单视图三维重建算法,称为 LS3D,它推断出曼哈顿建筑的三维欧几里德表面布局,直到未知的比例因子;
  • 引入了一个新的 3D 曼哈顿建筑物 3DBM groundtruth 数据集模型和一个新的评估框架,允许评估和比较 3D 曼哈顿建筑物重建的单视图方法;
  • 使用这个数据集和框架,我们发现 LS3D 方法优于最先进的方法深度学习算法,无论是定性的还是定量。

21. 一种用于6D目标姿态跟踪的 Rao-Blackwellized 粒子滤波器

摘要

  • 从视频中获取物体的 6D 姿态可以为机器人执行不同的任务提供丰富的信息,如操作和导航;
  • 本文在 Rao Blackwellized 粒子滤波框架中,建立了一个 6D 目标姿态跟踪问题,将目标的三维旋转和三维平移分离开来;
  • 这种因式分解使我们的方法(称为 PoseRBPF)能够有效地估计物体的三维平移以及在三维旋转过程中的完整分布
  • 这是通过以细粒度的方式离散旋转空间,并训练一个自动编码器网络,为离散旋转构造一个特征嵌入的代码本来实现的;
  • 因此,PoseRBPF 可以跟踪具有任意对称性的物体,同时保持足够的后验分布
  • 我们的方法在两个 6D 姿态估计基准数据集上实现了最先进的结果。

主要贡献

  • 本文介绍了一种新的 6D 目标姿态估计框架,该框架将 RAO Blackwellized 粒子滤波与学习型自动编码器网络有效地结合在一起
  • 我们的框架能够跟踪 6D 物体姿态的完整分布,它也可以对具有任意对称类型的对象这样实现,而不需要任何手动对称标记。

wuyanminmax@gmail.com
2019.06.01