结构化环境中单目物体级与平面级的SLAM
Yang S, Scherer S. Monocular Object and Plane SLAM in Structured Environments[J]. arXiv preprint arXiv:1809.03415, 2018.
作者:YangShichao:个人主页Google ScholarGithub
卡内基梅隆大学机器人研究所:The Robotics Institute of CUM
演示视频:https://www.youtube.com/watch?v=jzBMsKCm0uk&t=11s

注:🌐 Cube SLAM 系列论文,代码注释、总结汇总

Monocular Object and Plane SLAM in Structured Environments

0. 摘要

  • 本文提出利用高级别的物体、平面路标和特征点的单目 SLAM ,与仅利用特征点的 SLAM 生成的地图更密集、紧凑;
  • 首先提出一个高阶图形模型考虑单张图像的语义和遮挡约束来推断 3D 物体和平面;提取的立方体物体和平面在一个统一的 SLAM 框架中进行优化;
  • 与点特征相比,物体和平面具有更多的语义约束,例如曼哈顿和目标支持(object supporting )
  • 在 ICL NUIM 和 TUM mono 数据集中定位精度准确,并可以在结构化环境中生成稠密地图

1. 简介

  • 语义理解与 SLAM 的发展与联系
    • 卷积神经网络(CNN)用于目标检测、语义分割和 3D 理解;SLAM / SFM ,ORB-SLAM(2015) 与 DSO(2017)应用于自动机器人及 AR;
    • 但是环境理解与 SLAM 之间并没有得到很好地结合,现存大多数 SLAM 方法都是将环境表示成点云(稀疏或稠密),无法满足很多高级或智能的需求;例如自动驾驶需要 3D 空间中检测车辆,AR应用中需要对 3D 物体和平面有很好地定位来实现真实的交互。
  • 环境理解与 几何SLAM 结合的两种方式
    • 解耦方法:首先构建 SLAM 点云然后进行进一步添加标签 [6,7] 、3D 物体 [8] 或平面 [9] 信息;
    • 耦合方法:联合优化相机位姿和物体或平面的位置;
  • 本文采用耦合方法来验证高级别物体和平面地标用来改善相机位姿和稠密建图
    • 很多现有物体级 SLAM (例如 SLAM++ [11])需要有先验检测目标模型和建模模型,限制了应用场景;
    • 也有一些工作利用建筑平面进行稠密 3D 重建,但需要依靠 RGB-D 传感器或 LiDAR 扫描仪。
  • 本文提出一个没有先验物体和房间模型的联合物体和平面的单目SLAM,主要分为两个步骤:
    • 首先单视图结构化 3D 环境理解,基于图像的语义信息生成多个布局平面和立方体目标提案,然后选择最佳的子集来最小化遮挡和交叉
    • 多视图 SLAM 联合优化,在统一的 BA 框架中,通过相机和特征点位姿进一步优化平面和物体的位置。
  • 本文方案可以提供更多的语义和几何约束(例如曼哈顿世界假设和目标支持关系)来改善相机位姿,优化的平面和物体位置也有利于形成最终的稠密 3D 建图。
  • 主要贡献:
    • 提出一种高阶图形模型,对 3D 对象和布局平面的联合结构进行有效推理;
    • 首次提出一种包含点,对象和平面的单目 SLAM 方法, 在定位和建图方面都有效地提升了当前先进的 SLAM 算法的精度。

2. 相关研究

2.1 单视图理解

  • 关于单独的目标检测与平面布局检测;
    • 经典的 3D 目标检测依赖于人造特征,比如边缘和纹理 [14]深度学习可用于直接预测单个图像中立方体目标的姿态 [15]
    • 对于平面布局检测,基于消失点的房间模型 [16],基于学习的方法(例如 [17] 和 RoomNet [3] )应用于曼哈顿房间中,这些方法可以生成大致准确的平面模型,但不适合作为 SLAM 的优化地标,因为 CNN 预测可能在帧之间不一致,此外其中大部分都仅适用于受限制的四壁房型。
  • 本文工作侧重于物体和平面的联合以及整体的 3D 环境理解,他们的位置通过空间位置和语义关系(例如遮挡,交叉和形变 [18])进行优化;
    • 现有的方案大部分基于 RGBD 相机,并没有实时运行,近期有用 CNN 直接预测物体和平面的 3D 占有 [19]

2.2 物体与平面级的 SLAM

  • 基于物体和平面级的 SLAM 简单地实现方法是:首先构建基于点的 SLAM,然后再检测目标和平面,由于多视图的点云信息,可以提高目标检测的精度,但当点云质量较低时容易失败;
  • 本文专注于明确使用目标和平面作为 SLAM 的路标,首个提出联合优化相机位姿、物体、点和平面的系统称之为:Semantic Structure from Motion [20]
    • 需要先验模型的基于物体的 SLAM :文献 [10] 和 [11];
    • 不需要先验模型的物体级 SLAM:QuadricSLAM [21]CubeSLAM [22]
  • 还有一些工作使用平面或超像素生成稠密地图 [23,24] ,文献 [12] 迭代地估计布局平面和点云匹配以减小 RGBD 地图的漂移,与结构化环境中的点比较,平面可提供更长距离的约束 [25,26]
  • 参考文献 [27] 提出用 RGBD 相机姿态联合优化物体、点和平面,但本文使用的是单目,并且具有不同的目标表示。

3. 单视图理解

  • 与单视图场景理解的研究类似 [18]将环境表示为一组布局平面(例如墙面,地面和立方物体),目的是从 2D 图像中推断他们的位置
  • 首先生成一些物体和平面的提案(假设),然后通过条件随机场(CRF)优化来选择满足遮挡约束的最佳子集

3.1 提案生成

3.1.1 平面布局提案

  • 将实际检测到的地面和墙面的边缘投影到 3D 空间生成平面提案,由于边缘在帧之间的观察一致性可以直接将其作为 SLAM 的路标;
  • 首先检测所有图像的边缘,然后选择靠近地面-墙面分割边界 [2] 的一些边缘
    在室内环境中,布局平面的预测得分另用于选择可能的边缘;
    若边缘部分地位于物体区域的内部,由于其可能被前景遮挡,进一步将其拓展与其他边缘交叉,如图 2a 所示。

3.1.2 物体立方体提案

  • 参照 Cube SLAM 生成 2D 检测边界框的方案,再根据图像特征对提案进行评分;
  • 对于每个物体实例,本文为后面的 CRF 优化选择 15 个立方体提案,提案数量能提高最终性能但也会增加计算量;图 2b 是两个立方体提案。 ### 3.2 CRF 模型定义
  • 需要从所有的提案中选择最佳的方案,首先为每个平面和立方体提案定义二进制随机变量 xiϵ{0,1} 来表示是否被选择;
    这种多变量标签的优化问题称为条件随机场(CRF),本文通过最小化下列的差分代价函数/潜能函数,来优化标签
    f1

  其中 ψiU 表示一元势能ψijP 表示成对势能ψcHOxc 团的高阶项

3.2.1 一元势能函数(unary potential)

  • 一元势能代表了提案本身的质量
  • 对于平面:室内环境中,势能取决于边缘到地-墙分割边界的距离和布局边缘预测的分数
    与由于检测误差而得到的可能是异常值的短边相比,长边质量更高,需要适当的加权和标准化才能将它们组合在一起
  • 对于物体:直接使用文献 [22] 中基于消失点和边缘对齐的立方体拟合误差

3.2.2 成对势能函数(Pairwise Potentia)

  • 物体和平面之间存在不同形式的成对关联,例如语义共现 [18]本文中仅利用几何关系来最小化 2D 遮挡和交叉
  • object-object 之间, ψijP 定义为联合的 3D 交集
  • object-plane 之间,代表了平面对物体体积的截断比
  • plane-plane 之间,表明平面之间的角度重叠比
  • 注意,属于同一物体的立方体提案之间没有成对势能

3.2.3 高阶势能函数(High order potential)

  • 如 3.1 部分所述,对于单视图中的每个 2D 物体实例,从中生成多个 3D 立方体提案,但最终最多只选择其中一个,故高阶势能定义为:
    f2

3.3 高效的 CRF 推理

  • 文献 [28]高阶离散 CRFs 进行了研究,但在很多情况下,有效的 CRF 推理仍存在很大的挑战;
  • 但本文方程(2)的高阶项非常稀疏,因为 xc 集合中只有一个变量可被选择为 1 ,因此可以对其设计有效推理;采用最大乘积循环信任传播(Max-product loopy belief propagation) [29]
  • 计算成本最高的部分在于变量从节点 i 到团 c:
    f3   对于具有 N 个二进制节点的团,具有 2Nxc 的状态,但只有 N+1 个有效的状态 (1,0,0),(0,1,0),(0,0,1),(0,0,0),表示为:(y1,y2,yN+1),因此只需要检查 N+1 个状态并找到公式(3)中的最小值;
      其中,相邻的 yi 之间只有两个不同的变量,因此公式(3)加号后面的部分可以对每个 yi 迭代计算;因此计算 mcit(xi) 的平均复杂度为 O(1) 而不是 O(2N)

4. SLAM 优化

  • 将选择出来的物体和平面提案作为 SLAM 的路标,并通过多视图 BA 进行联合优化,与特征点路标相似,需要在这些路边之间定义新的参数和测量函数。

4.1 参数

  • 地图中存在 4 个不同的组件:相机、点、线、物体和平面
    • 相机位姿表示为:TcSE(3)
    • 特征点位姿表示为:PR3
    • 物体目标用 9 自由度表示为:O=(To,D),其中 ToSE(3) 表示 6 自由度的位姿,DR3 是 3 自由度的物体的尺寸;(在参考文献[21]中也有用椭圆体表示物体的形式)
    • 平面表示:采用参考文献 [30] 中的无限平面(infinite plane),将平面表示为四元数 π=(nT,d)T
      其中 π=1 ,有利于进行图优化;
      n 是三维的平面法向量,d 是原点到平面的距离;
      在某些环境中,可以利用曼哈顿假设:平面法向量是固定的并且平行于世界坐标中的一个轴,故只需要用 d 表示。

4.2 测量误差

  • 提出用这些地图元素之间的不同约束函数来进行因子图优化,其中相机-点的测量模型依照标准的重投影误差 [4:ORB-SLAM]
  • 为应对异常值的鲁棒性,Huber loss 函数应用于本节的所有测量误差函数
    • Huber Loss 是一个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性(参考:https://www.cnblogs.com/nowgood/p/Huber-Loss.html )。

4.2.1 相机-平面测量模型

  • RGB-D 相机的平面 SLAM 不同,它们直接从点云平面拟合得到平面的测量 [27,30],本文的单目相机需要弹出平面(pop up the plane)以获得局部平面测量,这些测量取决于相机的位姿;
  • 文献 [26] 在图优化之后更新测量,并不是最佳的方案,本文选择在优化期间迭代更新测量
  • 定义墙壁-地面的边缘为 l ,将平面测量误差定义为: ecp=log(πobs(l,Tc),π)(4)   其中,πobs 表示将边缘 l 投影到 3D 地面上的过程,如图 3a 中的蓝色线;误差也取决于相机位姿 Tc ,然后使用文献 [30] 中定义的对数四元数误差将生成的平面 πobs(l,Tc) 与路标平面 π 进行比较

4.2.2 相机-物体测量模型

  • 参照文献 [22 Cube SLAM] 的相机-物体测量模型,将 3D 立方体路标投影到图像平面以获得 2D 边界框,如图 3b 中红色框所示;
  • 将投影得到的红色的 2D 边界框与 2D 检测的蓝色边界框进行比较作为相机-物体的观测模型e2D=(c,d)(cm,dm)2(5)
  • 这样的 2D 测量误差比文献 [22] 中的 3D 测量误差的不确定性要小得多;
  • 为使得优化更鲁棒,给不同的物体误差赋予不同的权重,对语义表达上更确切和几何距离上更近的目标赋予更大的权重。 #### 4.2.3 物体-平面测量模型
  • 根据不同的环境假设可以存在不同形式的物体-平面约束 ,比如平面支持对象 [27] 或者物体方向与附近平面的法向量匹配
  • 本文设计一个约束较弱但更通用的约束关系,如图 3c 所示,物体没有被附近的平面遮挡
  • 如果平面法向量的方向指向相机,则物体-平面的遮挡误差定义为: eop=i=1:8max(0,πPoi)(6)   其中 Poi 表示立方体的 8 个顶角,如果立方体位于平面的正前方(朝向相机),则误差 eop 为 0

4.2.4 点-平面测量模型

  • 通常难以从单目 2D 图像精确地检测点是否属于平面,因为布局平面通常作为背景并且点有可能附属于它的前景物体
  • 为提高鲁棒性,首先选择 2D 墙壁平面多边形的点,然后滤除距离 3D 平面更远(大于设定的阈值)的点
  • 定义点与平面的测量误差为: epp=πP(7)

4.3 数据关联

  • 跨帧之间的数据关联;
  • 对于多帧之间的特征的关联,使用 ORB-SLAM 中的点特征匹配;
  • 物体关联遵循文献 [22 Cube SLAM];
    • 每个物体包含一组所属于它的点,找到多帧之间具有超过阈值(实验中为 10 )的最多的共享地图点数的物体匹配;这种方式易于实现,并且可以较为轻松地检测动态物体
  • 平面关联(判断两帧的平面是同一个)包含以下两个标准:
    • 几何信息,平面法向量的角度差以及彼此平面之间的距离
    • 与物体关联类似的共享特征点的匹配,当在公式(7)中计算点与平面的测量误差时,也使用这种点-平面所属关系。

5. 实验

5.1 具体实现

  • 目标与平面检测
    • 对于物体检测,采用与文献 [22 Cube SLAM] 类似的设置;
    • 对于平面提案,首先检测并合并线段,然后移除长度小于 50 像素且距离超过地-墙分隔线超过 50 像素的线
  • SLAM 部分,在基于特征点的 ORB-SLAM 的基础上加入物体和平面;
    • 首先计算新创建的观测函数的 Jacobian ,而后使用 g2o 库进行 BA 优化;由于物体及平面的数量比特征带你的数量少得多,因此对整体的 BA 影响不大,可以实时地运行;
    • 不启用 ORB-SLAM 中基于显式图像识别的闭环检测,以更好地显式物体级平面对系统的改进;
    • 与异常点相比,物体和平面异常点的影响更严重,需要对物体及平面提供更严格的异常值剔除
      • 如果在物体和平面在被创建后的最近 15 帧中没有被观察到 3 次以上,或者与其关联的特征带你对少于 10 对,则将其剔除(除了最初创建的具有少量 2D 特征的白色墙壁);
      • 实验中大多数情况下,使用 4.1 节中具有固定平面法线的曼哈顿平面表示来改善性能,如果初始生成的墙面和曼哈顿方向的角度差异大于 30 度,则将其视为异常值。
  • 物体和平面除了作为 SLAM 的路标之外,还可以为特征点提供深度初始化,当内部特征点比例(与地图相匹配的特征点数除以总特征点数)低于 0.3 时,使用物体和平面的深度直接创建一些新的地图点,可以在低纹理和较大旋转的场景中改善单目 SLAM 的性能。
  • 不同于文献 [26 Pop-up slam],本文不使用地平面,因为没有对应于地平面的边缘测量
  • 物体和平面同样有利于SLAM 稠密建图,直接将平面区域的像素(不包括物体区域)反投影到优化的平面路标上
    • 对于属于物体的特征点,在 3D 空间中创建三角形网格来获得稠密的地图
    • 注意:在 SLAM 优化中,平面表示为无限平面,但出于可视化的目的,需要跟踪平面边界多边形

5.2 单视图布局平面与物体检测

  • 从单个图像中检测布局平面与立方体目标,如图 4 是提案生成与 CRF 优化的实例,b 和 c 显示 CRF 优化之前与之后的物体提案的顶视图,CRF 能选择非重叠的墙边和更好的立方体提案,以最大限度地减少遮挡和交叉
    fig4+5
  • 如图 5 所示,该算法可以在房间和走廊的不同环境中工作,但像图 5 右侧的一些物体被遮挡和边缘不清晰的情况下仍有可能检测不到墙面和物体;
  • 本文定量评估了 SUN RGBD 数据集下 CRF 的优化性能,与文献 [22 Cube SLAM] 不考虑平面仅选择最佳的立方体提案的方法相比,本文对物体和平面的 CRF 联合推理改进了 3D 物体 IoU(intersection over union) 5%,如表 1 所示;
    • 注意:为强调优化效果,本文仅评估与文献 [22] 中单视图检测相比 CRF 产生不用结果的图像(无论好坏),这是由于很多图像没有可见的地面边缘,或者离物体较远并对物体没有实质性的约束,因此 CRF 优化对这些物体检测没有影响
tab1+2+3

5.3 SLAM 结果

  • ICL-NUIM [31]TAMU Indoor [32]TUM mono [33] 公共数据集和实际场景下 KinectV2 传感器采集的数据集评估 SLAM 的跟踪与建图性能

5.3.1 SLAM 定性结果

  • 在 ICL-NUIM 序列下的示例如图 6 所示,(a)(b)图为叠加有布局预测和语义分割的原始图像,它们都含有噪声和 CRF 优化,(c)图展示了大致正确的 3D 模型,但无法完全检测到被遮挡的墙角线,在经过多视图的 SLAM 优化之后,算法能够构建如图 1 所示的更加一致和完整地地图映射
  • 在 SLAM 的 BA 优化之后,与单视图物体和平面检测相比,位置更加准确,并且大多数物体都位于室内;
  • 不够完善之处:
    • 并非所有的物体的参与了建图,因为 2D 检测器可能会遗漏一些物体,并且由于观察不一致,SLAM 阶段也可能将器中一些物体视为异常值剔除了;
    • 在一些情况下,例如图 7 中左上角的数据集,由于存在严重的物体遮挡,算法无法检测到整个墙面;
    • 为了提高可视化的鲁棒性,如果平面多边形某个区域中没有观察到足够的地图点,则不会投影稠密像素,比如图 7 中间图像的空白段。

5.3.2 SLAM 定量结果

  • 与 ORB-SLAM 和 DSO 进行定量比较,本文和 ORB-SLAM 的初始地图是根据初始相机的高度来缩放的,从而可以不用在尺度上对齐位姿而直接评估绝对平移误差,来表明物体和平面可以改善位姿估计和单目漂移;
  • 评估数据如表 2 所示,每个序列运行 5 次求取平均误差,在大多数场景中添加了物体和平面约束明显改善了位姿;
  • 两个主要的原因:
    • 虽然禁用了闭环检测线程,但由于物体和平面在远距离上的可观测性,算法依然可以与旧平面相关联来减少最终的漂移;
    • 二是为特征点提供了深度初始化,特别是在旋转较大的场景中;
  • 由于严格的物体、平面异常剔除机制和强大的 BA 优化,及时最后没有起到积极的作用但也不至于降低原来 ORB-SLAM 的精度。
  • TUM mono 定量评估效果如表 3 所示,由于没有真实的相机高度,因此需要评估单目尺度对齐误差[参考文献 5 DSO]
    • 其中 DSO 与 ORB-SLAM 的数据直接来自文献 [5] 的补充材料;
    • 本文的语义 SLAM 可以在具有挑战性的数据集中稳定运行,即使相机存在较大旋转(甚至颠倒);
    • 在 Room 37 数据集中,只有少数平面在少数帧下能观测到,所以本文算法也几乎仅仅利用点特征,也达到了类似的效果;
    • 在 Corridor 38 走廊数据集中,本文算法比 ORB 好很多,但不如 DSO,由于白墙特征太少,本方法也是基于特征点法;

6. 总结

  • 本文提出了首个通过高级别物体和平面路标结合的单目 SLAM 和稠密建图算法,并通过紧耦合的联合 BA 进行优化。
  • 对于单视图的检测,本文提出了对一般结构化室内环境的快速 3D 物体和布局平面检测理解方法;
    • 首先从 2D 图像中的物体和边缘检测生成立方体和平面提案;
    • 然后提出快速稀疏的高阶 CRF 推理来选择最佳的提案
  • 对于 SLAM 部分为物体和平面设计了新的测量模型,与单纯特征点的相比,物体和平面提供了更远距离和更长时间的几何和语义约束(比如交叉和支持关系)来改善姿态估计;
    • 为了提高鲁棒性,对物体和平面提出了严格的异常值提出机制和鲁棒的优化方法。
  • 展望:除了墙壁平面之外,还需要考虑更多的普通平面,以生成更密集更完整地地图动态物体和和物体表面映射也可以提高鲁棒性和可视化

7. 附录:关于 3.3 节的高阶 CRF 推理

  • 加入在集合 xc 中有 N 个变量 x1,x2,,xn,其中总共有 N+1 个有用状态,对于每个状态 yk ,定义:sk=jϵykmjct1(xj)
    • 注意 sk 都可以在 ON 中迭代计算,因为相邻的 yk 几何相同;
  • sk 的最小值和次小值可以被记录下来,然后可以通过下面的方式计算从团到变量 i 的信息f8
  • xi=1 时,只有 yi 一个状态是可用的;否则,需要比较所有 N+1 个状态找到最小值;
  • 由于已经记录下了最小和次小值,因此评估公式(8)只需要进行 O1 计算即可

【R】 参考文献

【Q】 问题

  • 3.2 节中公式(1) 第二项的 ij 怎么理解,为什么 i < j,第三项的高阶势能什么作用,当x_i求和大于1时趋于无穷,岂不是对 E 造成了很大的影响?
  • 3.3 节中公式(3)表示变量从节点i到团c,这个公式是什么作用呢?变量是指什么?
  • 4.1 节中表示平面的四元数 π=1 这个约束是什么意义呢?为什么要这样?
  • 4.2.3 节中物体-平面的测量误差,公式表示当物体位于平面的正前方(并垂直于其法向量)的时候误差为0,也就是 πPoi 为正?这个公式不太理解, πPoi 表示什么呢?这样是不是假设了场景中所有的物体都垂直于平面摆放的呢?要是物体有倾斜呢?
  • 4.2.4 节中的点-平面测量误差中,公式(7)怎么理解呢?将点投影到平面上?将什么作为误差呢,怎样叫做有误差?
  • 5.1 节中,“不使用地平面,因为没有对应于地平面的实际边缘测量”,为什么地面没有实际边缘测量呢?
  • 5.1 节中,“对于属于物体的特征点,在 3D 空间中创建三角形网格来获得稠密的地图”三角形网格是什么?目的是重建物体吗?怎么实现的呢?
  • 墙面稠密建图的信息是来自点云特征还只是图像的像素信息呢?

【T】 思考

  • 5.3.1 SLAM 定性结果中,图 7 建图存在漏检物体和像素不投影的情况是否可以解决?
  • 5.3.2 定量评估中,表示了平面及物体在远距离上的可观测性,所以不用闭环检测效果也不错,那加上闭环检测岂不是更好了?为什么作者的很多工作都是没有闭环呢?是不是加闭环更复杂还要考虑物体平面之间的重识别与定位?可不可以考虑加上?
  • 本文基于高级别物体(大型,规则物体),可否考虑小型物体的作用?
  • 平面和物体确实可以提供更多的几何和语义约束,但也仅仅用在跟踪过程中,像重定位和闭环还是需要用特征点来进行场景重识别,可否对物体和平面产生类似于特征点的标记?可以存放在视觉词典中的,用于重定位。

2019.01.06
wuyanminmax@gmail.com