📜 论文阅读 | 将基于线的特定类别物体模型集成到单目 SLAM 中
文章目录
将基于线的特定类别物体模型集成到单目 SLAM 中
Joshi N, Sharma Y, Parkhiya P, et al. Integrating Objects into Monocular SLAM: Line Based Category Specific Models[J]. arXiv preprint arXiv:1905.04698, 2019.
作者:印度海德拉巴大学 实验室主页
前期工作:Parkhiya P, Khawad R, Murthy J K, et al. Constructing Category-Specific Models for Monocular Object-SLAM[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018: 1-9.
Integrating Objects into Monocular SLAM: Line Based Category Specific Models
【C】 穷理以致知,一文而四问
- 1. 针对什么问题?
- 如何将物体集成到单目 SLAM 中实现物体级的 SLAM;
- 如何克服作者前期研究的基于关键点方法需要训练和注释的局限性。
- 2. 采用什么方法?
- 提出一种基于线的参数化方法,对特定类别的物体(桌子、椅子和笔记本电脑)用线段参数化表示;
- 利用 Render for cnn 网络进行视点估计作为先验;
- 利用 yolo 进行目标检测,获取检测框,再用 LSD 算法进行线段检测,然后进行边缘对齐,与前面构造的线模型关联;
- 在 3D-2D 边缘关联模块使用 Ceres 优化物体形状和位姿;
- 然后将物体模型作为路标集成到 SLAM 中,采用因子图进行优化。
- 3. 达到什么效果?
- 对典型室内环境中各种物体进行了参数化,将物体模型集成到了 SLAM 的轨迹地图中,有利于机器人完成导航和交互任务;
- 不影响 ORB-SLAM 性能的前提下对地图中的目标进行定位,并在一定程度上改善了轨迹;
- 与前期工作的关键点方法相比不需要提前训练和注释,且速度提高了两倍以上。
- 4. 存在什么不足?
- 视角估计需要提前训练,不是来自于实时的 SLAM 系统;
- 对 ORB-SLAM2 的性能没有改善,甚至有恶化;
- 作为路标的物体有限,只有桌子椅子和笔记本电脑。
0. 摘要
- 我们提出了一种新的基于线的参数化特定类别的 CAD 物体模型;
- 所提出的参数化使用基于字典的 RANSAC 方法将特定于 3D 类别的 CAD 模型和所考虑的物体关联起来,该方法使用物体视点作为先验并且在场景的相应强度图像中检测到边缘;
- 关联问题被认为是一个经典的几何问题,而不是数据集驱动的问题,从而节省了注释数据集以训练不同类别对象的关键点网络[1,2]所花费的时间和人力;
- 除了消除了数据集准备的需要,该方法还加快了整个过程,因为该方法对所有物体只处理一次图像,从而消除了在所有图像中对图像中的每个对象调用网络的需要;
- 使用 3D-2D 边缘关联模块,然后使用线的切除算法来恢复物体姿势;
- 该公式对物体的形状和姿态进行了优化,从而有助于更精确地恢复物体的三维结构;
- 最后,利用因子图公式将物体姿态与相机里程计相结合,建立了一个 SLAM 问题。
1. 简介
- SLAM 是各种移动机器人应用中最重要的环节,包括地面机器人[3]、空中机器人[4]和水下机器人[5];
- 单目 SLAM 因其重量轻、携带方便而成为一种受欢迎的选择,尤其是在微型飞行器(MAV)和手持相机平台等受限的有效载荷系统中。
- SLAM 已经演化出多种风格,比如结合路径该规划的 Active SLAM [6],重构运动对象的动态 SLAM [7],鲁棒 SLAM [8];
- 物体级 SLAM [9 SLAM++]是一个相对较新的方式,其中 SLAM 信息以物体姿态的形式进行增强,以实现更具语义意义的地图,从而提高 SLAM 系统的准确性;
- 物体级 SLAM 以两个流行的方式呈现;
- 一种是假设实例特定模型是先验已知的 [10];
- 另一种是使用了一个对象的一般模型,如椭圆体和长方体 [11 Cube SLAM] 和 [9 SLAM++]。
- 依赖于场景中各种对象的实例级模型使得第一种难以拓展到场景中的所有对象;
- 而诸如立方体的一般模型无法在物体部分级别上提供了有意义的信息,并且限制了其在抓取和处理物体的相关应用中。
- 作者前期研究:为了克服以上两个限制,文献 [2] 将他们的研究定位为结合两者的优势的研究;
- 特别是,开发了特定类别模型来代替实例级别模型,其保留了前者的语义潜力以及后者在对象类别级别的通用性质;
- 然而,文献 [2] 对特定类别的关键点训练网络的依赖限制了其表达能力,因为每个新对象类别都需要估计该类别的新网络模型以及注释,并伴随着注释、GPU需求和数据集准备等问题;
- 更具体地,在包含三个对象类别的场景中,需要调用对应于每个类别的三个单独的网络模型以求解对象的相应类别的姿势和形状。
- 线参数化思想:由于许多对象可以表示为线结构这一事实,本文提出了一种新的对象类对象的线参数化;
- 通过将描述三维物体类别的三维直线与二维直线段形式的图像观察相结合,以解耦的形式求解物体的姿态和形状。
- 值得注意的是,当我们将方案扩展到新的类别时,这种方法绕过了对关键点注释的需要,以及为各种类别的对象估计和维护各种网络模型的需求;
- 它通过依赖线段检测器来观察图像中的目标线段,而不是依赖于针对语义关键点训练的网络模型。
- 本文将线参数化对象扩展到椅子、桌子和笔记本电脑三类,并成功地将物体形状和姿态优化与基于因子图的后端位姿优化相结合;
- 因此,它成功地将三维物体嵌入到场景中,同时估计出相机的轨迹;
- 对相机轨迹和目标姿态的高保真估计证明了该框架的有效性和新颖性。
- 图 1 显示了一个典型的物体 SLAM 运行效果,其中物体姿态以 3D 形式呈现为最接近的 CAD 模型,其对应于图像中所示的优化的线框网格;
- 来自轨迹采样的相机位置以粉色圆圈显示,相机轨迹本身以黑色虚线显示。
- 来自轨迹采样的相机位置以粉色圆圈显示,相机轨迹本身以黑色虚线显示。
2. 相关研究
- 大多数情况下,所有最先进的 SLAM 系统 [12-15] 和使用 IMU [16,17] 的重建方法都依赖于位姿图/因子图优化[18,19]或 BA 优化;
- 在下面的部分中,我们将讨论物体级 SLAM 的相关工作,并讨论它们中的一些限制以及基于关键点的方法,正是这种方法激发了所提议的方法;
- 有一些方法试图将经典几何的属性与深度学习模型融合以改善对象姿势和形状,这类实现的最新工作有 [20],它使用非常少的有限视图观察来恢复全局相机姿态和基于 3D 点云的形状。
2.1 Object-SLAM
- 近些年来的发展和对 SLAM 系统的后续稳定,使得将物体纳入 SLAM 框架,并在一个统一的框架中解决物体姿态和形状以及机器人姿态;
- 最近一些面向物体的 SLAM 方法 [9,21,22],大多数基于物体的 SLAM 依赖于来自 RGB-D 或立双目相机的深度信息;
- 在 [10,23] 中,假设实例级模型,称为形状先验模型,在 [10] 中,提出了一种多机器人物体 SLAM 框架,但同样具有形状先验和 RGB-D 传感器;
- 在另一个范例中,没有实例级模型,可以作为先验;
- 在 [21] 中,再次借助于 rgb-d 相机,在因子图框架中共同求解关联和物体姿态;
- 在单眼物体 SLAM / SFM 方法中,[22,23] 属于这种模式,在这种方法中,对象被建模为边界框 [22,24] 或椭圆体 [23].
- 因此,我们提出的方法属于第三种范式,假设基于线段的类别模型,而不是实例级模型。
2.2 Object-Category Models
- 近年来,研究人员逐渐开始在对象类模型中重新引入越来越多的几何结构,并提高其性能 [25];
- 基于物体类别模型的方法被用来解决单目视觉中的各种问题,事实上 [26]-[27] 利用类别模型从单幅图像中重建对象;
- 文献 [11 Cube SLAM] 提出了一种无先验对象模型的三维长方体目标检测和多视图物体 SLAM 方法,提出了一种高效、准确的单幅图像三维长方体拟合方法,不需要事先知道目标模型或方向。
- 基于物体类别模型的方法提倡在处理单目图像时,结合对象的类别特定形状先验来补偿信息损失;
- 我们使用这些模型(图2),通过用同一模型表示一个类别的所有实例,将目标观测因子纳入单目 SLAM 中。
- 我们使用这些模型(图2),通过用同一模型表示一个类别的所有实例,将目标观测因子纳入单目 SLAM 中。
2.3 Object Detection and View Point Estimation
- 卷积神经网络是近年来在目标检测方面取得进展的驱动因素 [28-30],这些CNNs不仅精度高,而且速度也非常快;
- 事实上,当在 GPU 上运行时,它们可以以 100-300 毫秒的延迟处理每帧图像;
- 估计属于特定类别的对象的良好边界框标志着我们体系结构的开始。
- 其中一个基于 CNN 的模型是为CNN [31] 渲染的,我们提出的解决方案是用同样的方法来估计图像中物体的视点;
- CNN 的渲染已经训练了几个对象的大型、类别特定的数据集,使用可用的 3D CAD 模型 [32] 渲染,很容易访问;
- 当对包含真实图像 [33] 的大数据集进行微调时,经过训练的模型在呈现数据集上进行目标视点预测的效果非常好。
3. 实现方法
- 在这一节中将描述基于线段的端到端的功能。
3.1 方法概述
- CNN 模块 [31] 的渲染训练用于特定类别物体的视点估计;
- 当出现图像时,yolo 检测器 [28] 会对感兴趣的对象上的边界框进行回归,LSD 线检测器 [34] 输出 YOLO 边界框内的线段;
- CNN 模型的渲染优先输出视点;
- 数据关联模块将三维平均线框模型的线与边界框内线段的 LSD 观测值相关联;
- 在数据关联之后,使用 Ceres Solver [8] 的位姿形状优化模块输出这些对象的姿态和形状;
- 在物体级 SLAM 运行中,姿态形状优化的输出构成相机位姿-路标约束;
- 而使用最先进的 SLAM 模块估计相机运动 [35 ORB-SLAM2],这些约束最终通过 GTSAM [36] 作为后端引擎进行优化,以输出相机轨迹以及嵌入场景中的物体。
- 整体框架如下图所示
3.2 基于线段的类别级模型
- 在我们的方法中,我们强调使用类别级模型而不是对象的实例级模型;
- 为了构建基于线段的类别级别模型,首先将每个物体表征为在该类别的所有实例中共同的一组 3D 线;
- 例如,用于椅子类别的这种线可以是椅子的腿,椅子靠背的边缘,对于笔记本电脑,它们可以是显示屏周围的边缘以及构成键盘的轮廓,构成基座等。
- 每个基于线的模型都是由 6 * m 维的向量 X 表示的,其中 m 是参数化模型中出现的线的数量,每条线段 \(L_i\) 对应一个表示物体模型的关键边;
- m 中的每条线都由一个三维方向 D 和一个在直线上的三维点 M 表示,虽然该 3D 点可以是线上的任意点,但大致选择为 3D CAD 模型的中点;
- 各参数关系如下
- 如果没有已知的关于物体的先验信息,那么搜索空间是一个 6 * m 的空间,它代表物体的形状;
- 但是,基于 CAD 模型的三维标注,可以减少搜索空间,以便在优化形状的同时,只查看该对象中可能出现的变形,而不是任何任意的线变形;
- 对带注释的 CAD 模型数据集进行简单的主成分分析 [37] ,以获得变形的前七个线性无关的主方向;
- 这些特征向量根据其特征值进行排序,根据特征向量的覆盖范围选择数字 7。
- 在求解形状时,用平均形状加变形方向的加权线性组合来表示物体;
- 在这种形状表示中,每个椅子可以由每个主要变形方向的权重(或形状参数,λi)表示;
- 该线性子空间模型具有比 \(\mathbb{R}^{6m}\) 低得多的维度,这很容易看出,因为物体中存在各种平面条件和对称性。
- 数学上,如果 \(\bar{X}\) 是类别的平均形状,而 Vi 是从 PCA 通过本节所述的对齐的有序三维 CAD 模型集合获得的变形基础,则使用形状参数 λi 获得的任何对象 X 可以表示为公式(5)
- 其中 B 是基础向量(PCA 之后的 top-B 特征向量);
- $$ 是由所有 λi 组成的向量。 \[ X=\bar{X}+\sum_{B}^{i=1}\lambda _{i}V_{i}=\bar{X}+V\Lambda \qquad(5) \]
3.3 边缘对应
- 与在非机器学习方法中寻找突出的关键点相比,目标不变线检测更容易,我们使用 LSD 边缘检测器[34] 来实现同样的效果;
- 这里的主要问题是将所有检测到的正确的 2D 线与相应的 3D 线关联起来;
- 在这种情况下,寻找关联是一个鸡和蛋的问题;
- 我们需要一个良好的姿态估计来找到三维 CAD 模型和图像之间的对应关系,又需要一个良好的关联来估计物体的姿态。
- 我们利用 RenderForCNN 视点网络[31] 得到了物体的近似视点,并介绍了一种计算物体近似平移的方法;
- 我们将这一视点和平移作为基于字典的 RANSAC 方法的初始化,以获得最合适的边缘对应。
- 3.2 节中讨论的参数化允许用一组向量表示 CAD 模型,其中每个向量表示一条直线;
- 正式地说,我们找到了从 n 条 3 D线到 m 条 2D 线段的对应映射 Z;
- 首先,使用来自 yolo 目标检测器的边界框数据对图像中的线段进行过滤,我们使用自定义成本函数给 3D-2D 对应打分,其中 C1 表示角度, C2,C3 线和线段之间的距离; \[ C = C_{1} + k_{1}\times C_{2}+ k_{2}\times C_{3} \qquad(6) \]
3.3.1 计算平移
- 除了视点初始化之外,投影还需要近似的平移值 \(\left (T_{x},T_{y},T_{z} \right )\);
- 获得精确的平移需要线段的 3D 长度和投影 2D 长度,但由于对象的精确 3D 信息未知,我们需要依赖于特定类别对象的 3D 模型的近似;
- 我们使用边界框和均值 3D 模型中可用的信息来求平移近似;
- 如果物体的平均 3D 模型的高度和宽度分别与平均模型匹配,则边界框的高度和宽度独立地足以获得 \(T_{z}\) 的良好估计;
- 在物体高度和宽度均偏离平均模型的一般情况下,为了得到更好的估计,我们对这两种估计取平均值。
3.3.2 从公式(3)中计算 C1,C2,C3
- 在公式(3)中有 \[ L_{i}=\left \langle m_{s},m_{y},m_{z},d_{x},d_{y},d_{z} \right \rangle=\left \langle \bar{M},\bar{D} \right \rangle \]
- 3D 边缘线段到图像平面的 2D 投影可以通过从 3D 线上投影两个任意点然后取其方向和中点来找到(如下图 5 所示),R 和 T 是 3D 线的旋转和平移。
- 直接在代价函数中添加角度会产生带有角度的距离的复杂性,观察到 \(\left | p_{2}-p_{1} \right |\) 捕获两条线之间的角度变化,记做 \(C_{1}\);
- \(\frac{p1+p2}{2}\) 表示 \(\bar{x1x2}\) 的中点投影到线 \(\bar{I_{p1}I_{p2}}\)d的垂直距离,记做 \(C_{2}\);
- 最后,最小化 \(M_{p}\) 和 \(\frac{x1+x2}{2}\) 之间的距离,以选取里投影线较近的直线,记做 \(C_{3}\);
- 从而公式(6)的代价函数可以写成
3.3.3 关联伪代码
- 为每个物体对象类别生成 3-5 个具有代表性的 CAD 模型字典(手动选择),记做 \(X_{D}\) ;
- 此外,我们还采样了方位角初始化周围的视点和 RANSAC 计算的 T 周围的平移视点,记做采样 \(V_{p},T_{s}\)
- 现在,我们可以为基于 RANSAC 的关联算法编写伪代码,该算法遍历字典模型和采样的视图点,对它们进行投影,并计算关联线和关联成本;
- 具有视点和平移的模型中的线的关联是图像中的线段,其具有与模型中的该线对应的最小成本,最终选择关联成本最低的关联。
- 具有视点和平移的模型中的线的关联是图像中的线段,其具有与模型中的该线对应的最小成本,最终选择关联成本最低的关联。
3.4 位姿和形状优化
- 一旦获得了关联信息,便可以制定一个优化问题来找到物体的姿态和形状,利用 Ceres 求解工具,最终的代价函数为: \[ \Phi = \Phi_{pose} + \Phi_{normal} + \Phi_{shape} \qquad(16) \]
3.4.1 位姿约束项
- 如图 6 中所示, 3D 线 AB 在图像平面的投影得到 2D 线 ab,由 oa 和 ob 的叉积得到发现 N ,其垂直于 3D 线 AB,假设 M 是线上的一个点,D 是线的方向,满足公式(17);
- 取同一条线上取两个点 M1 和 M2 之差,满足公式(18)
- 从而代价函数中的位姿约束项可以写成公式(19),其中 R 和 T 是需要优化的项。
3.4.2 法向约束项
- 每个类别对象都有一个基底,例如用于坐的椅子底座,我们将物体的底面定义为当物体保持在正常位置时与地平面平行的平面;
- 我们使用这个观察并加入约束来迫使物体的基部平行于地面,我们认为地平面的法线是 y 轴
3.4.3 形状约束项
- 最后使用 3.2 节中讨论的特征向量公式来优化物体的形状(公式(5)):\(X=\bar{X}+V\Lambda\)
- 对于物体形状中的任意一条线 \(L_{i} = \left \langle M_{i},D_{i} \right \rangle \in X\) 满足:
- 带入公式(19)中获得形状约束
3.4.4 优化位姿和形状
- 优化器被调用来优化物体的位姿 R 和 T,其代价函数为: \[ \Phi =\left \| \Phi _{pose} \right \|^{2}+\left \| \Phi _{normal} \right \|^{2} \qquad(24) \]
- 然后调用优化器优化形状 \({\lambda}'s\),其代价函数为公式(25):
- 其中 \(\rho \left ( \Lambda \right )\) 是一个正则化器,可以防止形状参数 \(\left ( \Lambda \right )\) 偏离类别模型 \[ \Phi =\left \| \Phi _{shape} \right \|^{2}+\rho \left ( \Lambda \right ) \qquad(25) \]
- 形状的改善可以导致物体姿态的改善,反之亦然,因此,迭代地调用这两种优化以获得更好的结果。
3.5 将物体集成到单目 SLAM 中
- 使用基于线的方法学习分类模型,并将其集成到单目 SLAM 的后端,存在 \(Z_{ij} = Z_{j}Z_{i}^{-1}\),其中 \(Z_{ij}\in SE\left ( 3 \right )\) 表示相对于时间 j 时相机在时间 i 处相机帧中 3D 点的刚体变换,\(Z_{ij}\) 是由下式表示的一个 4 * 4 的矩阵
- 如果世界坐标系中一个点 \(_{}^{w}\textrm{}X\) 相对于帧 i 时刻的相机坐标系的 3D 坐标是 \(_{}^{i}\textrm{}X\),则使用变换 \(Z_{ij}\),可以将其相对于相机帧 j 的表示为 \(_{}^{j}\textrm{X}=Z_{ij}^{i}X\);
- 对于所有帧 \(\forall ij \in \left \{ 1\cdots F \right \}\) 中机器人的一组给定的相对位姿测量 \(\bar{Z}_{ij}\) ,我们将位姿 SLAM 问题定义为估计 \(Z_{i}\forall i \in \left \{ 1\cdots F \right \}\) 最大化相对位姿测量的对数似然,可作为最小化观测误差(最小化对数似然的负值) 的问题来构建;
- 为了最大限度地解决问题(公式 27),采用因子图[28]使用公开的 GTSAM 框架[36] 来构建和优化所提出的因子图模型
- 为了最大限度地解决问题(公式 27),采用因子图[28]使用公开的 GTSAM 框架[36] 来构建和优化所提出的因子图模型
- 以交替的方式最小化误差函数(24, 25)的形状和位姿参数,得到给定帧 i 的估计的形状 \(\left ( \Lambda \right )\) 和位姿 \(\bar{Z}_{i}^{O}\);
- 在形状和位姿误差最小化之后获得的 位姿观测作为 SLAM 因子图中的附加因子 ,因此对于因子图中的每个物体节点,如果物体 \(O_{\phi \left ( m \right )}\) 的姿态由 \(Z^{O_{\phi \left ( m \right )}}\) 表示,则最小化以下误差(28);
- 其中 \(\phi \left ( m \right )\) 表示到目前为止观察到对象 \(O_m\) 的唯一关联函数。
- 其中 \(\phi \left ( m \right )\) 表示到目前为止观察到对象 \(O_m\) 的唯一关联函数。
- 在形状和位姿误差最小化之后获得的 位姿观测作为 SLAM 因子图中的附加因子 ,因此对于因子图中的每个物体节点,如果物体 \(O_{\phi \left ( m \right )}\) 的姿态由 \(Z^{O_{\phi \left ( m \right )}}\) 表示,则最小化以下误差(28);
- 最后使用相对物体姿态观测,联合估计机器人位姿和物体位姿的物体级 SLAM 的误差可以表示为 \[ {\color{Blue} \varepsilon =\varepsilon _{pose}+\varepsilon _{obj} \qquad(29)} \]
4. 结果
- 在本节中,我们将展示多个真实世界序列的实验结果,这些序列包括与椅子,桌子和笔记本电脑相对应的不同类别对象;
- 我们评估了基于物体的 SLAM 的使用线的方法的性能;
- 我们还强调了我们的方法的性质,该方法利用物体中的关键边缘,对应于相应的线框模型以获得对象轨迹并在各种真实场景中精确估计它们的姿势;
- 图 10 显示了在 PASCAL VOC [33] 数据集的基于线的方法的结果。
- 在表 1 中,我们的方法与 ORB-SLAM 产生的轨迹进行了比较;
- 对每一个目标计算定位误差,并报告最佳、最差和平均值;
- 我们的对象 CAD 模型是公制的,我们使用轨迹端点之间的平移比例来缩放轨迹,完成此操作后,生成的结果以米为单位;
- 通过在目标位置放置标记来收集 groundtruth;
- 本表强调的是,我们的方法能够在三维空间中嵌入物体,而不会恶化(甚至稍微改善)ORB SLAM 产生的轨迹。
- 最后,我们通过比较执行时间来针对关键点方法[2]评估我们的方法;
- 评估过程中关键点方法的时间瓶颈在于网络的正向传递。
- 这里,我们比较了包含 3 个对象的 856×480 图像的两种方法的帧处理时间;
- 关键点方法的硬件规格是具有 12 GB 内存的 TitanX GPU;
- 用于 8GB 内存的基于线路的方法 intel i5处理器;
- 对于同一过程,本文基于线的方法速度提高了 2 倍以上。
4.1 自制数据集测试
- 使用本文的方法在室内环境中演示了物体级的 SLAM,包括办公空间和实验室,构成了我们的数据集;
- 我们使用微型飞行器(MAV)在地面上以恒定的高度飞行来收集数据集;
- 我们的数据序列的序列 1 和 2 具有 2 个平行边的轮廓线,遵循显着的直线运动,而序列 3 是 360°旋转,没有原点的平移;
- 对于 ORB-SLAM[12] 和我们基于直线的物体SLAM,在有或无对象回路闭合的情况下,这些运行的估计机器人(MAV)轨迹和对象位置已在图 8 中可视化。
4.2 实例检索
- 我们使用主成分分析[37]来选择代表 3.2 节中对象空间的特征向量;
- 在3.4节中,我们提出了求解物体形状的优化问题,该优化的解给出了表示物体形状的顶特征向量的系数;
- 现在我们从 3D CAD 模型集合中检索最近的实例,该实例通过运行 K 最近邻搜索,最好地定义了对象的形状;
- 在图 9 中,我们通过运行 5 近邻搜索,然后手动选择最近的实例,给出了三维 CAD 模型实例检索结果;
- 我们使用这些检索到的实例来可视化机器人轨迹中的物体。
4.3 法向校正
- 在位姿优化公式中,在解决物体的姿态 R T 时,还包括了校正法向成本项 \(\phi _{normal}\);
- 如图 7 中,加入了法向校正项(公式 20)之后可以看出物体的俯仰角和滚转角明显改进;
- 这里使用凉亭可视化数据集序列 3 相对应的轨迹来演示。
5. 总结
- 介绍了一种新的基于线的参数化方法,对室内环境中常见的各种物体进行参数化;
- 我们提供了一个完整的管道,利用相机位姿和形状优化找到物体的姿态,然后将目标嵌入到地图与单目 SLAM 轨迹,使用因子图优化后端,在可导航空间中以合理的精度定位目标。
- 我们展示了在不同的现实世界场景中使用该方案,其中包含多个类别的对象;
- 能够在不影响 ORB-SLAM 性能的前提下对地图中的目标进行定位,并在一定程度上改善了轨迹。
- 在难以获得关键点信息的情况下,基于线的参数化可以证明是有用的;
- 它绕过了训练和数据收集阶段,加快了关联的评估过程。
- 方案的性能取决于协同算法的鲁棒性,我们计划实现基于图的优化方法,以给出物体的关联,并进一步提高所提出方案的性能和稳健性。
【R】参考文献
-
[2] Parkhiya P, Khawad R, Murthy J K, et al. Constructing Category-Specific Models for Monocular Object-SLAM[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018: 1-9.
前期工作,基于关键点的方法,本文对比文献 -
[10] Choudhary S, Carlone L, Nieto C, et al. Multi robot object-based slam[C]//International Symposium on Experimental Robotics. Springer, Cham, 2016: 729-741.
假设实例特定模型是先验已知的物体级 SLAM,演示视频 -
[20] Zhu R, Wang C, Lin C H, et al. Object-centric photometric bundle adjustment with deep shape prior[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 894-902.
使用非常少的有限视图观察来恢复全局相机姿态和基于 3D 点云的形状 -
[21] Mu B, Liu S Y, Paull L, et al. Slam with objects using a nonparametric pose graph[C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016: 4602-4609.
基于 RGB-D 的物体 SLAM -
[22] Gálvez-López D, Salas M, Tardós J D, et al. Real-time monocular object slam[J]. Robotics and Autonomous Systems, 2016, 75: 435-449.
基于 RGB-D 的物体 SLAM,物体建模为边界框 -
[23] Crocco M, Rubino C, Del Bue A. Structure from motion with objects[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4141-4149.
形状先验,物体建模为椭圆体 -
[24] Sünderhauf N, Dayoub F, McMahon S, et al. Slam–quo vadis? in support of object oriented and semantic slam[J]. 2015.
物体建模为边界框 -
[26] Murthy J K, Krishna G V S, Chhaya F, et al. Reconstructing vehicles from a single image: Shape priors for road scene understanding[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2017: 724-731.
利用类别模型从单幅图像中重建对象 -
[27] Tulsiani S, Kar A, Carreira J, et al. Learning category-specific deformable 3d models for object reconstruction[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(4): 719-731.
利用类别模型从单幅图像中重建对象 -
[31] Su H, Qi C R, Li Y, et al. Render for cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2686-2694.
本文所使用的视点估计网络,项目主页,代码开源 -
[36] D. Frank et al., “Gtsam,” URL: https://borg.cc.gatech.edu, 2012.
采用的后端因子图优化 Gtsam -
[37] Jolliffe I. Principal component analysis[M]. Springer Berlin Heidelberg, 2011.
对 CAD 模型进行主成分分析
【Q】问题
- 1. 位姿估计用的是 ORB-SLAM2,后端优化用的是因子图?那 OBR-SLAM2 本身的 BA 优化呢?
- 2. C2 和 C3 的含义?
- 3. 关联?
- 4. 公式(29)展示了误差的两个来源,一个是相机位姿,一个是物体的形状和位姿(3.3,3.4节)
- 5. 法向采样?
【T】思考
wuyanminmax@gmail.com
2019.06.09