📜 论文阅读 | 在非参数和聚类的 SLAM 中使用类别物体进行定位
文章目录
在非参数和聚类的 SLAM 中使用类别物体进行定位
Iqbal A, Gans N R. Localization of Classified Objects in SLAM using Nonparametric Statistics and Clustering[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018: 161-168.
德克萨斯大学计算机工程学院
Localization of Classified Objects in SLAM using Nonparametric Statistics and Clustering
【C】 穷理以致知,一文而四问
- 1. 针对什么问题?
- 如何提取和建立检测到的物体作为可能的路标,同时进行地图的定位和构建;
- 解决目标检测的数据关联问题,以及识别地图中已存在的物体;
- 2. 采用什么方法?
- 在数据关联的时候采用非参数的 Mann-Whitney 方法进行统计关联;
- 在 SLAM 中位姿估计采用 SIFT 特征和 ICP 算法;
- 在物体特征向量表示的时候不是采用质心的方式,而是采用物体所属区域的点的联合分布来表示;
- 在连续帧间通过 NPDA 进行数据关联,当出现新的物体或遇到大的变动则使用基于密度的聚类(代价较高,不能每帧都聚类)。
- 3. 达到什么效果?
- 主要是定性分析,测试了三个 RGB-D 数据集;
- 一方面是用椭圆表示聚类物体在地图中显示;
- 另一方面比较了在序列中检测到的物体的总数和最后聚类在地图上的物体的数量。
- 4. 存在什么不足?
- 传感器采用 RGB-D;
- 椭圆表示的物体的位置不够准确,可利用的信息不多;
- 只关注了数据关联,没有将物体作为路标进行优化位姿,也没有定量分析位姿数据;
- 数据关联采用的非参数方法的是 Mann-Whitney 统计,聚类时采用的是开源的 HDBSCAN 库,其实创新点不多。
0. 摘要
- 传统的 SLAM 方法基于点,线或平面构建地图,这些地图在视觉上类似于环境,但没有任何关于环境中物体的语义或信息;
- 机器学习的最新进展使得目标检测对于大量对象具有高度准确性和可靠性,目标检测可以有效地帮助 SLAM 在建图过程中合并语义;
- 其中一个主要障碍是检测到的物体随时间的数据关联;
- 我们演示了一种非参数统计方法来解决连续帧上检测到的对象之间的数据关联;
- 然后我们使用无监督的聚类方法来识别地图中对象的存在,整个过程可以与 SLAM 并行运行;
- 我们的算法的性能在几个公共数据集上得到了证明,这些数据集显示了在 SLAM 中定位物体的有较好的结果。
1. 简介
- SLAM 大背景:SLAM 用于解决在构建可识别的周围环境地图的同时在未知环境中定位移动机器人的问题;
- SLAM 历史悠久,有许多重要贡献; Thrun[1],[2] 和 Durrant-Whyte 和 Bailey [3] 提供了极好的概述和广泛的参考;
- 许多 SLAM 方法涉及基于范围的传感器,例如雷达或LIDAR;
- 基于视觉的SLAM(VSLAM)已经得到了使用相机作为主要路标获取传感器的广泛发展(例如,[4],[5]);
- 一个重要的挑战是在环境地图中语义的表示和混合,以便它可以用于导航,交互,抓取等,这种感知学习是机器人和人工智能集成的主要挑战。
- 引出本文出发点:大多数 SLAM 算法生成的地图由估计的几何特征组成,如点,平面或线,没有任何语义或信息 [6],[7];
- 我们的工作目标是将语义和地图结构结合在一起,形成环境的连贯表示;
- 常见的语义包括空间(房间,走廊,大厅)和物体(桌子,椅子,标志等)的类别;
- 通过识别物体实例并在估计的地图中连续注册那些对象实例来添加语义。
- 要解决的问题和实施方法:本文所要解决的问题是提取和建立检测到的目标作为可能的路标,同时进行地图的定位和构建;
- 对象和对象的位置都不是预先知道的,利用深度神经网络工具箱,如Tensorflow[8]、Caffe[9]等,可以对对象进行识别,近年来,这些深度机器学习方法已经超越了传统的目标检测;
- 但是,它们更适合于从单个图像进行检测,并且在多个图像中没有关联;
- 因此,我们提出了一种新的非参数统计方法的应用,以在连续帧关联检测对象;
- 然后,我们使用无监督聚类方法来发现地图中存在的对象。
- 主要贡献:
- 展示了如何将非参数统计方法用于连续图像中检测到的对象的数据关联;
- 展示了一个无监督的聚类过程,以找出对象在环境映射中的可能位置,并结合非参数数据关联来帮助聚类过程;
- 已经在公共数据集上评估了我们提出的方法,以显示显著的结果。
- 如下图 1 是在 RGB-D 数据集中
2. 相关研究
- 基于几何的 SLAM 方法的普遍特点是它们的地图包含几何和物理信息但没有场景的语义信息,本课题对环境的语义建图有着重要的研究兴趣;
- 在最近几个 SLAM 解决方案 [10,11] 中尝试了检测到的物体的数据关联问题;
- 文献 [12 SLAM++] 提出一种面向物体的 SLAM,将检测到的对象与 3D 模型数据库匹配,并将其建立为路标,在运算算法之前需要手动建立对象的 3D 模型;
- 文献 [13] 演示了一种物体识别系统,它利用 SLAM 从一帧到另一帧提供一致的物体提议,它还表明,给定 SLAM 解决方案和已知的机器人位姿可以解决地图中对象的数据关联 [11],[13]。
- 相比之下,我们的方法在机器人位姿和地图完全未知的环境中同时定位了已存在的未知数量的物体。
- 文献 [14,15] 提出了一种识别已知平面物体并将他们合并到地图中的算法,但仅限于平面几何体;
- 在文献 [16,17] 中也证明了 SLAM 中集成物体识别;
- SemanticFusion [18] 利用 ElasticFusion SLAM and CNNs 展示了稠密语义三维重建,为地图中每个点分配语义信息或标签,而不是添加物体的中心到地图中;
- 文献 [10] 将 SLAM 问题分解为姿态和数据关联优化子问题,并在室内和室外数据集上显示出有效的结果;
- 相比之下,本文提出的方法使用基于卷积神经网络的通用的视觉目标检测系统,并借助于统计数据关联和无监督聚类分析来估计它们在地图中的位置。
3. 具体方法
- 在深入研究算法之前,我们希望建立本文中用到的一些概念;
- 设 \(\mathbb{N}\) 表示自然数的集合;
- 我们使用 RGB-D 传感器,将 RGB-D 传感器数据定义为 3 元素 RGB 颜色通道 i 和标量深度通道 d,在图像中每个离散的像素,都存在着相应的 3 元素颜色值和标量深度值,即在图像中给定 2D 点 \(x\in \mathbb{R}^{2}\) ,可以检索器相应的颜色和深度值 \(i(x),d(x)\);
- 将笛卡尔相机坐标系定义为 C,将固定的世界、惯性坐标系定义为 W,给定 3D 点 p,其在 W 坐标系中表示为 \(p^{W}\in \mathbb{R}^{3}\),在 C 坐标系中表示为 \(p^{C}\in \mathbb{R}^{3}\);
- 我们使用上标 \(t\in \mathbb{N}\) 来表示测量、估计和图像等发生的离散时间;
- 使用右下标 \(k\in \mathbb{N}\) 表示来自相应的坐标系空间的一个特定集合;
- 因此 \(p_{k}^{C^{t}}\) 表示在时间 t 时从相机帧 C 测量的集合 k 中的所有点 p 的坐标,类似地,\(d_{k}^{t}, i_{k}^{t}\) 是在时间 t 处的集合 k 的深度值和颜色值的集合;
- 给定一个集合 P ,让 \(|P|\) 表示它的基数(大小)。
3.1 基于深度学习的目标检测
- 目标检测可以被描述为识别对象的实例并使用训练的模型在图像帧中找到其位置;
- 近年来,在深度卷积神经网络的帮助下,它取得了巨大的进步(例如 [19],[20]);
- 训练分类器,例如神经网络,以学习不同对象的特征,现代方法能够训练分类器以识别具有超过 90% 准确率的千种类别的对象。
- 在我们的算法中,我们使用检测模型检索识别对象的位置和类别;
- 在我们的实验中,我们使用了 Mobilenets [21] 和 Faster-RCNN [22],但只要它们为检测到的对象提供类和区域,就可以使用任何检测器;
- 我们的目的是具有使用任何物体探测器的灵活性,因为这是一个经常更新和改进的活跃研究领域;
- 模型在 Microsoft COCO 数据集 [23] 上进行训练,我们的测试实验中没有用于模型的训练的对象的图像。
- 本文通过提取 RGB 图像 i 中的检测目标的区域(边界框或掩膜),设 \(B_{k}^{t}\) 是 t 时刻的物体 k 的区域;
- 每个区域都定义了一系列属于该物体的点集, \(d_{k}^{t}\) 是 \(B_{k}^{t}\) 区域中点的深度集合,其可以用于后续的对象的数据关联、聚类和定位;
- 每个被检测的物体都使用物体的类别和从 SLAM 数据中得到的物体在 W 坐标系的位置表示。
3.2 非参数的数据关联
- 尽管近年来物体检测的准确性已经大大提高,但是检测到的物体在连续帧上的关联仍然是一个挑战;
- 在单个图像中可以看到同一类对象的多个实例,并且需要在帧与帧之间区分它们以进行数据关联;
- 而且,物体的外观可能在多个帧上受阻,或者对象检测模块可能无法在几帧上检测到对象。
- 本文使用非参数推论统计方法用于两个连续图像之间的数据关联:我们选择了 Mann-Whitney 统计 [24],测试来解决这个问题;
- Mann-Whitney 统计检验用于统计学,以确定是否从具有相同分布的群体中选择两组独立的样本;
- 非正式地,我们使用它来确定两个已识别对象的深度集是否相似并且可能对应于同一对象。
- 测试包括一个统计量 U 的计算,要计算此处提出的问题 U;
- 首先从深度图 \(d^t\) 和 \(d^{t-1}\) 中提取两组样本;
- 设 \(k\) 和 \(l\) 表示在时间 t 和 t-1 时刻检测到的两个物体,其对应的区域为 \(B_{k}^{t}\) 和 \(B_{l}^{t-1}\) ,那么统计量 U 可以定义为:
- 两组深度样本的累计分布函数分别为 \(F\left(d_{k}^{t}\right)\) 和 \(F\left(d_{l}^{t-1}\right)\) ,如果满足以下公式(1)的条件,我们不否认 \(d^t\) 和 \(d^{t-1}\) 来源于相同分布的假设: \[
F\left(d_{k}^{t}\right)=F\left(d_{l}^{t-1}-\Delta\right) \quad(1)
\]
- 其中 \(\Delta\) 是非参数置信区间,反映了由于运动和噪声导致的 \(d^t\) 和 \(d^{t-1}\) 之间的差异;
- 设 V 定义为 \(d^t\) 和 \(d^{t-1}\) 之间所有成对差的有序集合 \[ V=\left\{d_{k}^{t}(x)-d_{l}^{t-1}(y)\right\} \quad \forall x \in B_{k}^{t}, \forall y \in B_{l}^{t-1} \quad(2) \]
- 如果 \(pwd(q)\) 是集合 V 的第 q 个最小成对差,那么不等式 (3)在当且仅当满足的集合 V 中至少有 \(q_a\) 但不超过 \(q_b\) 元素时成立 \[ p w d\left(q_{a}\right)<\Delta \leq p w d\left(q_{b}\right) ; \quad q_{a}<q_{b} \quad(3) \]
- 这表明 V 中有足够数量元素的差(见公式 4 )小于我们的置信区间,那么 \(d_{k}^{t}\) 和 \(\left(d_{l}^{t-1}-\Delta\right)\) 很可能来自于相同的分布 \[ d_{k}^{t}(x)-d_{l}^{t-1}(y)<\Delta \quad(4) \]
- 因此,可以说对于 \(\Delta\) 有 80% 的置信区间,其对应概率 P 表述为: \[ P\left(p w d\left(q_{a}\right)<\Delta \leq p w d\left(q_{b}\right)\right)=P\left(q_{a} \leq U<q_{b}\right)=0.80 \quad(5) \]
- 总结:这一段关于置信区间,证明只要有足够多的成对序列满足公式(4,5),则 \(d^t\) 和 \(d^{t-1}\) 来源于相同分布。
- 对于大样本数据,可以使用基于正态理论的过程来近似非参数技术,由于我们的大多数样本都可以被认为是较大的,因此可以使用正态近似来估计 U 的分布;
- 此外,在两个连续帧之间的深度图中,如果它们是相同的对象,则期望在两组样本中看到类似的值;
- 在这种情况下, \(\left\{d_{k}^{t}(x), d_{l}^{t-1}(y)\right\}\) 中的重复值称为 \(ties\);
- 如果我们有 \(g\) 个 \(tie\) 组,\(t_z\) 表示第 \(z\) 个 \(tie\) 组中的观察数,然后使用 U 的正态近似;
- 需要计算 \(q_a\) 和 \(q_b\) 的值以在公式(5)中使用,通过公式(6)和 \(\Delta = 80\%\) 的置信区间,我们可以近似计算 \(q_a\) 和 \(q_b\)
- 现在使用公式(7)的估计值,如果满足公式(5),那么我们就不能拒绝零假设,因此回想:当至少有 \(q_a\) 和最多有 \(q_b\) 个元素满足 \(d_{k}^{t}(x)<d_{l}^{t-1}(y)+\Delta\) 时,\(d_{k}^{t}\) 和 \(d_{l}^{t-1}\) 是相同的;
- 此外从公式(7)中更容易看出,\(ties\) 的存在将增加 \(q_a\) 并减少 \(q_b\) ,从而使 U 在公式(5)中满足较低的余量;
- 通常在两帧间的运动量很小,使得 \(d_{k}^{t}\) 和 \(d_{l}^{t-1}\) 之间的关联 \(ties\) 是存在的,因此,没有关联 \(ties\) 表明物体不匹配,或者物体的大小太小;
- 虽然这些是直观的推测,但我们并没有根据这些假设推导出数据关联;(这句话啥意思???)
- 如图 3 显示了两帧图像,其对应的物体区域分别为 \(B_{k}^{t},B_{l}^{t-1}\) ,其对应的深度分别为 \(d_{k}^{t}, d_{l}^{t-1}\),以及经过非参数数据关联之后的关联物体。
3.3 使用 SLAM 位姿的物体反投影
- 典型的 SLAM 系统包括两个组件,前端和后端;
- 前端将传感器数据提取到模型中,该模型为后端提供估计以进行外推;
- 我们使用基于特征法的定位与建图过程来获得位姿并建立环境地图;
- 我们依靠迭代最近点(ICP) 来估计 C 和 W 中的运动。
- 在前端,局部姿势估计模块是基于 SIFT [26] 特征的系统,它通过 \(i^{t}\) 和 \(i^{t-1}\) 中的特征匹配来计算帧到帧的运动;
- 从 \(i^{t}\) 和 \(i^{t-1}\) 中提取的 SIFT 特征使用 Brute-Force 匹配进行配对;
- 然后将 \(d^t\) 和 \(d^{t-1}\) 的对应关系投影到 C 中得到特征点 \(p_{k}^{C^{t}}\) 和 \(p_{k}^{C^{t-1}}\);
- 然后利用 ICP 估计 t 和 t-1 之间的位姿,随着时间的推移,这些匹配的特征或关键点也会被跟踪,以估计 W 坐标系中的运动。
- 在后端,首先将当前的特征点 \(p_{k}^{C^{t}}\) 转换到 W 坐标系中最后一个相机的位置,得到 \(p_{k}^{W^{t}}\) ;
- 然后将之前的从 \(p_{k}^{W^{t}}\) 到 \(p_{k}^{W^{t-n}}\) 的特征跟踪库与这些新转换的特征相关联来估计相机在 W 中的运动;
- 每一个不匹配的特征都与其最近的邻居相关联,如果它在 W 中处于一定的距离内;
- 这里用 C 的估计变换作为 W 中 ICP 优化的初始化。
- 运动估计使用使用 Levenberg-Marquardt(LM) 优化的 ICP 变体进行[27],它基本上最小化了点之间的点对点误差;
- 另 \(p_{m}^{W^{t}}\) 是维护地图的点集,其是在时间 t 的点 \(p_{k}^{W^{t}}\) 的候选匹配;
- 设 \(a \in p_{k}^{W^{t}}\) 和 \(a \in p_{m}^{W^{t}}\) 是一对匹配的点集;
- 然后再 ICP 中最小化以找到相机的旋转 \(\mathbf{R} \in S O(3)\) 和平移 \(\tau \in \mathbb{R}^{3}\) 组成的刚体运动,可以写成:
- 使用 \(d^t\) 、在 t 时刻估计的相机位姿和相机内参将 \(i^t\) 中每个检测到的物体 k 反投影到 W 中;
- 如果在时间段 \(t-n\) 和
t
之间,有一个对象可以通过非参数的数据关联成功关联,则将从 \(p_{k}^{W^{t-n}}\) 到 \(p_{k}^{W^{t}}\) 的所有反投影点组成一个联合分布,以表示单个特征向量; - 一个对象的特征向量 \(f\) 可以表示为:(此特征向量用于计算下一节中的距离度量,图 3 显示了在 W 中反投影的相关物体)
- 总结:这一节描述用 SIFT 作为特征点,通过 ICP 算法估计位姿,并最小化重投影误差,在物体特征向量表示的时候不是采用质心的方式,而是采用物体所属区域的点的联合分布来表示。
3.4 基于密度的物体聚类
- 尽管非参数数据关联(NPDA)将对象从一帧到另一帧关联起来,但它将无法将对象与突然的大运动,遮挡或重新访问先前的位置相关联;
- 由于这种情况,地图上可能有未知数量的对象,我们使用聚类过程解决了这个问题。
- 基于数据类型使用不同类型的聚类方法,大多数聚类方法都基于连通性,密度,子空间,质心,层次等;
- 流行的聚类算法包括 K-means,Mean Shift,Hierarchical Clustering,DBSCAN,BIRCH等 [28];
- 本文选择了一种无监督的聚类算法,称为基于分层密度的噪声应用空间聚类(HDBSCAN)[29];
- HDBSCAN 是 DBSCAN 的扩展,使其成为分层聚类算法,它能够找到不同密度的簇,并且通常对参数选择更稳健。
- 聚类过程需要估计密度以对类似对象进行分组;
- 密度的这种估计通常通过计算与其邻近的距离来实现,使用中有许多流行的距离度量,例如 euclidean,minkowski,manhattan 等;
- 我们使用 Bhattacharyya 距离(BD)[30] 来测量所有特征向量之间的距离,它在计算两个分布之间的距离时考虑了均值和方差;
- 两个特征向量 \(f_a\) 和 \(f_b\) 之间的距离度量 D 是:
3.5 使用 NPDA 进行间接性聚类
- 在聚类过程之后,我们得到了许多聚类,其中世界坐标 W 中存在对象唯一的密度;
- 然而,随着时间的推移,这种聚类在计算上变得更加昂贵,使得在每帧之后聚类是不可行的;
- 例如,如果目前在 D 中有 m 个观测值并且有 n 个新观测值,那么它需要对新的 D 产生(m + n)* n 次附加运算;
- 另一方面,NPDA 仅在两个连续的帧上运行以进行数据关联,因此它比聚类需要更少的复杂性,我们使用 NPDA 查询模型,指示何时需要再次训练聚类。
- NPDA 表明当前时间帧处检测到的对象是否与前一时间帧处检测到的对象相关联;
- 当帧之间没有障碍物,错误检测或非常大的相机运动时,该关联可以继续;
- 在此连续关联期间,我们不使用聚类来查找新对象;
- 相反,我们查询这些新观察以适应任何现有的聚类,如果这些关联对象属于现有聚类,则在此期间未观察到新对象;
- 但是,如果关联的对象不属于任何现有的聚类,则表示环境中存在较新的对象,然后我们再次运行聚类过程。
- 假设自上次聚类以来,检测到的对象集合是 N,来自相同持续时间的 NPDA 的关联对象集合是 M,我们使用 HDBSCAN 的近似预测方法来确定新观测是否属于任何现有聚类中;
- 现在如果适合当前聚类的检测到的对象集合是 P,其余的被认为是异常值 O,也即:\(N=P \cup O\) 和 \(M \subseteq N\);
- 当满足公式(9)时重新训练聚类,我们也会在再次开始聚类之前为要观察的新对象添加一个阈值。 \[ |M \cap P|<|M \cap O| \quad(9) \] —
4. 实验
- 分别在 TUM 数据集、Microsoft RGB-D Dataset 7-Scenes [32] 和 RGB-D Scenes Dataset [33] 三个数据集上进行了测试。
- 使用的目标检测模块是 MobileNet SSD 检测网络和 Faster-RCNN,它是在 Microsoft COCO 数据集上训练的;
- 由于 MobileNet 本身是一个轻量级的深度神经网络,因此 MobileNet 对于移动和嵌入式视觉应用是有效的;
- 评估我们的方法的一个问题是,大多数这些数据集没有提供场景中对象的 ground truth 语义标签,在量化包含语义信息的 SLAM 方法的性能时,这是一个常见的问题;
- 我们提出了一个定性的评估我们的算法,提出了在整个序列中检测到的唯一对象的数量和在序列末尾映射中的集群的数量;
- 在序列逐帧检测过程中,通常会在环境中检测到多个对象,但是只有在对一定数量的帧进行观察时,才会关联和聚集一个对象;
- 我们指出如果它已经被 CNN 检测了至少 25 帧的完整序列,则认为它是一个在环境中被检测的对象;
- 物体在确定之前必须有 50 个数据点,其动机是只保留与可靠检测到的对象相对应的集群;
- 由于模糊的外观而只被短暂地看到或被错误分类的对象不会被聚集,每个数据序列的编号都在相关的表中指出。
- 我们所有的代码都是使用 python 库实现的,Tensorflow 平台用于目标检测,聚类模块基于开源 HDBSCAN 库[34] ;
- 我们的结果通过点云图和地图中检测到的对象簇进行了演示,每个簇表示为具有不同颜色的椭圆体,椭球的中心是簇的平均值,半径是簇沿主轴的标准偏差;
- 本文中显示的最终地图已使用 VoxelGrid 过滤器进行了下采样,以便于查看,红色曲线表示相机的姿势。
4.1 TUM RGB-D dataset
- 测试的数据集:
freiburg3 teddy
,freiburg2 desk
,freiburg3 long office household
,freiburg3 long office household validation
。 - 在图 4 中展示了间歇性聚类过程,它显示了在执行聚类操作时具有四个不同帧时的 freiburg3 long office household 的结果,如第 3.5 节所述;
- 图 5a 显示了 freiburg3 teddy 的结果,它专注于一个物体,在一个房间中间的一个泰迪熊,分类器在该序列中检测到 3 个对象,并且最终的两个聚类由泰迪和椅子组成,第三个检测到的物体是一个人在背景中行走,该人没有被分配一个聚类,因为他们的动作导致分布不够密集以满足我们构成群集的标准;
freiburg2 desk
包含桌面上的几个办公用品,地图,轨迹和最终聚类如图 5b 所示;freiburg3 long office household
和freiburg3 long office household validation
有相同的环境,包括两个办公桌隔墙。结果聚类结果如图 5c 所示;- 所有 TUM 数据集的结果合并在表 I 中。
4.2 RGB-D Dataset 7-Scenes
- RGB-D Dataset 7-Scenes 来自微软,由 7 个不同的环境组成,每个环境都有自己不同的序列,本文测试了四个场景,灭火器,办公室,南瓜,象棋;
- 图 5d - 5g 为我们对 4 个场景的仿真结果,结果如表 2 所示。
- 图 5d - 5g 为我们对 4 个场景的仿真结果,结果如表 2 所示。
4.3 RGB-D Scenes Dataset v2
- RGB-D Scenes Dataset v2 数据集由 14 个场景组成,其中包含几件家具和不同的物体,如碗、帽子、麦片盒、咖啡杯和汽水罐;
- 我们测试了序列 1,6,10,13,14,在所有的序列中,小物体被放置在一个平面上,相机在物体周围移动;
- 这些序列的结果如图 5h-5l 所示,表 3 为报道的结果,结果表明,对于这些序列,我们对地图中检测到的大部分目标进行了聚类。
5. 总结
- 本文讨论了分类器在视频流中从多个帧中提取目标并将其关联起来,从而确定其在地图中的位置的问题;
- 为此,我们证明了非参数统计可以用来解决数据关联问题,其次是无监督聚类,当对象数量未知时,这个过程就会起作用,并且适用于 CNNs 和类似的分类器;
- 我们的方法可以很容易地结合任何 SLAM 系统,并使用任何基于深度神经网络的对象检测器为环境添加语义;
- 在三个不同数据集上的实验表明,我们的方法能够成功地确定环境中目标的位置,同时构建一个地图;
- 在未来的计划中,我们打算使用地图中已有的语义合并闭环,并恢复对象的姿态,使检测到的对象的定位更加鲁棒。
【R】参考文献
-
[7] Civera J, Gálvez-López D, Riazuelo L, et al. Towards semantic SLAM using a monocular camera[C]//2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2011: 1277-1284.
使用单目相机的语义 SLAM -
[10] Bowman S L, Atanasov N, Daniilidis K, et al. Probabilistic data association for semantic slam[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2017: 1722-1729.
通过基于随机有限集合的贝叶斯滤波器在度量优化中引入了语义观测 -
[11] Mu B, Liu S Y, Paull L, et al. Slam with objects using a nonparametric pose graph[C]//2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016: 4602-4609.
使用非参数位姿图的物体 SLAM,数据关联问题 -
[13] Pillai S, Leonard J. Monocular slam supported object recognition[J]. arXiv preprint arXiv:1506.01732, 2015.
目标检测与单目 SLAM 结合的物体级 SLAM,构建半稠密地图,数据关联问题 -
[14] Castle R O, Gawley D J, Klein G, et al. Towards simultaneous recognition, localization and mapping for hand-held and wearable cameras[C]//Proceedings 2007 IEEE International Conference on Robotics and Automation. IEEE, 2007: 4102-4107.
平面级物体的早期探索 -
[15] Castle R O, Klein G, Murray D W. Combining monoSLAM with object recognition for scene augmentation using a wearable camera[J]. Image and Vision Computing, 2010, 28(11): 1548-1556.
平面级物体的早期探索 -
[16] Ekvall S, Jensfelt P, Kragic D. Integrating active mobile robot object recognition and slam in natural environments[C]//2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2006: 5792-5797.
SLAM 中集成物体检测的早期探索 -
[17] Zender H, Mozos O M, Jensfelt P, et al. Conceptual spatial representations for indoor mobile robots[J]. Robotics and Autonomous Systems, 2008, 56(6): 493-502.
SLAM 中集成物体检测的早期探索 -
[18] McCormac J, Handa A, Davison A, et al. Semanticfusion: Dense 3d semantic mapping with convolutional neural networks[C]//2017 IEEE International Conference on Robotics and automation (ICRA). IEEE, 2017: 4628-4635.
Semanticfusion -
[24] Mann H B, Whitney D R. On a test of whether one of two random variables is stochastically larger than the other[J]. The annals of mathematical statistics, 1947: 50-60.
本文使用的非参数方法 Mann-Whitney 统计进行数据关联 -
[27] Holz D, Ichim A E, Tombari F, et al. Registration with the point cloud library: A modular framework for aligning in 3-D[J]. IEEE Robotics & Automation Magazine, 2015, 22(4): 110-124.
使用 L-M 算法优化的 ICP -
[28] Berkhin P. A survey of clustering data mining techniques[M]//Grouping multidimensional data. Springer, Berlin, Heidelberg, 2006: 25-71.
数据聚类方法调研 -
[29] Campello R J G B, Moulavi D, Sander J. Density-based clustering based on hierarchical density estimates[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Berlin, Heidelberg, 2013: 160-172.
本文所使用的无监督聚类方法:基于分层密度的噪声应用空间聚类(HDBSCAN) -
[32] Glocker B, Izadi S, Shotton J, et al. Real-time RGB-D camera relocalization[C]//2013 IEEE International Symposium on Mixed and Augmented Reality (ISMAR). IEEE, 2013: 173-179.
Microsoft RGB-D Dataset -
[33] Lai K, Bo L, Ren X, et al. A large-scale hierarchical multi-view rgb-d object dataset[C]//2011 IEEE international conference on robotics and automation. IEEE, 2011: 1817-1824.
RGB-D Scenes Dataset -
[34] M. Campello and Sander, “The hdbscan clustering library.”http://hdbscan.readthedocs.io/
本文所采用的开源的聚类方法
【Q】问题
- 1. 3.2 节中定义统计量 U 的公式 0 为什么要限定 \(d_{k}^{t}(x)<d_{l}^{t-1}(y)\) ?
- 2. 3.2 节中描述 U 正态近似的公式(6)?
- 3. 3.3 节中系统使用的是 SIFT 特征岂不是很慢,能实时吗?
- 4. 3.4 节中两个物体的向量之间距离的公式中非匹配类惩罚项,对于不同类别的物体距离值就设为 100 是不是不太合理,因为目标检测存在很大的误检情况,需要考虑进来。
【T】思考
- 本文重点关注的是数据关联和聚类,而不是位姿估计、路标构造和建图;
- 主要研究两种方法,一种是连续帧之间的非参数数据关联,一种是发现新物体或剧烈运动时采用的基于密度的聚类。
wuyanminmax@gmail.com
2019.07.12