📜 论文阅读 | 隐私保护:利用线云进行基于图像的定位
文章目录
基于图像隐私保护的定位
Pablo Speciale, Johannes L. Schonberg, Sing Bing Kang. Privacy Preserving Image-Based Localization[J] 2019.
作者:苏黎世联邦理工、微软,作者主页,工程地址, 实验室主页:计算机视觉与几何课题组
其他文章:
Speciale P, Pani Paudel D, Oswald M R, et al. Consensus maximization with linear matrix inequality constraints[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2017: 4941-4949.
最大化线性矩阵不等式约束 [PDF] [Code] [Video] [Project Page]
Privacy Preserving Image-Based Localization
【C】 穷理以致知,一文而四问
- 1. 针对什么问题?
- 在基于图像的定位应用中如何保护场景隐私?
- 图像隐私保护首次的 3D 视觉和几何定位问题中的提出,而非识别问题;
- 如何利用线云来表达点云?
- 2. 采用什么方法?
- 思想:
- 在地图表示中混淆场景的几何形状,其中每个 3D 点被提升到具有随机方向但通过原始 3D 点的 3D 线,仅存储 3D 点的 3D 线和相关联的特征描述符,而丢弃原始 3D 点位置;
- 将线定义在 Pl̈ucker 坐标中,由于方向是随机选择的,并且由于叉积是秩不足的操作,原始的 3D 点位置不能从其提升的 3D 线中恢复。
- 方法:
- 首先利用传统特征匹配的方法获取图像上的 2D 观测与空间中的 3D 点之间的对应关系;
- 然后将 3D 点提升为通过该点的一条 3D 线,且对于上面的对应关系必须满足观测点落在 3D 线的投影上的几何约束;
- 相机 - 2D 观测 - 3D 点构成一条相机光束, 3D 线本身也可以理解为是另外一个相机的光束,两个相机的光束均通过了该 3D 点,也就是两条线的交点;
- 从而基于 3D 线云的相机位姿估计可以转换成通用相机之间的相对位姿估计。
- 思想:
- 3. 达到什么效果?
- 通过将 3D 点云转换成 3D 线云达到了场景信息保密的效果,并且反演模型无法进行恢复 3D 点云;
- 研究了单视图和多视图在有无重力方向、有无场景尺度的八种情况下传统点-点的方式和隐私保护的点-线方法的性能:
- 在准确率上,传统方法更准确(两个几何约束),但一个几何约束的点-线方式也与传统方法差距不大;
- 在速度上,点-线方式更慢;
- 在重投影误差上,点-线方式更小;
- 在鲁棒性上,传统方式更稳定。
- 4. 存在什么不足?
- 由于点-线方式的限制,除了实现了点云信息保护之外,其他精度、速度和鲁棒性都有下降;
- 原因一个是线的表示更复杂,其次几何约束关系更少导致准确性降低。
0. 摘要
- 基于图像的定位是许多 AR / MR 和自主机器人系统的关键技术;
- 目前的定位系统依赖于场景的三维点云的长期存储来实现相机姿态估计,但这些数据透露了潜在的敏感场景信息;
- 这会带来显着的隐私风险,特别是对于许多应用程序而言,3D 建图是用户可能不完全了解的后台进程;
- 我们提出以下问题:如何避免披露有关捕获的 3D 场景的机密信息,并允许可靠的相机姿态估计
- 本文提出了第一个能够保护隐私的基于图像的定位;
- 方法的关键思想是将地图表示从 3D 点云提升到 3D 线云;
- 这种新的表示模糊了基本的几何场景,同时提供了足够的几何约束,保证鲁棒和稳定的 6 自由度相机姿态估计。
1.简介
- 背景:通过图像计算相机姿势来定位场景内的设备是计算机视觉中的基本问题,在机器人 [16,19,64],增强/混合现实 [36,46],以及运动恢复结构(SfM) [25,60,62]等应用中具有高度相关性;
- 很明显,基于图像的定位最常见的方法是基于结构 [19,33,46,58]并通过首先将图像的局部二维特征匹配到场景的三维点云模型来解决这个问题;
- 然后使用从匹配的 2D-3D 点相关性得出的几何约束来估计相机姿势,因此,传统的基于图像的定位方法因此需要持久存储 3D 点云。
- 问题:诸如 Google ARCore [5] 和 Apple ARKit [7] 等 AR 平台的普及,可穿戴 AR 设备,如 Microsoft Hololens [31] 、Microsoft 的 Azure 空间锚定(ASA) [11] 、Google 的视觉定位系统(VPS) [79] 以及 6DAI 的地图平台 [1] 的发布表明,对基于图像的定位服务的需求日益增长,这些服务使 AR/MR 和机器人技术的空间持久性得以实现;
- 即便在今天,HoloLens,MagicLeap1 或 iRobot Roomba 等设备也不断将其 3D 环境映射到操作系统,这是一个用户经常无意识到的后台进程,越来越多的 3D 环境地图将存储在设备上或云中,然后与其他客户共享;
- 即使源图像通常在建图后被丢弃,人们也可以基于对 3D 点云轻松推断出场景布局和潜在机密物体的存在(如图 1 a 所示);
- 此外,从局部特征重建图像的方法 [18,50] 使得从点云恢复可重现的精确场景图像成为可能(如图 1 b 所示);
- 目前为止,在基于图像的服务中通常忽略了隐私保护,但随着技术更广泛的使用,信息更广泛地被收集,这是一个值得思考的问题,近期在 AR/MR 社区中也出现了关于图像隐私信息保护的讨论 [48,54,78] 。
- 三种情形:一般来说,我们预测三种情况会影响用户的隐私:
- ① 首先,如果场景本身是保密的(例如,工厂中的工人或家中的人),那么使用基于点云的定位服务存储地图本身就存在风险;
- 在安全地存储地图的可信服务器上执行定位可以解决隐私问题,但即使这样,仍然存在未经授权的访问风险;
- ② 在第二种情况下,场景本身不是保密的,而是存在秘密物体或信息(例如,车间中的硬件原型或家中的一些私人细节);
- 仍然希望在相同的环境中启用持久定位,而不存在通过场景的 3D 地图泄漏秘密信息的风险;
- ③ 第三种情况涉及需要在客户端设备上定位的低延迟和脱机应用程序,这需要在授权用户之间共享 3D 地图,显然,与其他用户分发 3D 地图也会危及隐私。
- ① 首先,如果场景本身是保密的(例如,工厂中的工人或家中的人),那么使用基于点云的定位服务存储地图本身就存在风险;
- 理论:为了解决这些隐私问题,本文引入了一个新的研究方向,称之为基于图像隐私保护的定位(如图 1 c)
- 目的是以保密的方式对 3D 地图进行编码(从而防止提取敏感信息),同时保持执行稳健和准确的相机姿态估计的能力;
- 据我们所知,我们是第一个提出解决这个新问题的工作。
- 思想:本解决方案的关键思想是在新颖的地图表示中混淆场景的几何形状,其中每个 3D 点被提升到具有随机方向但通过原始 3D 点的 3D 线;
- 仅存储 3D 点的 3D 线和相关联的特征描述符,而丢弃原始 3D 点位置;
- 将这种地图称为 3D 线云(参见图 2),3D 线云表示隐藏了基础几何场景,并阻止了敏感信息的提取。
- 具体实现方法:为了在 3D 线云中定位图像,我们首先利用传统的特征匹配方法 [33,58] 来获得局部 2D 图像特征与地图中 3D 特征之间的对应关系;
- 每个对应关系都提供了一个几何约束,即二维图像观测点必须位于其对应的三维线的图像投影上;
- 基于这种约束,基于 3D 线云的绝对相机姿态估计问题需要一组相机光线与其在地图上对应的 3D 线相交;
- 为了利用这一概念来保护隐私,我们展示了 3D 线云可以被解释为通用相机(也即这条 3D 线也可以认为是另一个相机对该 3D 点产生的光束);
- 因此,3D 线云的绝对相机位姿估计归结为解决通用相对或绝对姿态问题,这意味着我们可以重新利用现有算法 [30,39,42,67-69] 来解决我们的任务。
- 实验:在本文中,我们研究了我们方法的几种变体,首先考虑输入是单个图像的情况,然后将该概念概括为共同定位多个图像的情况;
- 我们还介绍了我们的场景定位方法的几个特殊方法,其中已知场景的垂直方向或尺度;
- 这些特殊化在实际应用中特别有价值,并强调了与我们方法的高度相关性。
- 主要贡献:
- ① 介绍了基于隐私保护图像的定位问题,并为其提出了首个解决方案;
- ② 提出了一种基于将 3D 点提升到 3D 线的新颖 3D 地图表示形式,其保留足够的几何约束以用于姿势估计而不暴露所映射场景的 3D 几何信息;
- ③ 提出了用于计算相机姿态的最小解算器,给出了图像中的 2D 点与地图中的 3D 线之间的对应关系;
- ④ 研究了单视图和多视图在有无重力方向、有无场景尺度的八种情况。
2. 相关研究
2.1 基于图像的定位问题
- 基于图像的定位的最新进展产生了一些方法,这些方法现在对场景外观和照明的变化 [4,61] 和大规模的缩放 [43,56,58,83] 具有相当的鲁棒性,并且具有压缩的地图表示 [15,21] ,适用于实时计算和移动设备 [8,33,35,43–45,57,76];
- 基于图像检索 [34,66] 的传统定位方法和基于学习 [12,35,80,81] 的方法具有不需要显式存储 3D 地图的优点;
- 然而,模型反演技术 [47] 即使对这些方法也存在隐私风险;
- 此外,它们通常不够准确 [59,80] ,无法实现持久性 AR 和机器人应用。
- 总的来说,据我们所知,目前没有关于基于图像隐私保护的定位或其他 3D 视觉任务中隐私感知方法的工作。
2.2 隐私感知识别
- 自从文献 [9,10] 设计了一个安全的人脸检测系统以来,隐私意识物体识别和生物识别技术已经在视觉中进行了研究;
- 其他应用包括图像检索 [65],人脸识别 [22] ,视频监控 [74] , 生物特征验证 [75] ,匿名人脸视频中的活动识别 [53、55] 以及第一视角视频中的计算机屏幕检测 [40]。
- 最近的一系列工作是从私有或加密数据集中学习数据驱动模型[2,27,82];
- 计算机视觉中隐私保护的所有相关工作都集中在识别问题上,而我们的第一个关注于几何视觉;
- 虽然我们的工作旨在保持场景几何的机密性,但也值得探索机密特性,然而,这超出了本文的范围。
2.3 隐私保护数据集
- 文献 [17] 已经研究了隐私保护技术,用于查询数据而不泄漏辅助信息;
- 差异隐私 [20] 和 kanonymity [71] 已经应用于位置隐私问题 [3,6,26] ;
- 从私有数据集学习数据驱动模型也受到关注 [2,27,82] ;
- 然而,现有技术不适用于几何视觉问题,例如基于图像的定位。
2.4 通用相机位姿估计
- 我们在论文中提出的一个重要的观点是:基于3D 线云的隐私保护相机位姿估计与通用相机有着密切的关系;
- 文献 [28] 提出通用相机理论之后,文献 [51] 从三维线的 Pl̈ucker 表示推导出通用极线约束;
- 文献 [67] 提出了通用相对位姿问题的第一个最小解算器,而针对各种通用位姿问题提出了许多其他解算器 [13, 14, 23, 37, 38, 41, 42, 49, 68–70, 72, 77]
- 通用相机主要用于对刚性多相机设备进行建模,或用于处理具有已知外部特性的多组校准相机 [68-70] ;
- 在这些设置中,通用相机通常具有少量针孔摄像机,每个图像具有若干观察值;
- 相比之下,我们的 3D 线云可以被看作是一个普通的相机,每个三维线有一个针孔相机(和一个观测);
- 虽然现有的通用位姿求解器容易退化,但我们通过选择具有随机方向的直线来避免这个问题;
- 这不仅增强了隐私,而且使问题得到更好的处理。
3. 实现方法
- 本节中,描述了我们提出的基于图像隐私保护定位的解决方案,为了联系上下文
- 我们首先为单个摄像机介绍这个问题的传统方法,然后介绍我们的隐私保护方法后面的关键概念;
- 然后,描述了这些概念的扩展,以共同定位多个摄像机;
- 最后,我们讨论了几个特殊情况的实际解决方案,其中重力方向是已知的,或者我们可以获得具有已知或未知尺度场景的局部重建;
- 在我们的描述中,我们关注我们方法背后的高层次直觉,并让读者参考相关文献,了解解决各种情况所需的基本算法的详细信息。
3.1 传统相机位姿估计
- 我们遵循传统的基于结构的视觉定位方法 [33,58],其中场景地图由三维点云表示,其通常使用 SFM [60] 从图像中重建;
- 要在重建场景中定位具有已知内在参数的针孔相机,可以从图像中的标准化二维观测 \(x \in \mathbb{R}^{2}\) 和地图中的三维点 \(X \in \mathbb{R}^{3}\) 之间的对应关系来估计其绝对位姿 \(P = \left [ R,T\right ],R \in SO(3),T \in \mathbb{R}^{3}\);
- 为了建立 2D-3D 对应关系,分类方法是使用从 2D 图像特征到 3D 点特征的直接或间接匹配 [33,58];
- 每个 2D-3D 点对应提供两个几何约束,用于绝对相机姿势估计,其形式为公式(1);
- 至少需要三对 2D-3D 对应点来估计相机位姿 P 中的 6 自由度的未知数;
- 通常,这个问题被称为 pnP 问题,在小问题称为 p3P;
- 由于匹配过程不完善并导致 2D-3D 对应集合中存在异常值,标准程序中会使用鲁棒算法,如 RANSAC,结合有效的最小求解器公式(1)来计算初始位姿;
- 随后,再通过求解非线性最小二乘问题(公式 2)来细化该估计;
- 其基于用于图像观测的高斯误差模型 \(x \sim \mathcal{N}\left ( 0,\sigma _{x} \right )\) 给出最大似然估计;
- 这种方法已被广泛使用 [33,45,46,58,83],可在大型场景中实现高效、准确的基于图像的定位。
- 然而,它需要以三维点云的形式了解场景几何图形,因此这种方法固有地揭示了场景的几何图形;
- 在接下来的部分中,我们将介绍我们的新颖的定位方法,以克服此隐私限制。
3.2 隐私保护的相机位姿估计
- 我们实现隐私保护定位的方法背后的核心思想是以隐藏有关底层场景的信息的方式混淆地图的几何形状,同时又不会失去在场景中相机定位的能力;
- 为了隐藏 3D 几何点云,我们将每个 3D 点云 \(X\) 提升为 3D 线 \(L\) ,其具有一个通过点 \(X\) 的随机方向 \(v\in \mathbb{R}^{3}\);
- 定义在 Pl̈ucker 坐标中的 3D 线 \(L\) 为:
- 重要的是,由于方向 \(v\) 是随机选择的,并且由于叉积是秩不足的操作,原始的 3D 点位置 \(X\) 不能从其提升的 3D 线 \(L\) 中恢复;
- 我们只知道 \(L\) 在某处经过 \(X\) 并且这也适用于图像中它们各自的 2D 投影 \(l\) 和 \(x\) ;
- 形式上,如果 2D 图像观察 \(x\) 满足公式(4)的几何约束,则其通过投影的 2D 线 \(l\) ;
- 使用以上的约束估计相机绝对位姿需要至少 6 对 2D-3D 线对应来求解 \(P\) 中的 6 个自由度的未知数;
- 与传统点对方法不同,传统方法提供了两个约束,因此只需要 3 对点对来求解;
- 类似于传统的 pnP 和 p3P问题,我们将一般问题表示为 pnL ,将最小问题表示为 p6L;
- 几何上,求解 pnL 问题相当于旋转并平移由 2D 点 \(x\) 定义的且通过相机针孔的光束,使光束与对应的 3D 直线在地图上相交(如图 3 所示)
- 注意,这是广义相对姿势问题的特殊化 [67] ,其中第一个广义相机中的光线代表已知的地图 3D 线,第二个广义相机的光线表示我们要定位的针孔相机的二维图像观测;
- 我们将这一概念嵌入到传统的定位方案中,通过使用 RANSAC 和文献 [67] 提出的最小解算器来求解方程(4),对初始姿态 P 进行可靠估计;
- 然后,我们通过最小化观察到的二维点和投影的三维线之间的几何距离,非线性地优化初始姿势
- 然后,我们通过最小化观察到的二维点和投影的三维线之间的几何距离,非线性地优化初始姿势
- 在本节中推导出单个相机初始位姿估计的理论之后,接下来概括了我们对多个图像的联合定位的方法以及已知重力方向的特殊情况。
3.2.1 推广到多相机
- 虽然现有的定位方法通常只考虑单个图像,但许多设备(如头戴式显示器,机器人或车辆)都配备了多个刚性摄像头,这些摄像头已经过校准;
- 通过利用组合视野来检索更多 2D-3D 相关匹配并通过减少未知姿势参数的数量来增加估计问题的冗余度,将多个摄像机联合为定位带来了巨大的好处;
- 此外,目前许多移动设备都具有内置的 SLAM 功能,可以利用与多相机系统相同的简化功能,将本地相机轨迹视为多幅图像的外部校准。
- 多个摄像机的联合定位与单个摄像机的情况不同,主要在于如何参数化问题;
- 而不是为每个相机确定单独的位姿 \(P\in SE(3)\),我们将位姿重新参数化为公式(7)中的 P;
- 注意:如果已知 \(P_{c}\) 相对于地图中 3D 点 \(X\) 的相对比例,可以消除比例因子 \(s_{m}\in R^{+}\) 并将 \(P_{m}\) 3D 相似变换减少到 3D 刚性变换。
- 在文献中,这个问题被称为广义绝对位姿问题 [30,49] ,它类似于传统问题并且不隐藏 3D 点云。
- 在大多数实际应用中,可以假设比例 \(s_{m} = 1\) ,因为多摄像头设置通常校准为公制比例,并且由于大多数 SLAM 系统从集成惯性测量中恢复比例;
- 因此在下文中,我们最初将我们的工作限制于 \(P_{m}\in SE(3)\) 的刚性变换;
- 我们将这个问题的解决方案称为一般情况下的 m-pnP 和最小情况下的 m-p3P 问题;
- 然而,对于更一般的情况 \(P_{m}\in Sim(3)\) 也存在有效的解决方案 [70,77]
- 在隐私保护设置中,对多个图像的概括再次归结为解决广义相对姿势问题 [67] ;
- 然而,第二个广义相机的光线来自多个而不是单个针孔相机的 2D 图像观察;
- 我们将隐私保护设置中的通用解决方案称为一般的 m-pnL 和最小情况下的 m-p6L。
3.2.2 已知结构的位姿估计
- 到目前为止,我们已经讨论了一种直接从 2D 图像观察光束估计相机姿态的方法;
- 然而,在许多情况下,可以获得图像观测 \(x\) 的深度 \(\lambda\) ,之后,相对于相机的 3D 位置被计算为 \(X=\lambda \bar{x}\);
- 可以通过产生 RGB-D 图像的有源深度相机或通过多视图三角测量来提取这样的 3D 数据;
- 在传统的定位问题中,可以使用公式(8)的约束最佳地对齐两个相应 3D 点集的变换来直接估计相机位姿;
- 为了在最小的情况下解决这个方程,我们只需要 3D 刚性变化 P 的三对对应关系即可;
- 公式(8)通常以最小二乘方式求解,并且以这种形式具有直接且计算上有效的解决方案;
- 在一般和最小情况下,我们分别将其称之为 $m-PnP+$ 和 $m-P3P+$ 问题。
- 同样,也可以在我们的隐私保护应用程序中利用本地 3D 点 \(\tilde{X}\);
- 不是为了解决广义相对位姿问题,找到地图的 3D 线与相机光线之间的交点;
- 而是试图找到一个位姿,使得地图的 3D 线 \(L\) 通过 3D 点 \(\tilde{X}\),满足公式(9)的几何约束。
- 其中 \(\alpha\) 是 3D 线 \(L\) 的随机原点 \(v\times w\) 到 3D 点 \(X\) 的未知距离。
- 通过反转上式相机位姿和地图 3D 点的角色,这个问题在几何上等同于广义绝对姿势问题,即我们可以重新调整 m-pnP 以解决未知姿势 P;
- 因此,与解决 m-p6L 所需的六个对应关系相比,我们现在只需要至少三对 3D 点 - 3D 线对应关系(如图 4 所示);
- 注意,在 RANSAC 中,需要较少的点来解决最小问题是有利的,它在采样点的数量上具有指数级的运行时复杂性;
- 相较于文献 [30] 的 m-p6L ,公式(9)也更有效;
- 我们将此问题称为一般的 $m-PnL+$ 和最小情况下的 $m-P3L+$。
3.2.3 拓展到未知尺度情形
- 上一节中描述的方法可能对不准确的 3D 点位置 \(X\) 和 \(\tilde{X}\) 敏感;
- 这是有问题的,即使两个 3D 点云仅有略微不同的尺度,例如,由于 SLAM 的漂移或多相机系统轻微的误校准参数引起的;
- 相比之下,pnP 和 pnL 使用的约束不太容易受到这个问题的影响;
- 这是因为基于图像的定位中,用于三角化 \(X\) 和 \(\tilde{X}\) 的视角是相似的,并且深度 \(\lambda\) 中的不确定性 \(\sigma _{\lambda }\) 通常大于图像空间中的不确定性 \(\mathbf{\sigma _{x}}\) 。
- 为了克服这个问题,在执行基于结构的对齐时,通常更好地是使用 \(s\in R^{+}\) 估计 3D 相似变换 \(sP\) ,而不是 3D 刚体变换;
- 此时公式(8)的约束变成如下公式(10);
- 公式(9)的约束变成公式(11)
- 现在我们需要至少 4 对对应来估计 7 自由度的 3D 相似性;
- 注意对于公式(10)文献 [73] 有一个比较简单有效的方法,我们称之为 \(m - PnP + \lambda + s\);
- 在隐私保护设置中计算 3D 刚性变换问题恰好是最小的,也即,现在我们需要第四对对应关系来利用公式(11)的约束估计附加的尺度参数;
- 这相当于是广义的绝对位姿和尺度问题 [70],其中相机和地图的角色再次颠倒过来;
- 我们将一般问题称为: \(m - PnL + \lambda + s\),最小问题称为: \(m - P4L + \lambda + s\)。
3.2.4 已知重力的特殊化
- 通常,相机的参考系和 3D 地图中的重力方向的估计可以是可以利用的,例如来自惯性测量或消失点检测;
- 通过将两个参考帧预对准到垂直方向,我们可以将旋转姿态参数的数量从三个减少到一个,这样 \(R\in SO(3)\);
- 这种旋转参数化简化了几何约束,并为这些问题提供了更有效和数值稳定的解决方案;
- 此外,最小情况下需要更少的点,从而使 RANSAC 运行时更好;
- 我们为所有描述的问题实施已知的重力设置,并用后缀 + u 表示;
- 表 1 中展示了所有问题的概述。
4. 实验评估
- 为了证明我们的方法具有很高的实用性,我们对真实数据进行了大量的实验;
- 我们通过比较使用三维线云的隐私保护方法和使用三维点云的传统方法,从输入的准确性/召回性和鲁棒性方面评估了位姿估计的性能;
- 在下面,我们首先描述实验设置,然后再展示结果。 ### 4.1 实验设置
4.1.1 数据集
- 我们使用混合手机和微软 Hololens 的研究模式收集了 15 个复杂室内和室外场景的真实数据集(如图 5);
- 为了逼真地模拟基于图像的定位场景,我们捕获了用于重构场景的 3D 点云的地图图像,并从用于评估定位的显著不同的视点查询图像;
- 对于稀疏场景重建和摄像机校准,我们将所有记录的(地图和查询)图像输入 COLMAP SfM 通道 [60,63],以获得高质量的摄像机校准;
- 所获得的查询图像的相机位姿作为用于评估的 ground-truth 的 \(\hat{R}\) 和 \(\hat{T}\) ;
- 然后,将所有查询图像及其相应的三维点从获得的重建中小心地删除,以准备用于定位的三维地图;
- 在此之后,我们使用固定的相机姿势执行另一个 BA,以仅在给定地图图像的情况下优化剩余的 3D 点;
- 这些步骤是为查询图像重建精确的 ground-truth 位姿,并确保用于定位的逼真 3D 地图,其中我们仅给出地图图像;
- 在整个数据集中,我们捕获了 375 个单图像和 402 个多图像查询图像;
4.1.2 Protocol
- 为了建立 2D-3D 对应,我们在 SfM 通道的默认设置下使用 SIFT 特征直接匹配;
- 在单图像场景中,我们分别处理每个查询图像,而对于多图像场景,我们将相机流中的几个连续图像分组为一个通用相机;
- 在评估具有已知结构的多图像情况和位姿估计时,我们使用 SFM 仅从查询图像中重建 3D 点 \(\tilde{X}\) 和相机位姿 \(P_{c}\) ;
- 为了进行公平比较,所有方法都使用完全相同的 2D - 3D 对应关系、阈值和 RANSAC [24] 来实现,详见补充资料。
4.1.3 Metrics
- 在本文的评估中,将旋转误差和平移误差定义为以下形式
- 同时还计算了关于位姿估计的点 - 点,点 - 线(公式 2 和 6)的平均反投影误差;
4.1.4 Methods
- 如表 1 中所示,我们提出了 8 种隐私保护结果与传统位姿估计器对应的 8 种变体进行比较;
- 使用标准 RANSAC 和几何约束的最小求解器计算所有方法的初始姿态估计;
- 我们还使用了基于 RANSAC 内点的公式(2)(6)的 Levenberg-Marquardt 算法优化,比较了初始位姿的非线性优化(后缀 + ref)的结果。
4.2 结果
4.2.1 Accuracy and Recall
- 准确性/召回曲线在图 6 中给出,并且重投影误差在表 2 中给出;
- 如预期的那样,传统方法可以实现更好的准确/召回,因为他们的解决方案利用两个约束(公式 1)进行姿态估计;
- 令人惊讶的是,即使我们只使用一个几何约束(公式 4),它也非常接近传统方法所取得的结果;
- 此外,结合有关结构、重力和尺度的已知信息可进一步改进所有方法的结果。
4.2.2 Runtime
- 表 2 展示了所需 RANSAC 迭代的平均数,inlier 比例,最小求解器中生成的解,以及估计单个最小问题解所需的时间;
- 结果表明,虽然我们的方法比传统方法慢,它提供了适合实际实时应用的运行时间;
- 特别是具有已知结构和重力的特殊解算器可达到与传统方法相提并论的时间;
- 我们对所有方法使用相同的 RANSAC 阈值,但实际上,对于隐私保护方法,可以选择较小的阈值,因为点到线总是小于点对点重投影错误;
- 由于特征匹配中的错误,这可能更容易包括沿线的一些额外异常值,导致我们的方法 inlier 比率略高,见表 2。
4.2.3 Robustness
- 我们研究了关于点云密度和图像噪声的鲁棒性;
- 在图 7 中,我们证明了即使只保留已经稀疏的 SfM 点云的每 20 个点也可以进行可靠的姿态估计
- 图 8 显示了我们和传统方法在不同噪声 \(\mathbf{\sigma _{x}}\) 下对图像观测的相似行为。
5. 讨论
- 现在隐私风险在多大程度上得到解决,并强调未来工作的方向;
5.1 定位期间显示了什么?
- 当图像在场景中成功定位时,位姿估计的内点通过相机光线与相应的 3D 线的交点显示秘密的 3D 点;
- 乍一看,这似乎是一个隐私问题,但实际上只有图像中可见的对象被显示,而地图的其余部分或任何机密对象仍保密。
5.2 永恒且单一的线云转换
- 提升变换必须只执行一次,并且对于一个场景是永久的;
- 否则,保留由不同提升变换产生的线云的多个副本的对手可以通过交叉相应的 3D 线来容易地恢复秘密 3D 点;
5.3 紧凑的表示
- 比公式(3)中的 Plücker 线更紧凑的表达方式是选择一组有限的线方向
- 例如,256 以适合一个字节,并将线的位置编码为通过原点并与方向正交的平面的交点,这将内存使用减少到 2 个浮点和 1 个字节,即甚至小于 3 个浮点来编码一个三维点;
5.4 线云攻击
- 从提升的三维线表示中恢复单个三维点的位置是一个不适定反演问题(见公式 3),但是分析 3D 线云的密度,有可能恢复有关场景结构的信息;
- 虽然三维线云在使基础场景几何图形不可理解方面看起来很有效,但它实际上取决于场景中三维点的采样密度(详见补充材料);
- 在实践中,我们认为我们的方法对于此类攻击通常是相当健壮的,因为基于图像的定位通常使用稀疏的 SFM 点云;
- 此外,如图 7 中线云稀疏化也是一种有效的防御机制;
- 然而,关于防止反演的更深入的理论分析是未来研究的重点。
6. 总结
- 本文介绍了一种新的研究方向,称为隐私保护图像定位;
- 通过这项工作,我们率先解决与 3D 点云模型的持久存储相关的潜在隐私问题,这是 AR 和机器人技术中广泛应用所要求的;
- 我们提出的使用机密三维线云地图的想法隐藏了场景的几何结构,同时保持了基于标准特征匹配方法执行基于图像定位的能力;
【R】 参考文献
-
[19] R. Dube, D. Dugas, E. Stumm, J. I. Nieto, R. Siegwart, and´ C. Cadena. Segmatch: Segment based loop-closure for 3D point clouds. In International Conference on Robotics and Automation (ICRA), 2017.
Segmatch:基于 3D 点云分割的闭环检测,代码开源 -
[28] Grossberg M D, Nayar S K. A general imaging model and a method for finding its parameters[C]//Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001. IEEE, 2001, 2: 108-115.
通用相机模型的首次提出 -
[30] Lee G H, Li B, Pollefeys M, et al. Minimal solutions for pose estimation of a multi-camera system[M]//Robotics Research. Springer, Cham, 2016: 521-538.
广义绝对位姿问题 ,用于多相机系统姿态估计的最小解决方案 -
[45] Lim H, Sinha S N, Cohen M F, et al. Real-time monocular image-based 6-DoF localization[J]. The International Journal of Robotics Research, 2015, 34(4-5): 476-492.
基于单目图像的 6 自由度实时定位 -
[46] Lynen S, Sattler T, Bosse M, et al. Get Out of My Lab: Large-scale, Real-Time Visual-Inertial Localization[C]//Robotics: Science and Systems(RSS). 2015.
Google Project Tango:大规模实时 VI 定位,演示视频 -
[51] Pless R. Using many cameras as one[C]//2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2003. Proceedings. IEEE, 2003, 2: II-587.
从三维线的 Pl̈ucker 表示推导出通用极线约束, Pl̈ucker 坐标系 -
[52] Raguram R, Chum O, Pollefeys M, et al. USAC: a universal framework for random sample consensus[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 2022-2038.
RANSAC 算法剔除异常值 -
[60] Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4104-4113.
本文所依托的 SFM 框架,微软,开源:[Code] ,作者主页 -
[67] HenrikStewénius M O, Aström K, Nistér D. Solutions to minimal generalized relative pose problems[J]. 2005.
最小化广义相对姿势问题的解决方案 -
[70] Sweeney C, Fragoso V, Höllerer T, et al. gdls: A scalable solution to the generalized pose and scale problem[C]//European Conference on Computer Vision. Springer, Cham, 2014: 16-31.
广义位姿和尺度问题的可扩展解决方案 -
[76] Ventura J, Arth C, Reitmayr G, et al. Global localization from monocular slam on a mobile phone[J]. IEEE transactions on visualization and computer graphics, 2014, 20(4): 531-539.
手机端单目 SLAM 的全局定位
【Q】 问题
- generalized:广义?通用?
- 公式(3)中线 L ∈ P^5?不是 6 自由度吗?
- 第一个广义相机中的光线代表已知的地图 3D 线,第二个广义相机的光线表示我们要定位的针孔相机的二维图像观测?
- 第四章中查询图像(query images)是指什么图像??相当于测试定位的图像?
【T】 思考
- 三维欧几里得空间中线可以有两种表述方式,在 Struct VIO 中使用两个平面的交线来表示,在本文中使用两个点的连线来表示;
- 传统方法两个几何约束(公式 1):要求 x,y 坐标都尽可能地重合,隐私保护方法一个几何约束(公式 4),仅需要点落在直线上即可,不必确定在哪个位置,最后的效果如图 6 ,传统方法准确率更高,但一个约束的准确率也接近,是否可以考虑为公式 4 多添加一个几何约束?
- 表 2 的 RANSAC 统计显示
- 传统方法速度更快,但当重力或结构已知的情况下点-线方法也差不多;
- 点-线可以选择较小的 RANSAC 阈值,因为点到线总是小于点对点重投影错误;
- 需要考虑干扰的地方:由于特征匹配中的错误,这可能更容易包括沿线的一些额外异常值,导致点-线 inlier 比率略高;
【N】
2019.04.06
wuyanminmax@gmail.com
文章作者 wuxiaolang
上次更新 2019-04-06
许可协议 MIT