用于SLAM的神经隐含可扩展编码-电子发烧友网

摘要

最近，神经隐含表征在各个领域显示出令人鼓舞的结果，包括在同步定位和映射（SLAM）方面取得的可喜进展。然而，现有的方法产生了过度平滑的场景重建，并且难以扩展到大场景。这些限制主要是由于其简单的全连接网络结构，没有将局部信息纳入观察范围。

在本文中，我们提出了NICE-SLAM，这是一个密集的SLAM系统，通过引入分层的场景表示，纳入了多层次的本地信息。用预先训练好的几何先验来优化这个表示，可以在大的室内场景中进行详细的重建。与最近的神经隐含SLAM系统相比，我们的方法更具可扩展性、效率和鲁棒性。在五个具有挑战性的数据集上进行的实验表明，NICE-SLAM在映射和跟踪质量方面都具有竞争力。

主要贡献

我们提出了NICE-SLAM，一个密集的RGB-DSLAM系统，它具有实时性、可扩展性、预测性和对各种挑战性场景的鲁棒性。

NICE-SLAM的核心是一个分层的、基于网格的神经隐式编码。与全局神经场景编码相比，这种表示法允许局部更新，这是大规模方法的一个先决条件。

我们在各种数据集上进行了广泛的评估，证明了在映射和跟踪方面具有竞争力的性能。

主要方法

我们的方法将RGB-D图像流作为输入，并以分层特征网格的形式输出摄像机的姿势和学习到的场景表示。从右到左，我们的管道可以被解释为一个生成模型，它根据给定的场景表示和摄像机姿势渲染深度和颜色图像。在测试时，我们通过逆向传播图像和深度重建损失来解决逆向问题，并通过可区分的渲染器（从左到右）来估计场景表现和摄像机的姿势。

这两个实体都是在交替优化中估计的。映射：逆传播只更新层次化的场景表示。跟踪：逆传播只更新摄像机的姿态。为了提高可读性，我们将用于几何编码的细尺度网格与同等大小的颜色网格结合起来，并将它们显示为具有两个属性（红色和橙色）的一个网格。

1. 层次化的场景表示

现在我们介绍一下我们的分层场景表示，它结合了多级网格特征和预训练的解码器，用于占用率预测。几何图形被编码成三个特征网格j l θ和它们相应的MLP解码器f l，其中l∈{0，1，2}是指粗、中、细三级场景细节。此外，我们还有一个单一的特征网格ψω和解码器gω来模拟场景外观。这里θ和ω表示几何和颜色的可优化参数，即网格中的特征和颜色解码器中的权重。

2. 深度和色彩渲染

给定相机的固有参数和当前相机的姿势，我们可以计算出一个像素坐标的观察方向r。我们首先沿着这条射线对Nstrat点进行分层采样，同时对靠近深度的Nimp点进行均匀采样1。

我们对每条射线总共取样N=Nstrat+Nimp点。更正式地说，让pi = o + dir, i∈ {1, - -, N}表示给定摄像机原点o的射线r上的采样点，di对应于pi沿该射线的深度值。对于每一个点pi，我们可以计算出它们的粗粒度占用概率o0 pi，细粒度占用概率opi，和颜色值cpi。

最后，对于每条射线，在粗略和精细层面的深度，以及颜色可以被呈现为：

3. 建图和跟踪

建图。

为了优化上文提到的场景表示，我们从当前帧和选定的关键帧中均匀地取样共M个像素。接下来，我们以分阶段的方式进行优化，以最小化几何和光度损失。

几何损失仅仅是观测值和预测深度之间的L1损失，在粗略的或精细的水平上为：

光度损失为：

相机跟踪。

除了优化场景表示外，我们还平行运行摄像机跟踪，以优化当前帧的摄像机姿势，即旋转和平移{R，t}。为此，我们对当前帧中的Mt像素进行采样，并应用上面相同的光度损失，但使用一个修改过的几何损失：

修改后的损失在重建的几何形状中减少了某些区域的权重，例如物体的边缘。摄像机跟踪最终被表述为以下最小化问题：

4. 关键帧的选择与其他SLAM系统类似

我们用一组选定的关键帧不断优化我们的分层场景表示。我们按照iMAP的方法维护一个全局关键帧列表，我们根据信息增益逐步添加新的关键帧。然而，与iMAP相比，我们在优化场景几何时只包括与当前帧有视觉重叠的关键帧。这是可能的，因为我们能够对我们的基于网格的表示进行局部更新，而且我们不会像iMap那样存在关键帧消失的问题。

这种关键帧选择策略不仅确保了当前视图之外的几何形状保持静态，而且还导致了一个非常有效的优化问题，因为我们每次只优化必要的参数。在实践中，我们首先随机地对像素进行采样，并使用优化后的相机姿势对相应的深度进行反投影。

然后，我们将点云投影到全局关键帧列表中的每个关键帧。从这些有点投射到的关键帧中，我们随机选择K-2帧。此外，我们还将最近的关键帧和当前的帧包括在场景表示优化中，形成总共K个活动帧。

主要结果

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40736
RGB

RGB

+关注

关注
4

文章
798

浏览量
58490
SLAM

SLAM

+关注

关注
23

文章
423

浏览量
31827
MLP

MLP

+关注

关注
0

文章
57

浏览量
4243

原文标题：NICE-SLAM：用于SLAM的神经隐含可扩展编码（CVPR 2022）

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

动态环境中基于神经隐式表示的RGB-D SLAM

神经隐式表示已经被探索用于增强视觉SLAM掩码算法，特别是在提供高保真的密集地图方面。

发表于 01-17 10:39 •900次阅读

动态环境中基于<b class='flag-5'>神经</b>隐式表示的RGB-D <b class='flag-5'>SLAM</b>

SLAM技术的应用及发展现状

近年来，由于扫地机的出现使得SLAM技术名声大噪，如今，已在机器人、无人机、AVG等领域相继出现它的身影，今天就来跟大家聊一聊国内SLAM的发展现状。 SLAM的多领域应用SLAM应用

发表于 12-06 10:25

让机器人完美建图的SLAM 3.0到底是何方神圣？

过程中调整了图结构中每个节点的pose和对应的传感器信息以及所有关键点构建的位姿关系图，利用全部的机器人位姿信息和对应传感器数据生成环境地图。　　　　SLAM 3.0 编码了机器人在SLAM过程中的位

发表于 01-21 10:57

【案例分享】基于BP算法的前馈神经网络

传播的，不会回流），区别于循环神经网络RNN。BP算法（Back Propagation）：误差反向传播算法，用于更新网络中的权重。BP神经网络思想：表面上：1. 数据信息的前向传播，从输入层到

发表于 07-21 04:00

SLAM技术目前主要应用在哪些领域

　　目前，SLAM（即时定位与地图构建）技术主要被运用于无人机、无人驾驶、机器人、AR、智能家居等领域，从各应用场景入手，促进消费升级。　　机器人　　激光+SLAM是目前机器人自主定位导航所

发表于 12-01 14:26

激光SLAM与视觉SLAM有什么区别？

机器人定位导航中，目前主要涉及到激光SLAM与视觉SLAM，激光SLAM在理论、技术和产品落地上都较为成熟，因而成为现下最为主流的定位导航方式，在家用扫地机器人及商用送餐机器人等服务机器人中普遍采用了...

发表于 07-05 06:41

基于视觉的slam自动驾驶

基于视觉的slam自动驾驶，这是我们测试的视频《基于slam算法的智能机器人》调研分析报告项目背景分析机器人曾经是科幻电影中的形象，可目前已经渐渐走入我们的生活。机器人技术以包含机械、电子、自动控制

发表于 08-09 09:37

单目视觉SLAM仿真系统的设计与实现

实现单目视觉同时定位与建图(SLAM)仿真系统，描述其设计过程。该系统工作性能良好，其SLAM算法可扩展性强，可以精确逼近真实单目视觉SLAM

发表于 04-15 08:50 •82次下载

可扩展应用与可扩展系统

可扩展计算机系统在各个领域得到了越来越广泛的应用，这些应用往往具有可扩展的需求，而这些可扩展应

发表于 05-30 10:08 •33次下载

基于可扩展编码的多视角视频编码研究

本内容提供了基于可扩展编码的多视角视频编码研究

发表于 09-26 15:39 •25次下载

57682543slam_code

基于扩展卡尔曼滤波的SLAM算法相关代码。

发表于 03-22 14:11 •34次下载

谷歌全新操作系统Android Q Beta 1发布可扩展神经网络API

据国外媒体报道，谷歌今日发布全新操作系统Android Q Beta 1，其主要特性有增强的隐私和安全功能，支持可折叠屏幕的增强功能，全新API接口，全新媒体编码解码器，全新摄像头功能，可扩展

发表于 03-17 09:13 •2546次阅读

用于神经场SLAM的矢量化对象建图

vMAP 是一种基于神经场的对象级密集 SLAM 系统，可根据 RGB-D 输入流实时自动构建对象级场景模型。

发表于 06-15 09:29 •824次阅读

视觉SLAM是什么？视觉SLAM的工作原理视觉SLAM框架解读

近年来，SLAM技术取得了惊人的发展，领先一步的激光SLAM已成熟的应用于各大场景中，视觉SLAM虽在落地应用上不及激光SLAM，但也是目前

发表于 09-05 09:31 •3973次阅读

NeRF何去何从？GS SLAM到底哪家强？来看看最新的开源方案！

Gaussian-SLAM提出了用于seeding和优化Gaussian splats的新策略，以将其从多视图离线场景扩展到RGBD序列。还扩展了Gaussian splats来

发表于 12-26 16:38 •1227次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

用于SLAM的神经隐含可扩展编码

评论

动态环境中基于神经隐式表示的RGB-D SLAM

SLAM技术的应用及发展现状

让机器人完美建图的SLAM 3.0到底是何方神圣？

【案例分享】基于BP算法的前馈神经网络

SLAM技术目前主要应用在哪些领域

激光SLAM与视觉SLAM有什么区别？

基于视觉的slam自动驾驶

单目视觉SLAM仿真系统的设计与实现

可扩展应用与可扩展系统

基于可扩展编码的多视角视频编码研究

57682543slam_code

谷歌全新操作系统Android Q Beta 1发布可扩展神经网络API

用于神经场SLAM的矢量化对象建图

视觉SLAM是什么？视觉SLAM的工作原理视觉SLAM框架解读

NeRF何去何从？GS SLAM到底哪家强？来看看最新的开源方案！