0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于几何单目3D目标检测的密集几何约束深度估计器

3D视觉工坊 来源:自动驾驶之心 作者:汽车人 2022-10-09 15:51 次阅读

摘要

由于深度信息的缺失,从单目图像估计物体的准确3D位置是一个具有挑战性的问题。之前的工作表明,利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而,现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束,产生的深度候选不足,导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式,论文使用了更多的投影约束并输出了更多的候选深度。此外,论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为DCD(Densely Constrained Detector),在 KITTI 和 WOD基准上实现了最先进的性能。

之前算法存在的问题在于它们的几何约束不足。具体来说,一些现有的方法估计2D边界框和3D边界框的高度,然后利用2D到3D高度投影约束生成目标的深度候选。最终的深度是通过对所有候选深度进行加权来生成的。如下图所示,该方法仅适用于垂直边缘,这意味着它们只使用少量约束和3D先验,导致深度估计的不准确。

65534d06-32f0-11ed-ba43-dac502259ad0.png

方法

DCD的框架的如下图所示。DCD使用单阶段检测器从单目图像中检测目标。论文提出了密集几何约束深度估计器(DGDE,Densely Geometric-constrained Depth Estimator),它可以计算任何方向的2D-3D边缘的深度。DGDE可以有效地利用目标的语义关键点并产生更多的深度候选。此外,论文利用回归得到的2D边缘、3D边缘和方向作为2D-3D边缘图匹配网络的输入。所提出的图匹配加权模块 (GMW,Graph Matching Weighting module) 匹配每个2D-3D边缘并输出匹配分数。通过将多个深度与其相应的匹配分数相结合,论文最终可以为目标生成一个稳健的深度。

65702e3a-32f0-11ed-ba43-dac502259ad0.png

Geometric-based 3D Detection Definition

基于几何的单目3D目标检测通过2D-3D投影约束估计目标的位置。具体来说,网络预测目标的尺寸(),旋转角。假设一个目标有n个语义关键点,论文回归第i个关键点在图像坐标中的2D坐标和object frame中的3D坐标。object frame的坐标原点是目标的中心点。给定n个语义2D-3D关键点投影约束,解决3D目标位置是一个超定问题,它是用于将点云将从object frame转换到camera frame的平移向量。生成每个目标的语义关键点的方法改编自。论文通过PCA建立了一些汽车模型,并通过从点云和2D mask中分割出来的3D点云来细化模型。在获得关键点后,就可以使用DGDE从关键点投影约束中估计目标的深度。

Densely Geometric-constrained Depth Estimation

虽然以前的深度估计方法[51]只考虑了垂直边缘,但DGDE可以处理任意方向的边缘。因此,论文能够利用更多的约束来估计每个深度候选的深度。

该方法基于关键点从3D空间到2D图像的投影关系。第i个关键点的3D坐标在object frame中定义,并通过以下等式投影到2D图像平面上:

659994a0-32f0-11ed-ba43-dac502259ad0.png

其中是第i个关键点的深度,K是相机内参,K,R,t 表示为:

65b1dace-32f0-11ed-ba43-dac502259ad0.png

通过上述两式,第i个关键点的投影约束方程记为:

65d49866-32f0-11ed-ba43-dac502259ad0.png

第j个关键点投影约束方程与上式类似,进一步可以从第i个、第 j 个关键点投影约束中得到深度估计:

65e973bc-32f0-11ed-ba43-dac502259ad0.png

这个方程表明深度可以通过任意方向边缘的投影约束来计算。

给定n个关键点,论文生成m=n(n-1)/2 个深度候选。与此同时,不可避免地会遇到一些低质量的深度候选。因此,需要适当的加权方法来集成这些深度候选。

Depth Weighting by Graph Matching

利用DGDE估计目标的深度候选时,目标的最终深度可以根据根据估计质量进行加权:

65fc61f2-32f0-11ed-ba43-dac502259ad0.png

接下来介绍论文提出的新的加权方法——Graph Matching Weighting module (GMW)。

Graph Construction and Edge Feature extraction:论文构造了2D关键点图和3D关键点图。3D关键点图与2D关键点图基本一致,唯一的区别是顶点坐标是2D坐标还是3D坐标。2D和3D边缘特征提取器[47]如下所示:

66120a66-32f0-11ed-ba43-dac502259ad0.png

FC、CN、BN、ReLU 分别表示全连接层、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有边的全局信息。

Graph matching layer:给定提取的2D和3D边缘特征,根据在边缘s上的2D特征和边缘t上的3D特征之间的L2距离计算如下损失:

662a3a3c-32f0-11ed-ba43-dac502259ad0.png

然后论文将M作为Sinkhorn layer[4]的输入来获得分配矩阵P。Sinkhorn layer通过最小化下述目标函数来迭代优化P:

6644d9e6-32f0-11ed-ba43-dac502259ad0.png

Loss function:设计如下所示的回归损失来监督最终的加权深度,并使用分类损失来监督图匹配:

66622ef6-32f0-11ed-ba43-dac502259ad0.png

实验结果

KITTI上的实验结果,优势比较明显。

667235ee-32f0-11ed-ba43-dac502259ad0.png

可视化:

66a4fcae-32f0-11ed-ba43-dac502259ad0.png

更多的实验结果如下表所示:

66dbcda6-32f0-11ed-ba43-dac502259ad0.png

消融实验

670c7190-32f0-11ed-ba43-dac502259ad0.png

DCD可以比基线更准确地估计深度。

673121fc-32f0-11ed-ba43-dac502259ad0.png

GMW和边数量的消融实验

674e04d4-32f0-11ed-ba43-dac502259ad0.png

关于DCD和AutoShape的讨论

尽管DCD和AutoShape都利用多个关键点来估计目标的位置,但存在如下关键差异:

AutoShape直接使用所有2D-3D关键点投影约束来求解对象目标深度。DCD则从每个边缘约束中求解一个深度候选。因此,DCD的边缘约束不仅数量多,而且比关键点约束的阶数更高;

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    863

    浏览量

    47673
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107474

原文标题:ECCV 2022 | 用于单目3D目标检测的密集约束深度估计器

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深度解析自动驾驶的双目3D感知视觉方案

    基于摄像头图像来感知3D环境是一个病态问题,但是可以利用一些几何约束和先验知识来辅助完成这个任务,也可以采用深度神经网络端对端的学习如何从
    发表于 06-08 10:22 1919次阅读
    <b class='flag-5'>深度</b>解析自动驾驶的双目<b class='flag-5'>3D</b>感知视觉方案

    如何通俗理解视觉定位?带你看懂对极几何与基本矩阵

    是Epipolarconstraint极线约束:X在右像面上的投影XR必然被约束在eR-XR极线上。对于OL-XL上的X,X1,X2,X3都受该约束。极线
    发表于 06-01 08:00

    最受欢迎的三种深度传感

    时间(ToF)  TOF是Time of flight的简写,直译为飞行时间。所谓飞行时间法3D成像,是通过给目标连续发送光脉冲,然后用传感接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到
    发表于 08-25 11:05

    3D设计太耗时?赶紧试试浩辰3D软件中的几何约束关系命令!

    。若存在几何约束重叠,则可使用「快速选取」进行选择式删除。如何显示和关闭几何约束关系? 选择工具栏「草图」-「相关」-「保持关系」,该命令默认为自动开启状态。该命令开启时,浩辰
    发表于 12-11 11:17

    实时3D艺术最佳实践-几何指南

    为确保游戏在所有设备上运行良好, 游戏的几何学考虑必须认真和尽可能优化。 本指南突出显示三维资产中的几何性能优化, 可以提高游戏效率。 这些优化有助于实现改善移动平台上游戏表现的总体目标。 本指南也可以以Unity Learn
    发表于 08-02 08:05

    基于几何约束的视频帧间线段特征匹配算法

    规划的线段特征匹配算法。首先,基于校正后视频帧间线段特征的空间相邻性计算线段匹配的初始候选集;然后,基于极线约束应矩阵模型约束以及点一线相邻性约束等多重
    发表于 11-29 10:20 0次下载
    基于<b class='flag-5'>几何</b><b class='flag-5'>约束</b>的视频帧间线段特征匹配算法

    基于图像的深度估计算法,大幅度提升基于图像深度估计的精度

    双目匹配需要把左图像素和右图中其对应像素进行匹配,再由匹配的像素差算出左图像素对应的深度,而之前的深度估计方法均不能显式引入类似的
    的头像 发表于 06-04 15:46 3.5w次阅读
    基于<b class='flag-5'>单</b><b class='flag-5'>目</b>图像的<b class='flag-5'>深度</b><b class='flag-5'>估计</b>算法,大幅度提升基于<b class='flag-5'>单</b><b class='flag-5'>目</b>图像<b class='flag-5'>深度</b><b class='flag-5'>估计</b>的精度

    3D的感知技术及实践

    3D滤波、噪声过滤和表面平滑 3D信号处理深度图平滑滤波 3D信号处理深度图的双边滤波 3D信号
    的头像 发表于 10-23 09:40 3225次阅读
    <b class='flag-5'>3D</b>的感知技术及实践

    关于钢块3D几何测量的实用性说明

    钢块3D几何测量的实用性 3D几何测量在钢块生产的两个步骤中非常有用:(1)经过平方处理后,为抛光生成建议,以减少抛光工作量。(2)在最终检查过程中,要确保
    发表于 07-05 15:56 405次阅读

    密集SLAM的概率体积融合概述

    我们提出了一种利用深度密集 SLAM 和快速不确定性传播从图像重建 3D 场景的新方法。所提出的方法能够
    的头像 发表于 01-30 11:34 681次阅读

    介绍第一个结合相对和绝对深度的多模态深度估计网络

    深度估计分为两个派系,metric depth estimation(度量深度估计,也称绝对
    的头像 发表于 03-21 18:01 5560次阅读

    公差分析VS尺寸链计算-DTAS 3D几何数据导入

    DTAS 3D几何数据导入/网站www.dtas-china. com【支持免费案例解析、尺寸问题答疑、软件试用】等服务
    的头像 发表于 04-20 11:56 1015次阅读
    公差分析VS尺寸链计算-DTAS <b class='flag-5'>3D</b><b class='flag-5'>几何</b>数据导入

    一种利用几何信息的自监督深度估计框架

    本文方法是一种自监督的深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和
    发表于 11-06 11:47 427次阅读
    一种利用<b class='flag-5'>几何</b>信息的自监督<b class='flag-5'>单</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估计</b>框架

    深度估计开源方案分享

    可以看一下深度估计效果,这个深度图的分辨率是真的高,物体边界分割的非常干净!这里也推荐工坊推出的新课程《
    的头像 发表于 12-17 10:01 802次阅读
    <b class='flag-5'>单</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估计</b>开源方案分享

    如何搞定自动驾驶3D目标检测

    可用于自动驾驶场景下基于图像的3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI
    发表于 01-05 10:43 580次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>!