0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开发pipeline,在移动设备上可实时计算3D目标检测

牵手一起梦 来源:机器之心 作者:佚名 2020-03-13 15:41 次阅读

3月13日消息,谷歌宣布推出 MediaPipe Objectron,这是一种适用于日常物体的移动端实时3D目标检测 pipeline,它能够检测 2D 图像中的目标,并通过新创建 3D 数据集上训练的机器学习模型来估计这些目标的姿态和大小。它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型,并加入了移动端试试 3D 检测模型。目前 MediaPipe包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。

MediaPipe 是一个用于构建 pipeline 进而处理不同模态感知数据的跨平台开源框架,Objectron 则在 MediaPipe 中实现,其能够在移动设备上实时计算目标的定向 3D 边界框。从单个图像进行 3D 目标检测。MediaPipe 可以在移动端上实时确认目标对象的位置、方向以及大小。整个模型非常精简,速度也非常快,研究者将整套方案都开源了出来。

获取真实的3D训练数据

随着依赖于 3D 传感器(如 LIDAR)的自动驾驶行业发展普及,现在已有大量街道场景的 3D 数据,但对于日常生活中拥有更细颗粒度的目标来说,有标注的 3D 数据集就非常有限了。所以,为了解决此问题,谷歌团队使用了 AR 会话(Session)数据开发了一种全新的数据 Pipeline。

此外,随着 ARCore 以及 ARkit 的出现,数亿体量的智能手机拥有了 AR 功能,并且能够通过 AR 会话取获取更多的信息,包括相机姿态、稀疏 3D 点云、光照估计以及平面区域估计。为了标记真实数据,团队构建了一个全新的标注工具,并且与 AR 会话数据一起使用,该标注工具使标注者得以快速标记目标的 3D 边界框。

该工具使用了分屏视图来显示 2D 的视频帧,同时在其左侧叠加 3D 边界框,并在右侧显示 3D 点云,摄像机方位以及所检测到的水平面。标注器在 3D 视图中绘制 3D 边界框,并通过查看 2D 视频帧中的投影来验证其位置。

左:带标注的 3D 边界框所形成的投影展示在边界框顶部,更易于验证标注;右:通过检测到的目标表面以及稀疏点云数据,可以为不同的相机姿态标注真实世界中的 3D 边界框。

AR 合成数据

之前常用的方法会根据合成数据补充真实数据,以提高预测的准确性。然而这样的做法通常会导致质量低下、不真实的数据,且如果要执行图像的真实感渲染,又需要更多的计算力。

研究者采用了另一种称之为 AR 合成数据(AR Synthetic Data Generation)的方法,只要将对象放到 AR 系统的工作场景中,我们就能利用相机姿态估计、水平面检测、光照估计生成物理上可能存在的位置及场景。这种方法能生成高质量合成数据,并无缝匹配实际背景。通过结合真实数据与 AR 合成数据,研究者能将模型的准确性提高约 10%。

3D 目标检测的流程是什么样的

对于 3D 目标检测,研究者先构建了一个单阶段模型 MobilePose,以预测单张 RGB 图像中某个目标的姿态和物理大小。该模型的主干是一个编码器-解码器架构,其构建在 MobileNet V2 的基础上。研究者应用了多任务学习方法,来从检测与回归的角度联合预测目标的形状,且在预测形状的过程中,其只依赖于标注的分割图像。

MobilePose-Shape 网络在中间层会带有形状预测模块。

在模型的训练中,如果数据没有标注形状,那也是可行的。只不过借助检测边界框,研究者可以预测形状中心与分布。

为了获得边界框的最终 3D 坐标,研究者利用了一种完善的姿态估计算法(EPnP),它可以恢复对象的 3D 边界框,而无需知道对象维度这一先验知识。给定 3D 边界框,我们可以轻松计算对象的姿态和大小。

下图显示了网络架构和后处理过程,该模型轻巧到可以在移动设备上实时运行(在 Adreno 650 mobile GPU 上以 26 FPS 的速度运行)。

3D 目标检测的神经网络架构与后处理过程。

模型的示例结果,其中左图为估计边界框的原始 2D 图像,中间为带高斯分布的目标检测,最右边为预测的分割 Mask。

在 MediaPipe 中进行检测和追踪

当模型对移动设备获得的每一帧图像进行计算的时候,它可能会遇到晃动的情况,这是因为每一帧对目标边界框预测本身的模糊性造成的。为了缓解这个问题,研究者采用了检测+追踪的框架,这一框架近期被用于 2D 检测和追踪中。这个框架减少了需要在每一帧上运行网络的要求,因此可以让模型的检测更为精确,同时保证在移动端上的实时性。它同时还能保持识别帧与帧之间的目标,确保预测的连贯性,减少晃动。

为了进一步提升这一 pipeline 的效率,研究者设置模型在每几帧后再进行一次模型推理。之后,他们使用名为快速动作追踪(instant motion tracking)和 Motion Stills 技术进行预测和追踪。当模型提出一个新的预测时,他们会根据重叠区域对检测结果进行合并。

为了鼓励研究者和开发者基于这一 pipeline 进行试验,谷歌目前已经将研究成果开源到了 MediaPipe 项目中,包括端到端的移动设备应用 demo,以及在鞋、椅子两个分类中训练好的模型。研究者希望这一解决方案能够更好地帮助到社区,并产生新的方法、应用和研究成果。团队也希望能够扩大模型到更多类别中,进一步提升在移动端设备的性能表现。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2887

    浏览量

    107623
  • 谷歌
    +关注

    关注

    27

    文章

    6171

    浏览量

    105504
收藏 人收藏

    评论

    相关推荐

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    以及边缘计算能力的增强,越来越多的目标检测应用开始直接在靠近数据源的边缘设备运行。这不仅减少了数据传输延迟,保护了用户隐私,同时也减轻了云
    发表于 12-19 14:33

    CASAIM自动化检测设备3D尺寸检测形位公差测量设备

    随着科技的不断发展,自动化检测设备正朝着高精度、高效率、自动化和柔性化的方向发展,能够不需要人工干预的情况下完成检测任务。CASAIM自动化检测
    的头像 发表于 11-20 16:22 172次阅读

    中兴通讯携手中国移动推出AI裸眼3D创新产品

    全球领先的通讯科技企业中兴通讯携手中国移动2024MWC上海展上联合发布两款全球首创的AI裸眼3D创新产品:千元普惠的中兴远航3D手机和第二代裸眼
    的头像 发表于 10-15 10:05 800次阅读

    中兴通讯与中国移动发布全球首创AI裸眼3D新品,引领3D科技新浪潮

    科技飞速发展的今天,裸眼3D技术以其独特的沉浸式体验,正逐渐成为科技领域的新宠。近日,全球领先的通讯科技企业中兴通讯携手中国移动备受瞩目的2024MWC上海展
    的头像 发表于 06-28 15:32 1019次阅读

    苏州吴中区多色PCB板元器件3D视觉检测技术

    3D视觉检测相较于2D视觉检测,有其独特的优势,不受产品表面对比度影响,精确检出产品形状,可以测出高度(厚度)、体积、平整度等。实际应用中
    的头像 发表于 06-14 15:02 425次阅读
    苏州吴中区多色PCB板元器件<b class='flag-5'>3D</b>视觉<b class='flag-5'>检测</b>技术

    工业镜头3D结构光检测中实际应用

    工业镜头3D结构光检测中实际应用
    的头像 发表于 06-01 08:34 308次阅读
    工业镜头<b class='flag-5'>在</b><b class='flag-5'>3D</b>结构光<b class='flag-5'>检测</b>中实际应用

    VIVERSE 推行实时3D渲染: 探索Polygon Streaming技术力量与应用

    商业领域和娱乐行业中,3D渲染技术一直是推动视觉体验革新的关键力量。随着技术的进步,实时3D渲染技术逐渐成为主流,近期VIVERSE平台对外发布引入一项全新技术——Polygon
    的头像 发表于 05-31 15:49 2350次阅读
    VIVERSE 推行<b class='flag-5'>实时</b><b class='flag-5'>3D</b>渲染: 探索Polygon Streaming技术力量与应用

    3D视觉技术惯性环料领域的未来发展

    随着制造业的智能化和自动化水平不断提升,惯性环作为汽车发动机减震器中的核心组件,其精准、高效的料过程显得尤为关键。作为实现这一目标的重要技术手段,3D视觉技术惯性环
    的头像 发表于 05-21 16:06 317次阅读
    <b class='flag-5'>3D</b>视觉技术<b class='flag-5'>在</b>惯性环<b class='flag-5'>上</b>料领域的未来发展

    机器人3D视觉引导系统框架介绍

    通过自主开发3D扫描仪可获准确并且快速地获取场景的点云图像,通过3D识别算法,实现在对点云图中的多种目标物体进行识别和位姿估计。
    发表于 04-29 09:31 345次阅读
    机器人<b class='flag-5'>3D</b>视觉引导系统框架介绍

    友思特应用 | 稳步前行:基于FPGA 3D相机实现轮胎定位检测应用

    乘用车辆的长期稳定行驶离不开轮胎等零部件的定期检测。友思特 3D相机实时采集车辆四轮的三维点云图,提取关键信息并进行计算分析,实现车辆四轮
    的头像 发表于 04-24 17:00 389次阅读
    友思特应用 | 稳步前行:基于FPGA <b class='flag-5'>3D</b>相机实现轮胎定位<b class='flag-5'>检测</b>应用

    包含具有多种类型信息的3D模型

    三维视图。事实,AE可以3D BIM模型元素与时间因素联系起来后创建4D模型,从而更广泛地进行产品的可视化预览,更精确地分析建筑项目的实施进度。 以下五个BIM软件平台是目前最受
    发表于 03-28 17:18

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Objec
    的头像 发表于 02-27 16:38 1157次阅读
    Nullmax提出多相机<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>新方法QAF2<b class='flag-5'>D</b>

    基于深度学习的方法处理3D点云进行缺陷分类应用

    背景部分介绍了3D点云应用领域中公开访问的数据集的重要性,这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集,包括用于3D形状分类、3D物体
    的头像 发表于 02-22 16:16 1215次阅读
    基于深度学习的方法<b class='flag-5'>在</b>处理<b class='flag-5'>3D</b>点云进行缺陷分类应用

    ELF 1 开发实现读取摄像头视频进行目标检测

    当前,将AI或深度学习算法(如分类、目标检测和轨迹追踪)部署到嵌入式设备,进而实现边缘计算,正成为轻量级深度学习算法发展的一个重要趋势。今天将与各位小伙伴分享一个实际案例:
    的头像 发表于 01-24 10:38 711次阅读
    <b class='flag-5'>在</b>ELF 1 <b class='flag-5'>开发</b>板<b class='flag-5'>上</b>实现读取摄像头视频进行<b class='flag-5'>目标</b><b class='flag-5'>检测</b>

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25