硬件加速人体姿态估计开源分享

消耗积分:0 | 格式:zip | 大小:0.00 MB | 2023-06-25

杨秀英

分享资料个

描述

抽象的

简介：最新的深度学习模型与最先进的硬件相结合，可以实时执行人体姿态估计 (HPE)。HPE 是指根据图像数据估计人体的运动学模型。瑞士东部应用科学大学 ( OST )的人工智能跨学科中心 ( ICAI ) 与瑞士 VRM合作，采用了著名的OpenPoseHPE 的网络，并使其计算效率更高。让我们将此项目的网络称为 ICAIPose。当前的原型使用具有一流和计算密集型深度学习模型的多摄像头系统，可在多个图形处理单元（GPU）上运行，具有足够的性能。

为了在治疗环境中广泛采用 HPE，需要一个小型且具有成本效益的系统。因此，姿势跟踪系统应该在边缘设备上运行。

目标：在这个项目中，ICAIPose 应该在 AMD-Xilinx 的 FPGA 边缘设备 Kria KV 260 上实现。由于 ICAIPose 是为 GPU 设计的，因此在 FPGA 上运行这样一个给定的网络所需的努力和性能影响是主要关注点。

方法：该应用程序需要一个摄像头接口和一个深度学习处理单元。为了测试这些硬件部件，使用这些部件的给定示例项目首先在 Kria 板上运行。然后，使用 AMD-Xilinx 的 Vitis AI 为 FPGA 上的深度学习处理器单元 (DPU) 编译 ICAIPose 网络，并对网络进行微调。随附的 Vitis AI 运行时引擎及其 Python API 通过 FPGA 微处理器上的嵌入式 Linux 与 DPU 进行通信。

结论：ICAIPose 是一个非常大的神经网络，具有超过 100 个 GOps 来处理一帧。然而，在 KV260 上可以实现每秒 8 帧的吞吐量。基于 GPU 的 NVIDIA Jetson Xavier NX 的成本是 Kria 主板的两倍多，它实现了相似的帧速率。

ICAIPose 在具有良好性能的边缘设备上的成功实施为在治疗环境中的广泛应用开辟了领域。

AMD-Xilinx 的 Vitis AI 框架已经过广泛测试并显示出其优势，但也存在一些初期问题。对于在 FPGA 上运行深度神经网络，Vitis AI 是一个在开发时间和性能之间取得良好平衡的框架。在用 HDL 或 HLS 实现硬件加速算法之前应该考虑这一点。

先决条件

安装了 Vitis AI 的 Linux 主机 PC
了解 Vitis AI 工作流程
KV260 上网

基础知识

HPE 网络的通常输出是给定人体姿势关键点的置信度图。对于单个HPE的任务，找到置信度图的最大值并分配相应的关键点。

1 / 3 •绘制姿势的输入图像

相机接口

带摄像头的 Kria KV260 Vision AI 入门套件

相机接口是设计的重要组成部分。Kria KV260 Basic Accessory Pack 包含一个小型相机。

AMD-Xilinx 为Kria™ KV260 Vision AI Starter Kit Applications提供了一个示例应用程序。

智能相机应用程序的模块设计表明，硬件平台包含了我们这个项目所需的一切，包括相机的硬件接口和 DPU。此示例应用程序可用作基础设计，以使用相机运行自定义 Vitis AI 模型。

smartcamera应用程序提供的系统模块设计

对基础设计的修改

首先，仔细检查所有版本以确保它们匹配：

对于 Vitis AI 1.4 和以前的版本，KV260 的板映像为 2020.2
这需要使用 Smartcamera 应用程序，该应用程序也使用 2020.2 板映像（不是最新版本）。
2020.2智能相机平台的Vitis AI版本为Vitis AI 1.3.0

按照此说明在 KV260 上安装 smartcamera 应用程序（直到第 5 节）。

使用以太网端口将 KV260 板连接到本地网络。

通过 UART/JTAG 连接时，检查以太网 (eth0) 端口的分配 IP 地址。

ifconfig

该命令的输出类似于：

eth0      Link encap:Ethernet  HWaddr 00:0a:35:00:22:01  
          inet addr:152.96.212.163  Bcast:152.96.212.255  Mask:255.255.255
          inet6 addr: fe80::20a:35ff:fe00:2201/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:67 errors:0 dropped:0 overruns:0 frame:0
          TX packets:51 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:9478 (9.2 KiB)  TX bytes:5806 (5.6 KiB)
          Interrupt:44

在这种情况下，IP 地址是152.96.212.163.

使用此地址从主机 PC（连接到与 KV260 相同的网络）通过网络连接ssh到 KV260。

ssh petalinux@

要运行所有 Vitis AI 示例，必须在 KV260 上进行一些进一步的安装。确保设备已连接到互联网。

X11-转发

sudo dnf install packagegroup-petalinux-x11

设置显示环境

export DISPLAY=:0.0

葡萄籽油

sudo dnf install packagegroup-petalinux-vitisai

开放式CV

sudo dnf install packagegroup-petalinux-opencv

柏油

sudo dnf install xz

Vitis AI 运行时

sudo wget https://www.xilinx.com/bin/public/openDownload?filename=vitis-ai-runtime-1.3.0.tar.gz

sudo tar -xzvf openDownload\?filename\=vitis-ai-runtime-1.3.0.tar.gz

cd vitis-ai-runtime-1.3.0/aarch64/centos/

sudo bash setup.sh

Vitis AI 运行时 (VART) 需要DPU.xclbin文件中vart.conf文件的位置。但相应的xclbin文件是来自 smartcam 应用程序的文件。

使用以下命令更改和 xclbin 文件。vart.conf

echo "firmware: /lib/firmware/xilinx/kv260-smartcam/kv260-smartcam.xclbin" | sudo tee /etc/vart.conf

sudo cp /lib/firmware/xilinx/kv260-smartcam/kv260-smartcam.xclbin /usr/lib/

sudo mv /usr/lib/kv260-smartcam.xclbin /usr/lib/dpu.xclbin

在运行 Vitis AI 示例之前，必须加载相应的 smartcam 应用程序（每次启动后）。

sudo xmutil unloadapp
sudo xmutil loadapp kv260-smartcam

加载 KV260-smartcam 应用程序后，可以使用以下 GStreamer 命令使用 X11-forwarding 测试相机：

gst-launch-1.0 mediasrcbin media-device=/dev/media0 v4l2src0::io-mode=dmabuf v4l2src0::stride-align=256  ! video/x-raw, width=256, height=256, format=NV12, framerate=30/1 ! videoconvert! ximagesink

如果通过 HDMI（本例中为 1920x1200）连接显示器，则也可以测试相机。请根据您连接的显示器更改宽度和高度参数

gst-launch-1.0 mediasrcbin media-device=/dev/media0 v4l2src0::io-mode=dmabuf v4l2src0::stride-align=256 ! video/x-raw, width=1920, height=1200, format=NV12, framerate=30/1  ! kmssink driver-name=xlnx plane-id=39 sync=false fullscreen-overlay=true

Vitis AI 模型动物园

在下一个项目步骤中，将结合 Vitis AI 对摄像头系统进行测试。借助来自Vitis AI Model Zoo的大量预训练神经网络，可以选择一个示例。

Hourglass 是一个 HPE 网络，具有以下属性：

cf_hourglass_mpii_256_256_10.2G_2.0

描述：带有沙漏的姿势估计模型
输入尺寸：256x256
浮动操作：10.2G
任务：姿态估计
框架：咖啡
修剪：'不'
最新版本：Vitis AI 2.0

KV260 模型的预编译版本已使用 Vitis AI 2.0 和 DPU 配置进行编译B4096。

我们使用 DPU 配置B3136。caffe因此，必须使用相应 DPU 和正确的 Vitis AI 版本 1.3.0（Docker 映像：）的工作流重新编译沙漏模型xilinx/vitis-ai-cpu:1.3.411。

DPU 指纹和相应的arch.json文件可以在smartcam 文档中找到。

{
    "fingerprint":"0x1000020F6014406"
}

新编译的文件模型可以保存在 KV260 上。

Vitis AI 库提供的测试应用程序 ( test_video_hourglass) 用于运行模型。为此，请使用此项目中提供的预构建文件或使用 KV260 主机 PC 上的交叉编译系统环境编译测试应用程序（遵循 Vitis AI说明）。

下载并解压 KV260 上的预构建文件。

wget https://github.com/Nunigan/HardwareAcceleratedPoseTracking/raw/main/prebuilt.tar.xz

tar -xf prebuilt.tar.xz

转到沙漏文件夹

cd prebuilt/hourglass/

来自相机接口的 GStreamer 字符串用作输入设备。使用以下命令，程序以两个线程运行。

./test_video_hourglass hourglass_kv.xmodel "mediasrcbin media-device=/dev/media0 v4l2src0::io-mode=dmabuf v4l2src0::stride-align=256  ! video/x-raw, width=256, height=256, format=NV12, framerate=30/1 ! videoconvert ! appsink" -t 2

使用 Vitis AI 在 KV260 上运行沙漏

沙漏以 30 fps 运行。请注意，限制因素是相机而不是神经网络。

葡萄籽油

该项目的主要部分是使用为传统 GPU 实现和 Tensorflow 设计的神经网络，并尝试在 FPGA 上运行它。

ICAIPose 是一个相当大的网络，具有大约 1100 万个可学习参数并103 GOps用于处理图像。

原始网络由以下层组成：

Conv2D
PReLU activation function
Concatenate
UpSampling2D
DepthwiseConv2D
MaxPooling2D

对于 Vitis AI 的使用，必须检查 Vitis AI 是否支持神经网络的所有层（请参阅相应的用户指南）。

PReLU支持除激活函数之外的所有层。“Parametric ReLU”与函数非常相似Leaky ReLU（见下图），只是泄漏项是一个可学习的参数。Vitis AI 支持Leaky ReLU0.1 的固定泄漏项。

Leaky ReLU 激活函数，Vitis AI 定义的泄漏项为 0.1

引入Leaky ReLU激活功能带来了一些挑战。

结果

ICAIPose 在 Kria KV260 上

了解网络在 FPGA 上运行的速度很有趣，但重要的是了解是否由于量化而损失了一些 HPE 性能。

吞吐量性能

ICAIPose (256x256, 103 GOps): 8 fps

在B3136DPU 和时钟频率为的情况下300 MHz，给出了理论吞吐量940 GOps/s。

因此，结果在预期范围内（回想一下：103 GOps对于一张图像）。

作为比较，NVIDIA Jetson Xavier NX 比 KV260 更昂贵，并且具有显着更高的理论吞吐量（21 TOps），达到了 8 fps 的相同吞吐量。

人体姿势估计性能

该数据集提供了 2000 多张图像和相应的理想置信度图，用于测试 HPE 性能。

归一化置信度图的均方误差 (MSE) 是通过对每个像素之间的差异求平方和求和来计算的。下图显示了一个示例。左侧图像的均值是给定输入的 MSE。

数据集中的示例输入图像的均方误差示例

我们现在可以比较量化网络和浮点网络之间的 MSE。作为附加信息，显示了具有PReLU激活功能的原始网络的 MSE。

所有图像的 MSE：

Float: 0.8109
Quantized INT8: 0.9332
PReLU: 0.9348

从PRelu到Leaky ReLU激活函数的变化甚至提高了网络性能。量化对有影响MSE，但影响很小。量化的网络执行以及未量化的PReLU网络

结论

AMD-Xilinx 的 Vitis AI 框架经过广泛测试，显示出其优势和一些初期问题。即使 FPGA 板更便宜，也可以将目标设备从 GPU 更改为 FPGA，而不会损失显着的性能。Vitis AI 允许在没有 HDL 或 HLS 知识的情况下为 FPGA 设计高效的深度神经网络。

Kria KV260 Vision AI Starter Kit 是从 Vitis AI 开始的绝佳选择。提供的摄像头可以在 petalinux 环境中轻松使用。

致谢

特别感谢ICAI和瑞士 VRM提供了经过培训的 ICAIpose 版本。

感谢微电子和嵌入式系统研究所作为学生项目的一部分支持这一挑战。

修订记录

2022 年 3 月 14 日 - 初始版本

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

UC3842/3/4/5电源管理芯片中文手册
2024-12-02 15次下载

下载
DMT0660数字万用表产品说明书
2024-12-03 13次下载

下载
STM32F101x8/STM32F101xB手册
2024-12-06 8次下载

下载
TPS54202H降压转换器评估模块用户指南
2024-12-04 8次下载

下载
华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法
2024-12-03 6次下载

下载
HY12P65/HY12P66数字万用表芯片规格书
2024-12-03 6次下载

下载

硬件加速人体姿态估计开源分享

描述

抽象的

先决条件

基础知识

相机接口

对基础设计的修改

Vitis AI 模型动物园

葡萄籽油

结果

结论

参考

致谢

修订记录

TDA4VM上的硬件加速运动恢复结构算法

AM62A SoC通过硬件加速视觉处理改进条形码读取器

适用于数据中心应用中的硬件加速器的直流/直流转换器解决方案

嵌入式多媒体系统中硬件加速技术的应用

Alveo卡的区块链硬件加速器解决方案

Kria KR260机器人入门套件：通过硬件加速释放机器人

硬件加速自然语言理解解决方案

Hyperon—大数据应用的硬件加速解决方案

移动和嵌入式人体姿态估计

基于Arduino硬件光控灯制作资料

基于视点与姿态估计的视频监控行人再识别

基于编解码残差的人体姿态估计方法

基于面部特征点定位的图像人脸姿态估计方法

一种改进的人体关键点检测算法

基于Bagging-SVM集成分类器的头部姿态估计方法

基于深度学习的二维人体姿态估计算法

硬件加速器提升下一代SHARC处理器的性能

收藏！姿态估计开源项目汇总资料下载

精确分类的视角无关人脸检测方法与硬件加速体系结构

基于深度学习的二维人体姿态估计方法

一种采用深度残差网络的头部姿态估计方法

人体康复动作识别算法Pose-ARMGRU

基于FPGA的硬件加速解决方案

主流的开源硬件有哪些详细资料说明

针对姿态传感器的姿态估计方法的详细资料说明免费下载

利用硬件加速器提高仿真速度时的验证平台考虑

基于硬件加速实现存储市场创新

使用硬件加速仿真的功耗分析

MD5算法硬件加速模型

基于局部姿态先验的深度图像3D人体运动捕获方法

音视频解码器硬件加速：实现更流畅的播放效果

使用爱芯派Pro开发板部署人体姿态估计模型

基于飞控的姿态估计算法作用及原理

基于MMPose的姿态估计配置案例

AI深度相机-人体姿态估计应用

基于PoseDiffusion相机姿态估计方法

利用opencv+openpose实现人体姿态检测

借助硬件加速器开发您的设计

一种基于去遮挡和移除的3D交互手姿态估计框架

用于 AI 应用的硬件加速器设计师指南

基于FPGA的Poseidon哈希算法硬件加速方案

如何确定一个硬件加速应用

全新ROS 2 Humble硬件加速特性

基于CORTEX-M3硬件加速的目标跟踪锁定系统

OpenHarmony Dev-Board-SIG专场：OpenHarmony 新硬件加速器

openEuler Summit 2021-云/虚拟化分william hill官网 ：虚拟化硬件加速以及vDPA框架案例分析

OpenHarmony 分william hill官网 -华秋电子新硬件加速器

第七届硬创大赛与中城智能硬件加速器达成战略合作，推动智能硬件创新发展

腾讯优图实验室在人体2D姿态估计中获得了创新技术突破

firefly神经网络硬件加速简介

分享硬件加速仿真的 11 个谬论介绍和说明

LSTM的硬件加速方式

如何将硬件加速器关闭？

基于增强通道和空间信息的人体姿态估计网络

毫米波传感器1443硬件加速器的简单介绍

基于Xilinx FPGA的Memcached硬件加速器的介绍

iNEMO模块的特点及用其实现人体姿态检测系统的设计

忆芯科技利用Veloce 硬件加速仿真平台进行高速企业级固态硬盘存储设计

Veloce仿真环境下的SoC端到端硬件加速器功能验证

FAIR和INRIA的合作提出人体姿势估计新模型，适用于人体3D表面构建

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

TPS54202H降压转换器评估模块用户指南

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

openEuler Summit 2021-云/虚拟化分william hill官网：虚拟化硬件加速以及vDPA框架案例分析