一种简单的“动作迁移法”-电子发烧友网

伯克利的研究人员提出了一种简单的“动作迁移法”，可以将源视频中一个人的动作和姿态，迁移到新的视频对象上，让后者也具有同样流畅优美的动作，整个过程只需要几分钟就成完成。

说起去年让“马变斑马”的CycleGAN，大家应该还记忆犹新。

CycleGAN利用pixel2pixel技术，能自动将某一类图片转换成另外一类图片，过度真实自然，可以说是2017年最受关注的模型之一。CycleGAN论文的第一作者、加州大学伯克利分校的朱俊彦（现已在MIT CSAIL担任博士后），也由此获得了SIGGRAPH 2018的杰出博士论文奖。

现在，同样是伯克利的Caroline Chan、ShiryH Ginosar、Tinghui Zhou、Alexel A. Efros提出了或许更有意思的一篇论文，不仅是图像，而是实现不同视频之间的人物动作姿态转换，而且面部也能逼真合成效果，整个过程只需要几分钟就能完成。

将专业舞者的动作迁移到其他人身上，让每个人都能成为顶级舞者

作者在论文摘要中这样介绍：

本文提出一种简单的 “跟我做”（do as I do）的动作迁移方法：给定一个人跳舞的源视频，我们可以在目标人物表演标准动作几分钟后将该表演迁移到一个新的目标身上（业余舞者）。

我们将这个问题视为一个具有时空平滑的每帧 image-to-image 转换问题。利用姿势检测作为原和目标之间的中间表示，我们学习了从姿势图像到目标对象外观的映射。

我们利用这样的设置实现了连贯时间的视频生成，并且包括逼真的面部合成。

基于人体姿态关键点，实现视频间不同主体的复杂动作

伯克利研究者提出了一种在不同视频中转移人体动作的方法。

他们要实现的目的很简单——给定两个视频：一个是目标人物，我们想合成他的表演；另一个是源视频，我们想将他的动作转移到目标人物身上。

这与过去使用最近邻搜索或 3D 重定向运动的方法不同。在伯克利研究人员提出的框架下，他们制作了各种各样的视频，让业余舞蹈爱好者能够像芭蕾舞演员一样旋转、跳跃，表演武术，跳舞。

最初，为了逐帧地在两个视频的主体之间迁移运动，研究人员认为他们必须学习两个人的图像之间的映射。因此，目标是在源集和目标集之间发现图像到图像的翻译（image-to-image translation）。

但是，他们并没有用两个实验对象对应的相同动作来直接监督学习这种翻译。即使两个实验对象都做同样的动作，由于每个实验对象的体型和风格差异，仍然不太可能有帧到帧的 body-pose 对应的精确框架。

于是，他们观察了基于人体姿态关键点（keypoint），关键点本质上是编码身体的位置而不是外观，可以作为任何两个主体之间的中间表示。而姿势可以随着时间的推移保持动作特征，同时尽可能地抽象出对象身份标识。因此，我们将中间的表示设计为火柴人自试图，如下图所示。

将源视频中人物（左上）动态的姿态关键点（左下）作为转化，迁移到目标视频人物（右）。

从目标视频中，我们得到每一帧的姿势检测，得到一组（姿势火柴人，目标人物形象）的对应数据。有了这些对齐的数据，我们就可以在有监督的情况下，学习一种在火柴人和目标人物图像之间的 image-to-image 的转换模型。

因此，的模型经过训练，可以生成特定目标对象的个性化视频。然后，将动作从源迁移到目标，将姿势火柴人图形输入到训练模型中，得到与源姿势相同的目标对象的图像。

为了提高结果的质量，研究人员还添加了两个组件：

为了提高生成的视频的时间平滑度，我们在每一帧都将预测设置在前一帧的时间步长上。

为了在结果中增加人脸的真实感，我们加入了一个专门训练来生成目标人物面部的 GAN。

这种方法生成的视频，可以在各种视频主体之间迁移运动，而无需昂贵的 3D 或动作捕捉数据。

作者在论文中写道：“我们的主要贡献是一个基于学习的视频之间人体运动迁移的 pineline，所得结果的质量展示了现实的详细视频中的复杂运动迁移。”

选一个你喜欢的舞蹈视频，以及你自己动几下的视频，一键转换！

首先，我们需要准备两种视频素材：

一个是你理想舞者表演的视频：

一个是你自己随性 “凹” 出的动作视频：

最终的目标，就是让你能够跳出梦寐以求的曼妙舞姿：

为了实现这一目标，可以将 pipeline 分为三个阶段：

1、姿势检测：根据源视频中给定的帧，使用预训练好的姿势检测器来制作姿势线条图；

2、全局姿势归一化：该阶段考虑了源视频与目标视频中人物身形的不同，以及在各自视频中位置的差异；

3、将归一化的姿势线条图与目标人物进行映射：该阶段通过对抗性学习设计了一个系统，来将归一化的姿势线条图与目标人物进行映射。

完整的训练过程

模型根据源视频中给定的帧，使用预训练好的姿势检测器 P 来制作姿势线条图。在训练期间，学习了一种映射 G 和一个对抗性鉴别器 D，来试图区分哪些匹配是真，哪些是假。

完整的转换过程

模型使用一个姿势检测器 P : Y′ → X′来获取源视频中人物的姿势关节，这些关节通过归一化，转换为姿势条形图中目标人物的关节。而后，我们使用训练好的映射 G。

增加人脸真实感：图像到图像转换的对抗训练

好了，现在“炫酷舞姿”的问题解决了，剩下的就是将目标视频中因为动作改变而随之模糊的脸部变得更加逼真而清晰。

为了实现这一点，研究人员将 pix2pixHD 的对抗性训练设置修改为:

(1) 产生时间相干视频帧;

(2) 合成逼真的人脸图像。

接下来将详细描述原始目标和对它的修改。

pix2pixHD 框架

方法是基于 pix2pixHD 中的目标提出来的。在初始条件 GAN 设置中，生成器网络 G 对多尺度鉴别器 D = (D1,D2,D3) 进行极大极小博弈。

其中，是对抗性损失：

让动作更加连贯

时间平滑（Temporal Smoothing）设置

Face GAN

我们添加了一个专门的 GAN 设置，用于为面部区域添加更多细节和真实感，如下图所示。

Face GAN 设置

在 Face GAN 中，通过生成器预测残差，并将其添加到来自主生成器的原始面部预测中。

更进一步：从pix2pix到pix2pixHD

我们探讨了对 pix2pixHD baseline 的修改效果，并根据收集的数据集评估结果的质量。

迁移的结果。每个部分显示 5 个连续的帧。上面一行显示 source subject，中间一行显示规范化的 pose stick figures，下面一行显示目标人物的模型输出。

不同模型合成结果的比较

人人都能在几分钟之内，成为世界顶级舞者

总的来说，新的这个动作迁移模型能够创建合理的、将任意长度的目标人物跳舞的视频，其中他们的舞姿跟随另一个跳舞者的输入视频。虽然我们的设置在很多情况下都可以产生可信的结果，但偶尔会遇到几个问题。

从根本上说，作为输入的 pose stick figures 依赖于噪声姿态估计，这些估计不会逐帧携带时间信息。在姿势检测中丢失关键点，关键点位置不正确，会将错误引入到输入中，并且这些失败通常会延续到结果中，虽然我们尝试了通过时间平滑设置来减轻这些限制。但即使我们试图在设置中注入时间连贯性（temporal coherence），以及预平滑关键点，结果经常仍然会受到抖动的影响。

虽然我们的全局姿势归一化方法合理地调整了任何源对象的运动，使其与训练中看到的目标人物的体型和位置相匹配，但这种简单缩放和平移解决方案并未考虑不同的肢长和摄像机位置或角度。这些差异也会导致在训练和测试时看到的运动之间存在更大的差距。

另外，2D 坐标和缺失检测限制了在对象之间重新定位运动的方式，这些方法通常在 3D 中工作，需要有完美的关节位置和时间连贯运动。

为了解决这些问题，需要在时间上连贯的视频生成和人体运动表示方面做更多的工作。虽然整体上 pose stick figures 产生了令人信服的结果，但我们希望在未来的工作中,通过使用为运动迁移特别优化的时间连贯输入和表示来避免它所带来的限制。

尽管存在这些挑战，但我们的方法能够在给出各种输入的情况下制作吸引人的视频。

难度被誉为最高的芭蕾舞黑天鹅48圈转，可以换上自己的脸，想想还是有些小激动呢。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1085

浏览量
40486
迁移

迁移

+关注

关注
0

文章
33

浏览量
7938

原文标题：【超越CycleGAN】这个人体动态迁移技术让白痴变舞王（视频）

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

一种使用LDO简单电源威廉希尔官方网站解决方案

本期我们介绍一种使用LDO简单电源威廉希尔官方网站解决方案，该方案可以处理12V/24V、多节锂离子电池和4节干电池等相对较高的输入电压。

发表于 12-04 16:05 •347次阅读

<b class='flag-5'>一种</b>使用LDO<b class='flag-5'>简单</b>电源威廉希尔官方网站
解决方案

一种简单高效配置FPGA的方法

本文描述了一种简单高效配置FPGA的方法，该方法利用微处理器从串行外围接口（SPI）闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成本。

发表于 10-24 14:57 •650次阅读

<b class='flag-5'>一种</b><b class='flag-5'>简单</b>高效配置FPGA的方法

数学建模(2)--TOPSIS法

和K.Yoon于1981年首次提出，TOPSIS法根据有限个评价对象与理想化目标的接近程度进行排序的方法，是在现有的对象中进行相对优劣的评价。TOPSIS法是一种逼近于理想解的排序法，

发表于 09-06 16:38

电磁线圈双线绕法最简单三个步骤

电磁线圈双线绕法是一种常见的电磁线圈绕制方法，它具有结构简单、绕制方便、性能稳定等优点。一、电磁线圈双线绕法概述 1.1 电磁线圈的定义和

发表于 08-21 10:19 •1493次阅读

回路电流法和支路电流法的实质是什么

电流法和支路电流法。这两种方法各有特点和适用范围，掌握它们的原理和应用对于电子工程师和技术人员来说至关重要。二、回路电流法回路电流法的实质回路电流

发表于 08-09 17:13 •885次阅读

支路电流法和网孔电流法的区别是什么

支路电流法和网孔电流法是威廉希尔官方网站分析中常用的两种基本方法，它们在解决复杂威廉希尔官方网站问题时各有优势和特点。定义和原理支路电流法（Node Voltage Method）是

发表于 08-08 16:26 •1412次阅读

开路电压法和短路电流法的优缺点

开路电压法和短路电流法是两种常用的威廉希尔官方网站分析方法，它们在威廉希尔官方网站设计和分析中有着广泛的应用。一、开路电压法开路电压

发表于 08-07 14:33 •3898次阅读

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司（现为IBM的

发表于 07-09 10:13 •1292次阅读

一种简单的降压式开关稳压器LM2575数据表

电子发烧友网站提供《一种简单的降压式开关稳压器LM2575数据表.pdf》资料免费下载

发表于 04-23 11:23 •0次下载

一种隔绝银迁移的超长寿命轻触开关

一种隔绝银迁移的轻触开关

发表于 04-09 14:40 •367次阅读

同步置数法和异步清零法的优缺点异步计数器的级联方法总结

同步置数法和异步清零法是数字威廉希尔官方网站设计中常用的两种计数器设计方法。一、同步置数法：同步计数器是一种

发表于 02-22 14:20 •9248次阅读

鸿蒙OS 跨设备迁移

跨设备迁移（下文简称“迁移”）支持将 Page 在同一用户的不同设备间迁移，以便支持用户无缝切换的诉求。以 Page 从设备 A 迁移到设备

发表于 01-31 15:47 •1145次阅读

节点电压法怎么列方程节点电压法流入为正还是负

节点电压法（Node Voltage Method）是一种用于解析威廉希尔官方网站中各节点电压的分析方法，也是威廉希尔官方网站分析中的一项重要技术。本文将详细介绍节点电压法的基本原理和应用。

发表于 01-30 11:20 •6177次阅读

一种简单易行的可编程振荡器构建方法

本文介绍一种简单易行的可编程振荡器构建方法，其中振荡频率和幅度可以通过使用digiPOT来彼此独立地调节。

发表于 01-15 10:05 •245次阅读

一分钟，自动完成Redis数据迁移

NineData提供了高效、安全的Redis不停机数据迁移方案。与传统迁移方案相比，NineData具备简单易用、强劲性能和高可靠性的优势。通过优化核心技术，NineData的迁移性能

发表于 01-08 11:34 •433次阅读

搜索历史

一种简单的“动作迁移法”

评论

一种使用LDO简单电源威廉希尔官方网站解决方案

一种简单高效配置FPGA的方法

数学建模(2)--TOPSIS法

电磁线圈双线绕法最简单三个步骤

回路电流法和支路电流法的实质是什么

支路电流法和网孔电流法的区别是什么

开路电压法和短路电流法的优缺点

rup是一种什么模型

一种简单的降压式开关稳压器LM2575数据表

一种隔绝银迁移的超长寿命轻触开关

同步置数法和异步清零法的优缺点异步计数器的级联方法总结

鸿蒙OS 跨设备迁移

节点电压法怎么列方程节点电压法流入为正还是负

一种简单易行的可编程振荡器构建方法

一分钟，自动完成Redis数据迁移