JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型-电子发烧友网

时尚总在引领潮流。

在人工智能、增强现实、可穿戴、虚拟试妆等技术的加持下，时尚行业特别是在线时尚行业获得了飞速的发展。为了吸引客户更多的目光、更棒的视觉体验、更好地展现商品，高清大图、模特多角度摆拍已经成了服装、箱包、鞋类、美妆等线上商家的宣传标配。在网上购物时，大家都想看看模特衣服在各种角度姿势下的样子，但是越多越全面的姿势摆拍也就意味着越大的投入。为了降低宣传成本，很多研究开始聚焦于如何合成高质量的逼真图像。

在这篇文章中来自北卡罗来纳大学、JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型，可以基于模特当前姿势，生成出其他各种不同姿势下的相同着装的新图像！也许在这样技术的帮助下，模特再也不用辛苦一分钟拍二十个动作了~

生成新姿势下的时尚图像

研究人员的主要目的在于训练一个生成模型，将模特在当前姿势上的图像迁移到其他的目标姿势上去，实现对于衣着等商品的全面展示。

这一模型主要由生成器和判别器构成，与先前工作不同的是这一模型架构中包含了两个不同的判别器！其中生成器由两个编码器构成，分别用于从图像和对应的动作关键点特征图进行编码，而解码器则用于从动作和衣着的特征中合成目标图像。对于判别器来说，除了判定生成图像是否逼真外、还需要判定动作与生成图像的连续性以保证生成图像动作的连续性和鲁棒性。

模型的主要架构，生成器的编码器包含了对于图像的编码器Ei和对动作的编码器Ep，基于U-Net和bi-LSTM共同构建而成，而两个判别器分别用于判定图像的真伪并保证生成图像与动作间的连续性。

时尚图像生成器

生成器中主要包含了两个编码器和一个解码器用于处理图像和对应姿势，生成器探索了输入图像的视觉语义特征和位姿信息，并生成对应姿势下的新图像。图像编码器：图像编码器的目标是从单张或多张图像中湖区语义编码信息。研究人员首先使用了ResNet作为主干网络抽取不同尺度的特征，包括纹理、颜色、边缘线条信息等。随后将这些特征输入到双边长短时记忆网络(bc-LSTM)中用于从相同衣着不同视角的模特图像中抽取共同的特征，将不同种类的图像特征进行转换，同时对不同特征下的背景和噪声进行处理。最终得到了可以表达图像视觉语义信息的编码Ci，用于后续图像的生成。位姿编码器：模型同时需要位姿数据来为生成图像进行引导，研究人员利用了18个关键点来表示人体位姿，用不同颜色的直线相连并以RGB的格式进行表示。通过U-Net的架构和3*3的卷积从位姿图中抽取高层次语义特征Cp并在解码过程中通过跳接层连接进行特征共享。解码器：其主要目的是通过图像编码Ci 和动作编码Cp重建出逼真的图像。首先将图像编码与位姿编码的编码拼接在一起，并基于U-Net架构和跳接层将视觉语义信息与动作编码信息匹配起来，进行有效的图像生成。判别器：其主要目标是引导模型生成比先前模型更逼真图像。在训练过程中研究人员利用两个判别器来同时进行对抗训练，主要采用了与PatchGAN类似的实现。其中Di用于判别生成图像是否逼真，与先前的模型类似；而Dp则用于判定生成图像与对应动作的连续性。Dp的输出是真实图像与对应位姿和这一位姿下生成的图像，用于判定图像是否与位姿匹配，它对于生成与位姿对应的时尚图像具有重要的作用，能帮助网络生成更为复杂的动作姿势，同时保持连续性和鲁棒性。

结果展示

通过DeepFashion和Market-1501数据的训练后研究人员得到了不错的结果。

Deep Fasion 数据集

Market-1501数据集

生成的结果与先前方法的比较，其中S和M代表了单张和多张图像输入的生成结果：

在数据集上的表现还不错，从源图像生成了新的姿势：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40736
图像

图像

+关注

关注
2

文章
1084

浏览量
40459
模型

模型

+关注

关注
1

文章
3238

浏览量
48824

原文标题：从姿势到图像——基于人体姿势引导的时尚图像生成算法

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

一种图像语义分层处理框架，可以实现像素级别的图像语义理解和操纵

这多亏了密歇根大学和谷歌大脑的研究人员，他们提出了一种新的图像语义处理分层框架，首先根据图像中给定对象的边界框，学习

发表于 08-27 08:52 •7106次阅读

美国普渡大学和哈佛大学的研究人员推出了一项新发明新...

据物理学家组织网报道，美国普渡大学和哈佛大学的研究人员推出了一项极为应景的新发明：一种外形如同一颗圣诞树

发表于 02-03 20:30

研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列

研究人员提出了一种柔性可拉伸扩展的多功能集成传感器阵列，成功将电子皮肤的探测能力扩展到7种，实现温度、湿度、紫外光、磁、应变、压力和接近等多种外界刺激的实时同步监测。

发表于 01-24 15:15 •7239次阅读

<b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b><b class='flag-5'>一种</b>柔性可拉伸扩展的多功能集成传感器阵列

特伦托大学与Inria合作：使用GAN生成人体的新姿势图像

使用GAN（对抗生成网络）生成人体的新姿势图像。研究人员提出的可变形跳跃连接和最近邻损失函数，更

发表于 01-29 16:34 •9608次阅读

特伦托大学与Inria合作：使用GAN<b class='flag-5'>生成</b>人体的新<b class='flag-5'>姿势</b><b class='flag-5'>图像</b>

OpenAI的研究者们提出了一种新的生成模型，能快速输出高清、真实的图像

为下游任务提供了有用的隐藏空间。自回归模型的隐藏层有着位置的边缘分布，使其更难对数据进行正确操作。在GAN中，数据点经常不能直接表现在隐藏空间中，因为它们没有编码器，可能无法支持数据分布。在可逆生成模型和VAE上就没有这种情况。

发表于 07-12 08:43 •8257次阅读

以色列研究人员开发出了一种能够识别不同刺激的新型传感系统

据麦姆斯咨询报道，海法以色列理工学院的研究人员开发出了一种能够识别并区分不同刺激的创新型传感系统。该系统基于折纸艺术，结合了以色列理工学院开发的智能墨水材料。

发表于 05-21 08:45 •906次阅读

研究人员们提出了一系列新的点云处理模块

为了探索这些问题的解决办法、来自伦敦大学学院的研究人员们提出了一系列新的点云处理模块，从效率、信息共享和点云卷积操作等方面进行了研究，得到了

发表于 08-02 14:44 •3059次阅读

<b class='flag-5'>研究人员</b><b class='flag-5'>们</b><b class='flag-5'>提出了</b><b class='flag-5'>一</b>系列新的点云处理模块

Facebook的研究人员提出了Mesh R-CNN模型

这一研究的目标是通过单张图像输入，对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格，并对真实世界中的复杂模型进行有效处理。在

发表于 08-02 15:51 •3885次阅读

Facebook的<b class='flag-5'>研究人员</b><b class='flag-5'>提出了</b>Mesh R-CNN<b class='flag-5'>模型</b>

研究人员推出了一种新的基于深度学习的策略

苏黎世联邦理工学院的研究人员最近推出了一种新的基于深度学习的策略，该策略可以在不需要大量真实数据的情况下在机器人中实现触觉传感。在arXiv上预先发表的一篇论文中概述了他们的方法，该方

发表于 03-26 15:47 •2606次阅读

研究人员开发出了一种称为LB-WayPtNav-DH的机器人导航新框架

加州大学伯克利分校的研究人员最近开发了一种新的框架，该框架可以增强办公室，房屋或博物馆等室内环境中人类的机器人导航能力。他们的模型在arXiv上预先发表的一篇论文中

发表于 04-09 11:18 •931次阅读

研究人员开发了一种新颖的机器学习管道

研究人员通过一种特殊的神经网络模型，它以“基本块”（计算指令的基本摘要）形式训练标记的数据，以自动预测其持续时间使用给定的芯片执行以前看不见的基本块。结果表明，这种神经网络模型的性能要

发表于 04-15 16:42 •1848次阅读

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

近日，来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型

发表于 11-24 09:48 •1655次阅读

一种基于改进的DCGAN生成SAR图像的方法

针对SAR图像识别软件，通过改进 DCGAN模型单生成器与单判别器对抗的结构，采用多生成器与单判别器进行对抗，设计了控制各生成器

发表于 04-23 11:01 •21次下载

MIT研究人员提出了一种制造软气动执行器的新方法

麻省理工学院（MIT）的研究人员创造了一种新的制造技术，可以制造出更具成本效益的软气动执行器。

发表于 05-06 16:38 •1635次阅读

生成式 AI 研究通过引导式图像结构控制为创作者赋能

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究

发表于 07-24 19:30 •562次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型

评论