◎本文为极市开发者「可乐」原创投稿，转载请注明来源。

◎极市「论文推荐」专栏，帮助开发者们分享自己的最新工作，欢迎大家投稿。联系极市小编(ID：fengcall19)，备注：投稿，即可投稿~

很多图像生成任务都需要在空域对输入图像进行移动和重新排列。然而，卷积神经网络难以进行高效的空域转换操作。近日，来自北大和鹏城实验室的研究者们提出了一种全新的空域转换模块Global-Flow Local-Attention。这一模块将光流和注意力机制结合起来，通过首先提取源图像与目标图像之间的整体相关性，得到全局的光流图。然后利用光流图，采样局部的特征块以进行局部的注意力操作。

他们在人体姿态转换任务上测试了提出模型的优越性。实验结果证明模型可以对输入图像进行准确高效地空域转换：输出结果图像保持了输入图像中逼真的细节纹理；同时，模型的参数量不足现有主流方法的一半。

每一组图像中，左侧为生成图像，右侧为输入图像。箭头展示了文章提出的Global-Flow Local-Attention模块对输入数据的空间移动过程

此外文章还将提出的模块用于Image Animation任务。通过输入连续的指导信息来生成逼真的运动视频。

Global-Flow Local-Attention模型简介

文章所提出的模型架构如上图所示。具体来说，模型可以被分为两个模块：全局光流提取器和局部特征渲染器。全局光流提取器用来提取源图像和目标图像之间的光流场。而局部特征渲染器则利用提取到的光流场从源图像中采样逼真的纹理信息，从而对目标图像的骨架进行渲染，得到结果图像。

为了使模型稳定地收敛，在局部特征渲染器中，文章没有采用传统的双线性插值进行采样。而是使用了内容感知的局部注意力机制。这一操作的具体流程如上图所示。首先，从源特征以及目标特征中提取局部的图像块。利用局部采样核预测网络来预测图像块对之间的注意力系数。这一系数被用做采样参数来采样提取的局部特征块。以得到最终的采样结果。

那么算法的实际效果如何呢？

作者在两个数据集上进行了对比实验。在客观指标FID和LPIPS上算法都有明显的优势。同时他们也在MTurk平台邀请志愿者进行了主观测试的实验。JND（Just Noticeable Difference）表示了各个方法生成的结果与真实图像对比时的欺骗率。可以看到文章提出的算法取得了很好的测试结果。

从不同算法的结果图像中可以看出文章所提出的算法不仅能够生成正确的姿势，同时还能够还原出结果图像逼真的纹理信息，例如：衣服上的图案花纹、鞋带的样式等等。

此外，文章还进行了详尽的消融实验来验证假设的正确性。对比的模型包括：不使用任何Attention模块（Baseline）；使用传统的Global Attention模块（Global-Attn）；使用光流模块，但是采用双线性插值进行采样（Bi-sample）以及完整的模型（Full Model）。可以看出，采用完整Global-Flow Local-Attention模块的模型（Full Model）取得了最好的性能。

通过分析消融实验的主观结果图像可以进一步地为这一结论寻找可能的解释。Baseline难以恢复细节信息，因为它使用一种先将原始信息抽象，后扩散至局部的方式来生成结果图像。Global-Attn将某一特征与全部的特征计算相似度并采样。这样的采样方式并不符合该任务的需求，因此结果图像无法恢复逼真的细节信息。Bi-sample会因为错误的采样而导致性能下降。Full Model维持了良好的结构和细节信息。

传递门

想要了解更多的细节请参看论文：

https://arxiv.org/pdf/2003.00696.pdf

同时作者也开源了实验代码：

https://github.com/RenYurui/Global-Flow-Local-Attention

在 **极市平台 **公众号后台回复 GFLA，即可获取论文下载链接。

-END**-**

*延伸阅读

添加极市小助手微信**（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：AI移动应用-小极-北大-深圳），即可申请加入AI移动应用极市技术交流群**，更有**每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、**干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

CVPR2020 | 参数量减半，北大开源全新高效空域转换模块，还原图像逼真细节相关推荐

王小川新公司开源 70 亿参数量的中英文预训练大模型，可商用；谷歌要求员工慎用 AI，即便是自己家的 Bard|极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
王小川新公司开源 70 亿参数量的中英文预训练大模型，可商用；谷歌要求员工慎用 AI，即便是自己家的 Bard|极客头条...
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
参数量下降85%，性能全面超越ViT：全新图像分类方法ViR
来源:机器之心本文共1700字,建议阅读5分钟 ViT 还不够完美?来自华东师范大学等机构的研究者提出了全新的图像分类方法 ViR,在模型和计算复杂性方面都优于 ViT. 近一年来,视觉 Trans ...
Facebook开源数据高效图像Transformer，媲美SOTA CNN
作者|魔王.小舟.杜伟来源|机器之心将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transf ...
以小25倍参数量媲美GPT-3的检索增强自回归语言模型：RETRO
©NLP论文解读原创•作者 | 吴雪梦Shinemon 研究方向 | 计算机视觉导读说明: 一个具有良好性能的语言模型,一定量的数据样本必不可少.现有的各种语言模型中,例如GPT3具有1750亿的 ...
pytorch_lesson16.2 架构对学习/鲁棒性的影响(VGG16复现+感受野+平移不变性)+架构对参数量的影响(1*1卷积核+分组卷积与深度分离卷积+NiN网络复现）
提示:仅仅是学习记录笔记,搬运了学习课程的ppt内容,本意不是抄袭!望大家不要误解!纯属学习记录笔记!!!!!! 文章目录前言一.架构对学习能力/鲁棒性的影响 1 深度 1.1 困难与实践 1.2 ...
CVPR2020论文介绍： 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
如何训练2457亿参数量的中文巨量模型“源1.0”
如何训练2457亿参数量的中文巨量模型"源1.0" 浪潮人工智能研究院从2018年的BERT到2020年的GPT-3,NLP语言模型经历了爆发式的发展过程,其中BERT模型的参数 ...
不用1750亿！OpenAI CEO放话：GPT-4参数量不增反减
视学算法报道来源:AIM 编辑:好困 [新智元导读]不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少! GPT-4官宣? ‍ 近日,OpenAI的首席执 ...

CVPR2020 | 参数量减半，北大开源全新高效空域转换模块，还原图像逼真细节

Global-Flow Local-Attention模型简介

那么算法的实际效果如何呢？

传递门

arbitrary-text-to-image-papers（图像文本生成论文汇总）

TP-GAN 让图像生成再获突破，根据单一侧脸生成正面逼真人脸

CVPR 2018 | 使用 CNN 生成图像先验，实现更广泛场景的盲图像去模糊

CVPR2020 | 参数量减半，北大开源全新高效空域转换模块，还原图像逼真细节相关推荐

最新文章

热门文章