CVPR2020 | 参数量减半,北大开源全新高效空域转换模块,还原图像逼真细节
◎本文为极市开发者「可乐」原创投稿,转载请注明来源。
◎极市「论文推荐」专栏,帮助开发者们分享自己的最新工作,欢迎大家投稿。联系极市小编(ID:fengcall19),备注:投稿,即可投稿~
很多图像生成任务都需要在空域对输入图像进行移动和重新排列。然而,卷积神经网络难以进行高效的空域转换操作。近日,来自北大和鹏城实验室的研究者们提出了一种全新的空域转换模块Global-Flow Local-Attention。这一模块将光流和注意力机制结合起来,通过首先提取源图像与目标图像之间的整体相关性,得到全局的光流图。然后利用光流图,采样局部的特征块以进行局部的注意力操作。
他们在人体姿态转换任务上测试了提出模型的优越性。实验结果证明模型可以对输入图像进行准确高效地空域转换:输出结果图像保持了输入图像中逼真的细节纹理;同时,模型的参数量不足现有主流方法的一半。
每一组图像中,左侧为生成图像,右侧为输入图像。箭头展示了文章提出的Global-Flow Local-Attention模块对输入数据的空间移动过程
此外文章还将提出的模块用于Image Animation任务。通过输入连续的指导信息来生成逼真的运动视频。
Global-Flow Local-Attention模型简介
文章所提出的模型架构如上图所示。具体来说,模型可以被分为两个模块:全局光流提取器和局部特征渲染器。全局光流提取器用来提取源图像和目标图像之间的光流场。而局部特征渲染器则利用提取到的光流场从源图像中采样逼真的纹理信息,从而对目标图像的骨架进行渲染,得到结果图像。
为了使模型稳定地收敛,在局部特征渲染器中,文章没有采用传统的双线性插值进行采样。而是使用了内容感知的局部注意力机制。这一操作的具体流程如上图所示。首先,从源特征以及目标特征中提取局部的图像块。利用局部采样核预测网络来预测图像块对之间的注意力系数。这一系数被用做采样参数来采样提取的局部特征块。以得到最终的采样结果。
那么算法的实际效果如何呢?
作者在两个数据集上进行了对比实验。在客观指标FID和LPIPS上算法都有明显的优势。同时他们也在MTurk平台邀请志愿者进行了主观测试的实验。JND(Just Noticeable Difference)表示了各个方法生成的结果与真实图像对比时的欺骗率。可以看到文章提出的算法取得了很好的测试结果。
从不同算法的结果图像中可以看出文章所提出的算法不仅能够生成正确的姿势,同时还能够还原出结果图像逼真的纹理信息,例如:衣服上的图案花纹、鞋带的样式等等。
此外,文章还进行了详尽的消融实验来验证假设的正确性。对比的模型包括:不使用任何Attention模块(Baseline);使用传统的Global Attention模块(Global-Attn);使用光流模块,但是采用双线性插值进行采样(Bi-sample)以及完整的模型(Full Model)。可以看出,采用完整Global-Flow Local-Attention模块的模型(Full Model)取得了最好的性能。
通过分析消融实验的主观结果图像可以进一步地为这一结论寻找可能的解释。Baseline难以恢复细节信息,因为它使用一种先将原始信息抽象,后扩散至局部的方式来生成结果图像。Global-Attn将某一特征与全部的特征计算相似度并采样。这样的采样方式并不符合该任务的需求,因此结果图像无法恢复逼真的细节信息。Bi-sample会因为错误的采样而导致性能下降。Full Model维持了良好的结构和细节信息。
传递门
想要了解更多的细节请参看论文:
https://arxiv.org/pdf/2003.00696.pdf
同时作者也开源了实验代码:
https://github.com/RenYurui/Global-Flow-Local-Attention
在 **极市平台 **公众号后台回复 GFLA,即可获取论文下载链接。
-END**-**
*延伸阅读
arbitrary-text-to-image-papers(图像文本生成论文汇总)
TP-GAN 让图像生成再获突破,根据单一侧脸生成正面逼真人脸
CVPR 2018 | 使用 CNN 生成图像先验,实现更广泛场景的盲图像去模糊
CVPR2020 | 参数量减半,北大开源全新高效空域转换模块,还原图像逼真细节相关推荐
- 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...
- 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条...
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...
- 参数量下降85%,性能全面超越ViT:全新图像分类方法ViR
来源:机器之心 本文共1700字,建议阅读5分钟 ViT 还不够完美?来自华东师范大学等机构的研究者提出了全新的图像分类方法 ViR,在模型和计算复杂性方面都优于 ViT. 近一年来,视觉 Trans ...
- Facebook开源数据高效图像Transformer,媲美SOTA CNN
作者|魔王.小舟.杜伟 来源|机器之心 将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transf ...
- 以小25倍参数量媲美GPT-3的检索增强自回归语言模型:RETRO
©NLP论文解读 原创•作者 | 吴雪梦Shinemon 研究方向 | 计算机视觉 导读说明: 一个具有良好性能的语言模型,一定量的数据样本必不可少.现有的各种语言模型中,例如GPT3具有1750亿的 ...
- pytorch_lesson16.2 架构对学习/鲁棒性的影响(VGG16复现+感受野+平移不变性)+架构对参数量的影响(1*1卷积核+分组卷积与深度分离卷积+NiN网络复现)
提示:仅仅是学习记录笔记,搬运了学习课程的ppt内容,本意不是抄袭!望大家不要误解!纯属学习记录笔记!!!!!! 文章目录 前言 一.架构对学习能力/鲁棒性的影响 1 深度 1.1 困难与实践 1.2 ...
- CVPR2020论文介绍: 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
- 如何训练2457亿参数量的中文巨量模型“源1.0”
如何训练2457亿参数量的中文巨量模型"源1.0" 浪潮人工智能研究院 从2018年的BERT到2020年的GPT-3,NLP语言模型经历了爆发式的发展过程,其中BERT模型的参数 ...
- 不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减
视学算法报道 来源:AIM 编辑:好困 [新智元导读]不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少! GPT-4官宣? 近日,OpenAI的首席执 ...
最新文章
- java自定义监听器例子_Spring 实现自定义监听器案例
- 互联网协议 — 数据交换技术
- Linux System Programming --Chapter Nine
- POJ-1436 线段树 区间更新
- 图的理解:深度优先和广度优先遍历及其 Java 实现
- 数学笔记--线性代数
- jsp 内置的对象的简要概述(转)
- LEBERT:基于词汇增强的中文NER模型
- PHP版本VC6与VC9、Thread Safe与None-Thread Safe等的区别
- iPhone开发:类似iChat的聊天泡泡
- 【计算机网络】网络通信基础
- Ubuntu 搭建Ftp服务器
- 汉化+破解Substance Painter 2019 macv2019.1.0图文展示
- 【原创】软件测试工程师-面试感悟-面试经验-面试官思维 分享
- Oracle(三)--数据库建表操作
- MySQL 外键约束 以及 级联操作
- npm ERR! code ERESOLVEnpm ERR! ERESOLVE could not resolvenpm ERR! npm ERR! While resolving: @vue/
- scipy.misc包中的toimage和fromimage
- 《谁还能说〈周易〉读不懂、没读懂?》系列论文(三):《周易》象数思维方式演绎中国传统文化(吉 华)...
- 观江怡之《知识论导论:我们能知道什么?》