ManiGAN: Text-Guided Image Manipulation

作者:Bowen Li、Xiaojuan Qi、Thomas Lukasiewicz、Philip H. S. Torr 时间:2020

期刊:CVPR

提出该网络的目标任务:

  • 论文的目标是在语义上编辑图像的部分,以匹配描述所需属性(比如,纹理、颜色和背景)的给定文本,同时保留与文本无关的其他内容。目前来说,现最先进的文本引导图像处理方法只能产生低质量的图像(下图第一行),效果不理想(下图第二行),甚至不能有效地处理复杂场景,要在文本描述的指导下对图像进行有效的处理,关键是同时利用文本和图像的跨模态信息,生成与给定文本匹配的新属性,同时保留与文本无关的原始图像内容。

现阶段其他方法的弊端:

  • 现有的方法通常选择沿通道方向直接拼接图像和全局句子特征。尽管很简单,但是作者认为这样的方法可能会遇到一些潜在问题。首先,模型无法将细粒度词与相应需要修改的视觉属性精确关联,导致修改不准确、粗化(比如上图图一中两个网络都不能生成详细的视觉属性——黑眼圈和黑喙)。其次,模型不能有效地识别出与文本无关的内容,从而不能对其进行重构,导致图像中与文本无关的部分被修改(比如上图图一中两个模型除了修改所需的属性外,还改变了第一行小鸟的纹理和第二行场景的结构)。因此,针对上述问题,作者们提出了一种新颖的文本引导图像处理生成对抗网络ManiGAN。

ManiGAN:

  • 该网络包含两个关键组件:文本图像仿射组合模块(ACM)和细节校正模块(DCM)。

    • ACM选择与给定文本相关的图像区域,然后将这些区域与相应的语义词相关联以进行有效操作。同时,对原始图像特征进行编码,帮助重建与文本无关的内容。
    • DCM对合成图像中不匹配的属性进行校正,并补全缺失的内容。
  • 最后,作者提出了一个新的metric来评估图像处理的结果。无论是在给定文本对应的新的视觉属性的生成,还是原始图像与文本无关的内容的重构。该metric可以很好地反映图像处理的性能。

模型结构:

  • 该模型通过给定输入图像III和用户提高的文本描述S‘S^`S‘,模型的目标是生成一个经过操作的图像I‘I^`I‘,该图像I‘I^`I‘与S‘S^`S‘语义对齐,同时保留III存在的与文本无关的内容。(上图是简略后的模型图)

  • ManiGAN使用多级ControlGAN架构作为基本框架,在输入部分与ControlGAN不同的地方是增加了图像编码器,它是一个预先训练的Inception-v3网络,用于提取区域图像表示vvv。在每一个阶段,text feature通过卷积层进行细化,生成隐藏特征hhh,然后,通过ACM模块进一步将hhh与原始图像特征vvv相结合,以便有效地选择与给定文本对应的图像区域,然后将这些区域与文本信息关联起来进行精确的操作。同时对原始图像表示进行编码,实现稳定重建。整个框架以更高的分辨率和更高的质量逐渐生成与给定文本描述匹配的新的视觉属性,并以更细的尺度重建输入图像中存在的与文本无关的内容。最后,利用所提出的细节校正模块(DCM)来校正不合适的属性,并补全缺失的细节。

Text-Image Affine Combination Module(ACM):

  • 作者指出现有的结合textimage跨模态表示的连接方案不能有效地定位需要修改的区域,因此无法实现细粒度的图像操作。因此提出一个简单的文本-图像仿射组合模块来融合文本跨模态表示。

  • 该模块有两个输入(1)来自文本或者两个阶段之间的隐藏表示 hidden feature hhh (2)区域图像特征vvv,然后对vvv做上采样,然后进一步使用两个卷积层进行处理,得到与hhh大小相同的W(v)W(v)W(v)和b(v)b(v)b(v),最后,通过融合两种模态表示得到h‘h^`h‘。

    h‘=h⊙W(v)+b(v)h^`=h \odot W(v) +b(v)h‘=h⊙W(v)+b(v)

    其中W(v)W(v)W(v)和b(v)b(v)b(v)是根据区域图像特征vvv学习到的权重和偏差,⊙\odot⊙为Hadamard element-wise product。用WWW和bbb来表示将区域特征vvv转换为缩放值和偏差值的函数。

Detail Correction Module(DAM):

  • 该模块有三个输入(1)来自最后一个ACM模块的隐藏feature hlasth_{last}hlast​,(2)由预训练RNN编码的单词特征word feature,其中每个单词与一个特征向量相关联。(3)从输入图像III中提取的视觉特征v‘v^`v‘。

  • 首先,通过ControlGAN中引入的空间注意和通道注意生成空间和通道注意特征sss和ccc,再进一步将细粒度的词级表示整合到隐藏特征hlasth_{last}hlast​中,生成中间特征aaa。**特征aaa可以进一步帮助模型细化与给定文本相关的视觉属性,有助于更准确和有效地修改与给定描述对应的内容。**其次,利用预训练的VGG网络的relu2_2层得到的特征通过上采样使其与aaa的大小相同,表示为v‾‘\overline{v}^`v‘。之后利用ACM模块融合aaa和v‾‘\overline{v}^`v‘,得到a‾\overline{a}a。最后,采用用两个残差块(细节在补充材料中)细化图像得到I‘I^`I‘。

实验:

Manipulative precision metric:

  • 作者认为使用自然语言描述的图像处理应该从两个方面来评估:

    • 从给定文本生成新的视觉属性
    • 重建存在于输入图像中的原始内容(也就是没有被修改部分)
  • 但是现有的度量标准只关注这个问题的一个方面,比如L1L_1L1​ Eu clidean距离、峰值信噪比、SSIM仅衡量两幅图像之间的相似度,而余弦相似度和检索精度仅衡量文本与相应生成图像之间的相似度。在此基础上,作者提出了一种新的度量方法——操纵精度(manipulative precision, MP),用于同时测量生成和重构的质量。定义为:

    MP=(1−diff)×simMP=(1-diff) \times simMP=(1−diff)×sim

    其中diffdiffdiff是L1L_1L1​像素差异输入图像和相应的修改图像,simsimsim是textimage相似,它是基于文本图像匹配分数,利用预先训练的文本图像编码器,提取给定文本描述和相应修改图像的全局特征向量,然后利用这两个全局向量的余弦相似度计算相似度值。具体来说,本设计基于的直觉是,如果经过处理的图像是由身份映射网络生成的,那么文本-图像的相似度应该很低,因为合成的图像不能很好地与给定的文本描述保持语义的一致性。

ManiGAN Text-Guided Image Manipulation相关推荐

  1. 【CVPR2019】论文完整列表一

    CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...

  2. 图像翻译/UDA-CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation图像翻译的全分辨率对应学习

    CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation图像翻译的全分辨率对应学习 0.摘要 1.概述 2. ...

  3. CVPR2019论文题目中文列表

    英文题目 中文题目   Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 少镜头学习中用类别遍历法寻 ...

  4. (九:2020.08.27)CVPR 2019 追踪之论文纲要(译)

    CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  5. (zhuan) Recurrent Neural Network

    Recurrent Neural Network 2016年07月01日 Deep learning Deep learning 字数:24235 this blog from: http://jxg ...

  6. vim block vim_我如何学会爱Vim

    vim block vim by Sanchit Gera 通过Sanchit Gera 我如何学会爱Vim (How I learned to love Vim) I've had a bitter ...

  7. 【今日CV 计算机视觉论文速览 第97期】Tue, 9 Apr 2019

    今日CS.CV 计算机视觉论文速览 Tue, 9 Apr 2019 (showing first 100 of 124 entries) Totally 100 papers ?上期速览 ✈更多精彩请 ...

  8. CVPR学习(三):CVPR2019-各个方向

    一.各个方向 视频人体骨架跟踪 [1]Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos 论文地址 ...

  9. CVPR学习(二):CVPR2019-行人重识别

    一.Oral Joint Discriminative and Generative Learning for Person Re-identification. Zhedong Zheng; Xia ...

  10. CVPR2019|最新更新论文~持续更新|CVPR2019百度云下载

    CVPR论文下载百度云链接:链接:https://pan.baidu.com/s/100OAXTIOTPoMjbi-dwOcxA  提取码:请关注[计算机视觉联盟]微信公众号,回复:CVPR2019 ...

最新文章

  1. python输出日期的模版_python按日期区间生成markdown日记模板
  2. 测试php程序运行时间
  3. docker基础用法
  4. python统计词频_Python统计四六级考试的词频
  5. gitlab使用git sourcetree时候的命令
  6. Go 面试专题 | slice 扩容后的内存容量如何计算?
  7. c++中带返回值函数没写return能通过编译但运行时会出现奇怪问题
  8. 51Nod1253 Kundu and Tree 容斥原理
  9. 奇异值分解(Singular Value Decomposition, SVD)——快速教程
  10. 《用户故事与敏捷方法》 笔记
  11. java计算机毕业设计教务排课系统源码+mysql数据库+系统+lw文档+部署
  12. java nutch 爬虫_Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取
  13. html如何添加竖虚线,在word中添加竖虚线的方法
  14. PS-怎么使用参考线?
  15. pygame游戏教程目录
  16. Kylin Error:Cannot start job scheduler due to lack of job lock
  17. 用户输入一个列表和两个整数作为下标,然后使用切片获取并输出列表中结余两个下标之间的元素组成的子列表。例如,用户输入 [1,2,3,4,5,6]和2,5,程序输出[3,4,5]。
  18. 机器学习(周志华) 第一章 引言
  19. 阿里云云计算ACP学习(九)---阿里云安全
  20. 作者已死?AI正用艺术征服人类

热门文章

  1. 从机械硬盘和固态硬盘的结构来看IO
  2. 微信java转盘抽奖代码_jquery手机端抽奖代码_微信jquery实现大转盘抽奖代码特效...
  3. 通过vdi备份linux,Linux_Ubuntu下VirtualBox的vdi文件克隆方法,使用VirtualBox时遇到一个问题, - phpStudy...
  4. 班级网站(网页设计实验)
  5. 2022暑期牛客多校训练第5场 A.Don‘t Starve
  6. G1 Concurrent Refinement Thread 在干啥?
  7. ASAN Runtime【源码分析】(一)——初始化
  8. 工业大数据特征有哪些 大数据工程师来告诉你
  9. 怎么把计算机放到硬盘里,如何将电脑的机械硬盘变成固态硬盘【详细步骤】
  10. 少数服从多数合理性的证明与证伪分析