论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation

论文主页:https://panzhang0212.github.io/CoCosNet/

论文链接:https://arxiv.org/abs/2004.05571

代码链接:https://github.com/microsoft/CoCosNet

用于基于示例的图像翻译的跨域语义对应学习

Task

本文所针对的任务是基于示例的图像翻译,不同于普通的图像翻译,不仅提供了input,还提供了包含风格的示例,相当于提供了语义图像和风格图像,对生成图像有了更多约束但也提供了更多信息。

这个任务的难点有两个:

  1. 如何解决跨域语义对应

  2. 如何生成高质量的对应图像

这两个问题不需要完全分离,它们可以是两个相辅相成的过程。正确的语义对应有助于指导网络参考范例的颜色及纹理,从而提高最终图像质量;反之,生成高质量图片的目标会反过来要求子模块找到合理的对应。

CoCosNet网络结构

网络包含两个部分:跨域对齐网络和图像生成网络

大致流程:

  • 跨域对齐网络:把两个域的图像映射到一个中间域,在中间域上找到二者的匹配关系,然后利用匹配关系扭曲示例图像。

  • 图像转换网络:利用多层卷积和扭曲的示例图像逐步生成高质量的目标域图像。

Cross-domain correspondence network 跨域对齐网络

这一部分网络包含两个步骤:

步骤一:

输入图像XA是A域的,示例YB是B域的,把他们映射到同一个中间域S的话就可以较为方便地找到他们之间的语义对应关系,作者这里使用的映射方式是用FPN提取两张图像的特征图,再都转换为S域中的表示XS和YS,这里的F就是整个的转换关系,theta是需要学习的参数。

这一步对应的loss叫域对齐损失,(XB是XA在B域中对应的图像,类似于ground truth,但严格来说不是),如果这个中间域找的好的话,这里好的定义就是语义对齐,那么XA和XB转换到S域应该是完全对齐的,因为他们本来就是相同场景的不同域图像,是包含相同语义的。

Domain alignment loss

步骤二:

都转换到S域之后就要找到他们之间的语义相关性,首先计算一个S域中他们俩的相关矩阵,其中这个hat指的是在通道维度均值归0后的值,然后通过softmax加权选择YB中最相关的像素,这样就得到了一张直接通过输入图像把示例图像扭曲过来的图像。

跟这一步相对应的loss叫对应关系正则损失,对于这个扭曲后的示例图像是没有强监督的,所以作者这里是通过一个循环一致性来约束的,就是通过同样的方法把扭曲后的图像按照原示例图YB扭曲回去,得到的应该是YB原图。

Correspondence regularization loss

这里提前放一下关于这两个loss的消融实验

如果没有第一个域对齐损失,会造成两个域没有实现对应,扭曲图片会出现过度平滑;如果没有第二个对应正则损失,将会产生不正确的对应,导致最后生成的图像质量不好。

Translation network

接下来是它的图像生成网络,从一个固定的常量z开始,通过逐步卷积逐步注入扭曲图像的风格信息,每一次注入风格都是通过Positional normalization和Spatially-adaptive denormalization, positional normalization是指在每一个像素点进行归一化操作,SPADE指的是去正则化时的Alpha和Beta不是学来的,而是从风格参考图像中得来的,而且也是每一个像素不同,这里得到Alpha和Beta的操作也是通过卷积。

经过七层这样的操作,最终得到输出图片。

除了之前说到的两个跨域对齐损失,还有一些跟图像生成有关的loss

第一个是伪参考图像对损失,这里再一次用到了XB,XB在这里是真正作为ground truth,XB’是对XB做了一些随机变形,裁剪或是翻转之类的,如果把它作为示例图像,XA作为输入图像,生成的应该是XB才对,这里的Phi l是VGG-19的第l层激活。

feature matching loss

第二个是参考图像转换损失,其中包含两项,perceptual loss和contextual loss,感知损失用的是高层语义信息,也就是VGG-19比较靠后的一层特征,为了使生成图像XB hat和XB拥有较高的语义一致性;感知损失约束的是全局高频特征的相似性,上下文损失约束的是局部的特征,所以这里用到的是包含更丰富风格信息(例如颜色、纹理)的几个低层特征,为了使XB hat和YB在风格上相似。contextual loss来自另一篇论文“The contextual loss for image transformation with non-aligned data”,想要详细了解可以搜索一下。

perceptual loss

contextual loss

最后一项是对抗损失,与一般GAN的损失函数类似,主要是为了让生成的图片属于B域,提升图片质量。

Adversarial loss

综上最后总的损失函数就是这6项的加权和。

1. 伪参考图像对损失,2. 语义约束损失,3. 风格约束损失,4. 生成对抗损失,5. 领域对齐损失,6. 相似度矩阵正则化损失

实验结果

还有一些定量结果,评价指标包含三部分:生成图像是否像真的,语义信息是否像input,风格是否像exemplar。FID和SWD都是图像生成的评价指标,FID表示生成图像分布和真实图像分布的距离;SWD表示将生成图像改变为真实图像需要移动的最短距离。都是越低越好。具体的结果大家可以看论文中,这里不再贴图。此外还包括用户判断实验和每一项loss的消融实验,作者的实验做的很全面。

Limitation

  1. one-to-many and many-to-one mappings

示例图像中的红黑两辆汽车同时与input中的汽车相对应,导致生成图像中的汽车一半黑一半红,与现实不符;下面一行中枕头只是简单地复制,丢失了多样性。

2. 第二个不足在于相关矩阵等计算非常占用GPU内存,使得这个方法很难用在高分辨率的图像上。


参考文献:

Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).

【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation相关推荐

  1. 2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation

    论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation 论文主页:https://panzhang ...

  2. AI顶级期刊 IEEE T-PAMI 2020最新论文解读 | Deep Partial Multi-View Learning

    点击蓝字 关注我们 <IEEE T-PAMI>全称为IEEE Transactions on Pattern Analysis and Machine Intelligence.众所周知, ...

  3. 【论文阅读】Cross-domain Correspondence Learning for Exemplar-based Image Translation

    [2020CVPR] 代码地址:https://panzhang0212.github.io/CoCosNet/ Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, a ...

  4. 论文解读:6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning

    6mA-Pred:基于深度学习的DNA n6 -甲基腺嘌呤位点识别 摘 要 一.介绍 二.材料和方法 2.1 数据集 2.2 特征编码和分类算法 三. 绩效评估 四. 不同数据集的性能比较 总结 数据 ...

  5. 论文解读:《Deep Learning of Sequence Patterns for CCCTC-BindingFactor-Mediated Chromatin Loop Formation》

    所属分类: SCI  生物 期刊名: JOURNAL OF COMPUTATIONAL BIOLOGY 2021年影响因子/JCR分区:1.479/Q4 文章:Deep Learning of Seq ...

  6. 三维目标检测---BtcDet论文解读 Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

    个人博客 代码链接 paper链接 提出的问题 作者首先指出LiDAR帧其实不是严格意义上的3D结构,而是一个2.5D的结构.因为LiDAR通常只能获得目标靠近传感器那部分的结构特征,远离传感器部分的 ...

  7. 【论文笔记】Heterogeneous Transfer Learning for HSIC Based on CNN

    X. He, Y. Chen and P. Ghamisi, "Heterogeneous Transfer Learning for Hyperspectral Image Classif ...

  8. EMNLP2020 | 神经机器翻译精选论文解读

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  9. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

最新文章

  1. ajax获取数据自动创建分页,支持自定义显示数据量以及分页数量
  2. FTP 服务搭建及常用的命令脚本及传输协议基础普及
  3. 《CCNP TSHOOT(642-832)学习指南》一导读
  4. jQuery Validate验证方法及教程
  5. java orika_常见Bean映射工具分析评测及Orika介绍
  6. [再寄小读者之数学篇](2014-05-23 递增函数的右极限)
  7. 有多少是长大了以后才明白的道理?
  8. glPushMatrix()和glPopMatrix()以及glLoadIdentity()的理解
  9. centos 7 下使用dvorak键盘布局
  10. Machine Learning - XVII. Large Scale Machine Learning大规模机器学习 (Week 10)
  11. vue日历插件vue-calendar
  12. 没能躲开的云服务容器网络问题
  13. MSM8953修改开机动画
  14. Linux下 eclipse下载
  15. 免费升级win10系统方法
  16. 清理Win11磁盘的方法
  17. linux运行office2016,CrossOver 17让您可以在Linux上安装Microsoft Office 2016
  18. ES插入date类型数据报错failed to parse field [case_date] of type [date]
  19. 红米note3全网通版刷机救砖 9008强刷(无需短接)
  20. FPC软排线结构的奥秘

热门文章

  1. 【强推】李宏毅老师2021深度学习课程学习笔记(持续更新中)
  2. 时光相册 php,一周 App 派评:支持插图表格 iA Writer 4、智能修颜 Facetune 2、新海诚滤镜「时光相册」、脑力锻炼「大脑之旅」...
  3. 【Tensorflow教程笔记】常用模块 tf.function :图执行模式
  4. 【渗透测试】你应该了解的大部分工具![本文仅供了解]
  5. 如何进行期货日内趋势量化交易系统的设计?
  6. ubuntu20.04耳机没有声音
  7. spring context:property-placeholder无法加载配置文件,导致属性无效
  8. 解决ping: www.baidu.com: Name or service not known
  9. 微信WiFi认证的解决方案
  10. Docker | 基于docker安装Redis