【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文主页:https://panzhang0212.github.io/CoCosNet/
论文链接:https://arxiv.org/abs/2004.05571
代码链接:https://github.com/microsoft/CoCosNet
用于基于示例的图像翻译的跨域语义对应学习
Task
本文所针对的任务是基于示例的图像翻译,不同于普通的图像翻译,不仅提供了input,还提供了包含风格的示例,相当于提供了语义图像和风格图像,对生成图像有了更多约束但也提供了更多信息。
这个任务的难点有两个:
如何解决跨域语义对应
如何生成高质量的对应图像
这两个问题不需要完全分离,它们可以是两个相辅相成的过程。正确的语义对应有助于指导网络参考范例的颜色及纹理,从而提高最终图像质量;反之,生成高质量图片的目标会反过来要求子模块找到合理的对应。
CoCosNet网络结构
网络包含两个部分:跨域对齐网络和图像生成网络
大致流程:
跨域对齐网络:把两个域的图像映射到一个中间域,在中间域上找到二者的匹配关系,然后利用匹配关系扭曲示例图像。
图像转换网络:利用多层卷积和扭曲的示例图像逐步生成高质量的目标域图像。
Cross-domain correspondence network 跨域对齐网络
这一部分网络包含两个步骤:
步骤一:
输入图像XA是A域的,示例YB是B域的,把他们映射到同一个中间域S的话就可以较为方便地找到他们之间的语义对应关系,作者这里使用的映射方式是用FPN提取两张图像的特征图,再都转换为S域中的表示XS和YS,这里的F就是整个的转换关系,theta是需要学习的参数。
这一步对应的loss叫域对齐损失,(XB是XA在B域中对应的图像,类似于ground truth,但严格来说不是),如果这个中间域找的好的话,这里好的定义就是语义对齐,那么XA和XB转换到S域应该是完全对齐的,因为他们本来就是相同场景的不同域图像,是包含相同语义的。
Domain alignment loss
步骤二:
都转换到S域之后就要找到他们之间的语义相关性,首先计算一个S域中他们俩的相关矩阵,其中这个hat指的是在通道维度均值归0后的值,然后通过softmax加权选择YB中最相关的像素,这样就得到了一张直接通过输入图像把示例图像扭曲过来的图像。
跟这一步相对应的loss叫对应关系正则损失,对于这个扭曲后的示例图像是没有强监督的,所以作者这里是通过一个循环一致性来约束的,就是通过同样的方法把扭曲后的图像按照原示例图YB扭曲回去,得到的应该是YB原图。
Correspondence regularization loss
这里提前放一下关于这两个loss的消融实验
如果没有第一个域对齐损失,会造成两个域没有实现对应,扭曲图片会出现过度平滑;如果没有第二个对应正则损失,将会产生不正确的对应,导致最后生成的图像质量不好。
Translation network
接下来是它的图像生成网络,从一个固定的常量z开始,通过逐步卷积逐步注入扭曲图像的风格信息,每一次注入风格都是通过Positional normalization和Spatially-adaptive denormalization, positional normalization是指在每一个像素点进行归一化操作,SPADE指的是去正则化时的Alpha和Beta不是学来的,而是从风格参考图像中得来的,而且也是每一个像素不同,这里得到Alpha和Beta的操作也是通过卷积。
经过七层这样的操作,最终得到输出图片。
除了之前说到的两个跨域对齐损失,还有一些跟图像生成有关的loss
第一个是伪参考图像对损失,这里再一次用到了XB,XB在这里是真正作为ground truth,XB’是对XB做了一些随机变形,裁剪或是翻转之类的,如果把它作为示例图像,XA作为输入图像,生成的应该是XB才对,这里的Phi l是VGG-19的第l层激活。
feature matching loss
第二个是参考图像转换损失,其中包含两项,perceptual loss和contextual loss,感知损失用的是高层语义信息,也就是VGG-19比较靠后的一层特征,为了使生成图像XB hat和XB拥有较高的语义一致性;感知损失约束的是全局高频特征的相似性,上下文损失约束的是局部的特征,所以这里用到的是包含更丰富风格信息(例如颜色、纹理)的几个低层特征,为了使XB hat和YB在风格上相似。contextual loss来自另一篇论文“The contextual loss for image transformation with non-aligned data”,想要详细了解可以搜索一下。
perceptual loss
contextual loss
最后一项是对抗损失,与一般GAN的损失函数类似,主要是为了让生成的图片属于B域,提升图片质量。
Adversarial loss
综上最后总的损失函数就是这6项的加权和。
1. 伪参考图像对损失,2. 语义约束损失,3. 风格约束损失,4. 生成对抗损失,5. 领域对齐损失,6. 相似度矩阵正则化损失
实验结果
还有一些定量结果,评价指标包含三部分:生成图像是否像真的,语义信息是否像input,风格是否像exemplar。FID和SWD都是图像生成的评价指标,FID表示生成图像分布和真实图像分布的距离;SWD表示将生成图像改变为真实图像需要移动的最短距离。都是越低越好。具体的结果大家可以看论文中,这里不再贴图。此外还包括用户判断实验和每一项loss的消融实验,作者的实验做的很全面。
Limitation
one-to-many and many-to-one mappings
示例图像中的红黑两辆汽车同时与input中的汽车相对应,导致生成图像中的汽车一半黑一半红,与现实不符;下面一行中枕头只是简单地复制,丢失了多样性。
2. 第二个不足在于相关矩阵等计算非常占用GPU内存,使得这个方法很难用在高分辨率的图像上。
参考文献:
Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, and Fang Wen. “Cross-domain Correspondence Learning for Exemplar-based Image Translation.” arXiv preprint arXiv:2004.05571 (2020).
【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation相关推荐
- 2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation 论文主页:https://panzhang ...
- AI顶级期刊 IEEE T-PAMI 2020最新论文解读 | Deep Partial Multi-View Learning
点击蓝字 关注我们 <IEEE T-PAMI>全称为IEEE Transactions on Pattern Analysis and Machine Intelligence.众所周知, ...
- 【论文阅读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
[2020CVPR] 代码地址:https://panzhang0212.github.io/CoCosNet/ Zhang, Pan, Bo Zhang, Dong Chen, Lu Yuan, a ...
- 论文解读:6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning
6mA-Pred:基于深度学习的DNA n6 -甲基腺嘌呤位点识别 摘 要 一.介绍 二.材料和方法 2.1 数据集 2.2 特征编码和分类算法 三. 绩效评估 四. 不同数据集的性能比较 总结 数据 ...
- 论文解读:《Deep Learning of Sequence Patterns for CCCTC-BindingFactor-Mediated Chromatin Loop Formation》
所属分类: SCI 生物 期刊名: JOURNAL OF COMPUTATIONAL BIOLOGY 2021年影响因子/JCR分区:1.479/Q4 文章:Deep Learning of Seq ...
- 三维目标检测---BtcDet论文解读 Behind the Curtain: Learning Occluded Shapes for 3D Object Detection
个人博客 代码链接 paper链接 提出的问题 作者首先指出LiDAR帧其实不是严格意义上的3D结构,而是一个2.5D的结构.因为LiDAR通常只能获得目标靠近传感器那部分的结构特征,远离传感器部分的 ...
- 【论文笔记】Heterogeneous Transfer Learning for HSIC Based on CNN
X. He, Y. Chen and P. Ghamisi, "Heterogeneous Transfer Learning for Hyperspectral Image Classif ...
- EMNLP2020 | 神经机器翻译精选论文解读
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
- 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
最新文章
- ajax获取数据自动创建分页,支持自定义显示数据量以及分页数量
- FTP 服务搭建及常用的命令脚本及传输协议基础普及
- 《CCNP TSHOOT(642-832)学习指南》一导读
- jQuery Validate验证方法及教程
- java orika_常见Bean映射工具分析评测及Orika介绍
- [再寄小读者之数学篇](2014-05-23 递增函数的右极限)
- 有多少是长大了以后才明白的道理?
- glPushMatrix()和glPopMatrix()以及glLoadIdentity()的理解
- centos 7 下使用dvorak键盘布局
- Machine Learning - XVII. Large Scale Machine Learning大规模机器学习 (Week 10)
- vue日历插件vue-calendar
- 没能躲开的云服务容器网络问题
- MSM8953修改开机动画
- Linux下 eclipse下载
- 免费升级win10系统方法
- 清理Win11磁盘的方法
- linux运行office2016,CrossOver 17让您可以在Linux上安装Microsoft Office 2016
- ES插入date类型数据报错failed to parse field [case_date] of type [date]
- 红米note3全网通版刷机救砖 9008强刷(无需短接)
- FPC软排线结构的奥秘
热门文章
- 【强推】李宏毅老师2021深度学习课程学习笔记(持续更新中)
- 时光相册 php,一周 App 派评:支持插图表格 iA Writer 4、智能修颜 Facetune 2、新海诚滤镜「时光相册」、脑力锻炼「大脑之旅」...
- 【Tensorflow教程笔记】常用模块 tf.function :图执行模式
- 【渗透测试】你应该了解的大部分工具![本文仅供了解]
- 如何进行期货日内趋势量化交易系统的设计?
- ubuntu20.04耳机没有声音
- spring context:property-placeholder无法加载配置文件,导致属性无效
- 解决ping: www.baidu.com: Name or service not known
- 微信WiFi认证的解决方案
- Docker | 基于docker安装Redis