论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation

论文主页:https://panzhang0212.github.io/CoCosNet/

论文链接:https://arxiv.org/abs/2004.05571

代码链接:https://github.com/microsoft/CoCosNet

摘要

本文提供了一种图像翻译的通用框架,它从输入的语义图像合成真实的照片图像。与常规不同的是这个框架可以再输入一个 exemplar image,以这个 exemplar image的风格来输出最后的真实照片图像。这个exemplar图像给输出图像更多的限制,也提供了更多信息。
这个框架主要由两部分组成,一是解决跨域语义对应的Cross domain correspondence Network,二是解决翻译生成图像的Translation network。传统方法的理论只能处理自然图像直接的关系,无法处理跨域图像,但本框架可以处理跨域图像的问题。

Cross domain correspondence Network
首先建立了位于不同领域的input和exemplar image之间的对应关系,并对exemplar image进行了相应的扭曲,使其语义与input一致。具体是把两个域的图像映射到一个中间域,找到对应关系,从而扭曲exemplar image.

input图像xA属于A域,exemplar图像yB属于B域,作者通过把xA 和yB放入feature pyramid network(利用FPN方法)提取特征,转化为中间域S的xS和yS.
其中θF\theta_{\mathcal{F}}θF​是需要学习的参数
此步骤损失函数为:

Ldomain ℓ1=∥FA→S(xA)−FB→S(xB)∥1\mathcal{L}_{\text {domain }}^{\ell_{1}}=\left\|\mathcal{F}_{A \rightarrow S}\left(x_{A}\right)-\mathcal{F}_{B \rightarrow S}\left(x_{B}\right)\right\|_{1}Ldomain ℓ1​​=∥FA→S​(xA​)−FB→S​(xB​)∥1​

由于XA和YB是不同域图像,但包含相同语义,他们转化到S域之后应当尽量对其,故损失函数为使两者在S域中的映射之间的差别。应使这个差异最小。

xA和yB都映射到域S之后,计算一个S域中他们俩的相关矩阵,然后通过softmax加权选择yB中最相关的像素。
M(u,v)=x^S(u)Ty^S(v)∥x^S(u)∥∥y^S(v)∥\mathcal{M}(u, v)=\frac{\hat{x}_{S}(u)^{T} \hat{y}_{S}(v)}{\left\|\hat{x}_{S}(u)\right\|\left\|\hat{y}_{S}(v)\right\|}M(u,v)=∥x^S​(u)∥∥y^​S​(v)∥x^S​(u)Ty^​S​(v)​

ry→x(u)=∑vsoftmax⁡v(αM(u,v))⋅yB(v)r_{y \rightarrow x}(u)=\sum_{v} \operatorname{softmax}_{v}(\alpha \mathcal{M}(u, v)) \cdot y_{B}(v)ry→x​(u)=∑v​softmaxv​(αM(u,v))⋅yB​(v)

损失函数为:Lreg=∥ry→x→y−yB∥1\mathcal{L}_{r e g}=\left\|r_{y \rightarrow x \rightarrow y}-y_{B}\right\|_{1}Lreg​=∥ry→x→y​−yB​∥1​

Translation Network
把扭曲的exemplar image合成输出图像。从一个固定的常量z开始,通过卷积逐步扭曲图像的风格信息。

αh,wi(ry→x)×Fc,h,wi−μh,wiσh,wi+βh,wi(ry→x)\alpha_{h, w}^{i}\left(r_{y \rightarrow x}\right) \times \frac{F_{c, h, w}^{i}-\mu_{h, w}^{i}}{\sigma_{h, w}^{i}}+\beta_{h, w}^{i}\left(r_{y \rightarrow x}\right)αh,wi​(ry→x​)×σh,wi​Fc,h,wi​−μh,wi​​+βh,wi​(ry→x​)

αi,βi=Ti(ry→x;θT)\alpha^{i}, \beta^{i}=\mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right)αi,βi=Ti​(ry→x​;θT​)

最终生成图像:

x^B=G(z,Ti(ry→x;θT);θG)\hat{x}_{B}=\mathcal{G}\left(z, \mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right) ; \theta_{\mathcal{G}}\right)x^B​=G(z,Ti​(ry→x​;θT​);θG​)

最终网络为七层,得到输出图片。
另外的一些损失函数:
第一个是伪参考图像对损失,xB作为真实值,xB’是xB的变形,保持图片内容不变,如翻转等。如果吧xB’作为exemplar image,xA作为input,那么生成图像应接近xB。故损失函数为:

Lfeat =∑lλl∥ϕl(G(xA,xB′))−ϕl(xB)∥1\mathcal{L}_{\text {feat }}=\sum_{l} \lambda_{l}\left\|\phi_{l}\left(\mathcal{G}\left(x_{A}, x_{B}^{\prime}\right)\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lfeat ​=∑l​λl​∥ϕl​(G(xA​,xB′​))−ϕl​(xB​)∥1​

第二个是参考图像转换损失,其中包含两项,perceptual loss和contextual loss。
perceptual loss:

Lperc =∥ϕl(x^B)−ϕl(xB)∥1\mathcal{L}_{\text {perc }}=\left\|\phi_{l}\left(\hat{x}_{B}\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lperc ​=∥ϕl​(x^B​)−ϕl​(xB​)∥1​

contextual loss:

Lcontext =∑lωl[−log⁡(1nl∑imax⁡jAl(ϕil(x^B),ϕjl(yB)))]\mathcal{L}_{\text {context }}=\sum_{l} \omega_{l}\left[-\log \left(\frac{1}{n_{l}} \sum_{i} \max _{j} A^{l}\left(\phi_{i}^{l}\left(\hat{x}_{B}\right), \phi_{j}^{l}\left(y_{B}\right)\right)\right)\right]Lcontext ​=∑l​ωl​[−log(nl​1​∑i​maxj​Al(ϕil​(x^B​),ϕjl​(yB​)))]

最后是Adversarial loss:

LadvD=−E[h(D(yB))]−E[h(D(G(xA,yB)))]\mathcal{L}_{a d v}^{\mathcal{D}}=-\mathbb{E}\left[h\left(\mathcal{D}\left(y_{B}\right)\right)\right]-\mathbb{E}\left[h\left(\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right)\right]LadvD​=−E[h(D(yB​))]−E[h(D(G(xA​,yB​)))]

LadvG=−E[D(G(xA,yB))]\mathcal{L}_{a d v}^{\mathcal{G}}=-\mathbb{E}\left[\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right]LadvG​=−E[D(G(xA​,yB​))]

最终损失函数为:

Lθ=min⁡F,T,Gmax⁡Dψ1Lfeat +ψ2Lperc +ψ3Lcontext +ψ4LadvG+ψ5Ldomain ℓ1+ψ6Lreg \begin{aligned} \mathcal{L}_{\theta}=\min _{\mathcal{F}, \mathcal{T}, \mathcal{G}} & \max _{\mathcal{D}} \psi_{1} \mathcal{L}_{\text {feat }}+\psi_{2} \mathcal{L}_{\text {perc }}+\psi_{3} \mathcal{L}_{\text {context }} \\ &+\psi_{4} \mathcal{L}_{a d v}^{\mathcal{G}}+\psi_{5} \mathcal{L}_{\text {domain }}^{\ell_{1}}+\psi_{6} \mathcal{L}_{\text {reg }}\end{aligned}Lθ​=F,T,Gmin​​Dmax​ψ1​Lfeat ​+ψ2​Lperc ​+ψ3​Lcontext ​+ψ4​LadvG​+ψ5​Ldomain ℓ1​​+ψ6​Lreg ​​

实验
生成图像对比:

跨领域的相关度
利用correlation matrix可以计算输入语义图像和输入参考风格图像之间不同点的对应关系

图像编辑
给定一张图像及其对应的mask,对语义mask进行修改,再将原图像作为参考风格图像

方法限制

示例图像中的两辆不同颜色汽车同时与input中的汽车相对应,方法可能会产生混合颜色伪影,与现实不符;此外,在多对一映射(第二行)的 情况下,多个实例(图中的枕头)可能使用相同的样式

另外,相关矩阵等计算非常占用GPU内存,使得这个方法很难用在高分辨率的图像上。

2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation相关推荐

  1. 【论文笔记】Heterogeneous Transfer Learning for HSIC Based on CNN

    X. He, Y. Chen and P. Ghamisi, "Heterogeneous Transfer Learning for Hyperspectral Image Classif ...

  2. 2021.06.03邮票面值设计

    2021.06.03邮票面值设计 题目描述 给定一个信封,最多只允许粘贴 N 张邮票,计算在给定 K(N+K≤15)种邮票的情况下(假定所有的邮票数量都足够),如何设计邮票的面值,能得到最大值 MAX ...

  3. 2021.06.03合并石子+能量项链

    2021.06.03合并石子+能量项链 题目描述 在一个圆形操场的四周摆放 N 堆石子,现要将石子有次序地合并成一堆,规定每次只能选相邻的2堆合并成新的一堆,并将新的一堆的石子数,记为该次合并的得分. ...

  4. 【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation

    论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation 论文主页:https://panzhang ...

  5. 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2

    论文笔记 | 谷歌 Soft Prompt Learning ptuning -> Prefix-Tuning -> soft promt -> p tuning v2 " ...

  6. 【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总

    (2023.05.10-2023.06.08)论文阅读简单记录和汇总 2023/05/10:今天状态,复阳大残,下午淋了点雨吹了点风,直接躺了四个小时还是头晕- -应该是阳了没跑了. 2023/06/ ...

  7. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  8. 论文笔记:CLIP:Learning Transferable Visual Models From Natural Language Supervision详解

    paper:https://arxiv.org/abs/2103.00020 代码:GitHub - openai/CLIP: Contrastive Language-Image Pretraini ...

  9. 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour

    360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...

最新文章

  1. linux 源码安装e1000e,linux安装网卡e1000e
  2. 谷歌提出新分类损失函数:将噪声对训练结果影响降到最低
  3. h3c怎么创建虚拟服务器,h3c 设置虚拟服务器
  4. java cas机制_Java CAS机制详解
  5. php codeigniter 语言,关于php:CodeIgniter:语言文件编辑器?
  6. 【VS开发】VS2010中导入ActiveX控件
  7. android 录屏工具,安卓手机上最好的录屏软件在这里
  8. oracle load data infile
  9. 数据挖掘前景及工作方向选择
  10. 卡盟主站搭建_搭建卡盟主站下载|搭建卡盟主站教程 (附带源码)百度云_ - 极光下载站...
  11. SCM提升供应链管理效率
  12. 文件同步工具BT Sync介绍和使用说明
  13. 业务与信令-第6章VoLTE信令
  14. 交通银行信用卡积分兑换礼品方法(三种)
  15. 数字温度传感器DS18B20中文资料(含读写程序)-
  16. 能解决 80% 需求的 10个 CSS动画库
  17. 金蝶K3 ACTIVEX部件不能创建对象 金蝶K3一直装载进不去
  18. 小蓝本 第一本 《因式分解技巧》 第七章 综合运用 笔记 (第七天)
  19. 关于微信微博等二维码问题
  20. 常见的厂家的加固方式做一下总结

热门文章

  1. 计算机病毒的自述,电脑的自述作文500字
  2. Proxy SwitchyOmega安装和使用
  3. qq满屏飞吻代码_[爱情][飞吻][跳跳][爱心][嘴唇][玫瑰][月亮][礼物][拥抱]什么意思...
  4. Java Swing实用小工具开发
  5. 汉文化资讯社区(maven ,SSM ,MySQL)
  6. Java+MySQL基于Springboot+vue的汉服交流网站#毕业设计
  7. 程序设计与算法(三)期末考试之013:编程填空:三生三世
  8. 从零开始离线安装k8s集群
  9. 中国本土化编程 汉语编程 之我见
  10. Calendars and DateFormats should not be static