2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文主页:https://panzhang0212.github.io/CoCosNet/
论文链接:https://arxiv.org/abs/2004.05571
代码链接:https://github.com/microsoft/CoCosNet
摘要
本文提供了一种图像翻译的通用框架,它从输入的语义图像合成真实的照片图像。与常规不同的是这个框架可以再输入一个 exemplar image,以这个 exemplar image的风格来输出最后的真实照片图像。这个exemplar图像给输出图像更多的限制,也提供了更多信息。
这个框架主要由两部分组成,一是解决跨域语义对应的Cross domain correspondence Network,二是解决翻译生成图像的Translation network。传统方法的理论只能处理自然图像直接的关系,无法处理跨域图像,但本框架可以处理跨域图像的问题。
Cross domain correspondence Network:
首先建立了位于不同领域的input和exemplar image之间的对应关系,并对exemplar image进行了相应的扭曲,使其语义与input一致。具体是把两个域的图像映射到一个中间域,找到对应关系,从而扭曲exemplar image.
input图像xA属于A域,exemplar图像yB属于B域,作者通过把xA 和yB放入feature pyramid network(利用FPN方法)提取特征,转化为中间域S的xS和yS.
其中θF\theta_{\mathcal{F}}θF是需要学习的参数
此步骤损失函数为:
Ldomain ℓ1=∥FA→S(xA)−FB→S(xB)∥1\mathcal{L}_{\text {domain }}^{\ell_{1}}=\left\|\mathcal{F}_{A \rightarrow S}\left(x_{A}\right)-\mathcal{F}_{B \rightarrow S}\left(x_{B}\right)\right\|_{1}Ldomain ℓ1=∥FA→S(xA)−FB→S(xB)∥1
由于XA和YB是不同域图像,但包含相同语义,他们转化到S域之后应当尽量对其,故损失函数为使两者在S域中的映射之间的差别。应使这个差异最小。
xA和yB都映射到域S之后,计算一个S域中他们俩的相关矩阵,然后通过softmax加权选择yB中最相关的像素。
M(u,v)=x^S(u)Ty^S(v)∥x^S(u)∥∥y^S(v)∥\mathcal{M}(u, v)=\frac{\hat{x}_{S}(u)^{T} \hat{y}_{S}(v)}{\left\|\hat{x}_{S}(u)\right\|\left\|\hat{y}_{S}(v)\right\|}M(u,v)=∥x^S(u)∥∥y^S(v)∥x^S(u)Ty^S(v)
ry→x(u)=∑vsoftmaxv(αM(u,v))⋅yB(v)r_{y \rightarrow x}(u)=\sum_{v} \operatorname{softmax}_{v}(\alpha \mathcal{M}(u, v)) \cdot y_{B}(v)ry→x(u)=∑vsoftmaxv(αM(u,v))⋅yB(v)
损失函数为:Lreg=∥ry→x→y−yB∥1\mathcal{L}_{r e g}=\left\|r_{y \rightarrow x \rightarrow y}-y_{B}\right\|_{1}Lreg=∥ry→x→y−yB∥1
Translation Network:
把扭曲的exemplar image合成输出图像。从一个固定的常量z开始,通过卷积逐步扭曲图像的风格信息。
αh,wi(ry→x)×Fc,h,wi−μh,wiσh,wi+βh,wi(ry→x)\alpha_{h, w}^{i}\left(r_{y \rightarrow x}\right) \times \frac{F_{c, h, w}^{i}-\mu_{h, w}^{i}}{\sigma_{h, w}^{i}}+\beta_{h, w}^{i}\left(r_{y \rightarrow x}\right)αh,wi(ry→x)×σh,wiFc,h,wi−μh,wi+βh,wi(ry→x)
αi,βi=Ti(ry→x;θT)\alpha^{i}, \beta^{i}=\mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right)αi,βi=Ti(ry→x;θT)
最终生成图像:
x^B=G(z,Ti(ry→x;θT);θG)\hat{x}_{B}=\mathcal{G}\left(z, \mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right) ; \theta_{\mathcal{G}}\right)x^B=G(z,Ti(ry→x;θT);θG)
最终网络为七层,得到输出图片。
另外的一些损失函数:
第一个是伪参考图像对损失,xB作为真实值,xB’是xB的变形,保持图片内容不变,如翻转等。如果吧xB’作为exemplar image,xA作为input,那么生成图像应接近xB。故损失函数为:
Lfeat =∑lλl∥ϕl(G(xA,xB′))−ϕl(xB)∥1\mathcal{L}_{\text {feat }}=\sum_{l} \lambda_{l}\left\|\phi_{l}\left(\mathcal{G}\left(x_{A}, x_{B}^{\prime}\right)\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lfeat =∑lλl∥ϕl(G(xA,xB′))−ϕl(xB)∥1
第二个是参考图像转换损失,其中包含两项,perceptual loss和contextual loss。
perceptual loss:
Lperc =∥ϕl(x^B)−ϕl(xB)∥1\mathcal{L}_{\text {perc }}=\left\|\phi_{l}\left(\hat{x}_{B}\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lperc =∥ϕl(x^B)−ϕl(xB)∥1
contextual loss:
Lcontext =∑lωl[−log(1nl∑imaxjAl(ϕil(x^B),ϕjl(yB)))]\mathcal{L}_{\text {context }}=\sum_{l} \omega_{l}\left[-\log \left(\frac{1}{n_{l}} \sum_{i} \max _{j} A^{l}\left(\phi_{i}^{l}\left(\hat{x}_{B}\right), \phi_{j}^{l}\left(y_{B}\right)\right)\right)\right]Lcontext =∑lωl[−log(nl1∑imaxjAl(ϕil(x^B),ϕjl(yB)))]
最后是Adversarial loss:
LadvD=−E[h(D(yB))]−E[h(D(G(xA,yB)))]\mathcal{L}_{a d v}^{\mathcal{D}}=-\mathbb{E}\left[h\left(\mathcal{D}\left(y_{B}\right)\right)\right]-\mathbb{E}\left[h\left(\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right)\right]LadvD=−E[h(D(yB))]−E[h(D(G(xA,yB)))]
LadvG=−E[D(G(xA,yB))]\mathcal{L}_{a d v}^{\mathcal{G}}=-\mathbb{E}\left[\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right]LadvG=−E[D(G(xA,yB))]
最终损失函数为:
Lθ=minF,T,GmaxDψ1Lfeat +ψ2Lperc +ψ3Lcontext +ψ4LadvG+ψ5Ldomain ℓ1+ψ6Lreg \begin{aligned} \mathcal{L}_{\theta}=\min _{\mathcal{F}, \mathcal{T}, \mathcal{G}} & \max _{\mathcal{D}} \psi_{1} \mathcal{L}_{\text {feat }}+\psi_{2} \mathcal{L}_{\text {perc }}+\psi_{3} \mathcal{L}_{\text {context }} \\ &+\psi_{4} \mathcal{L}_{a d v}^{\mathcal{G}}+\psi_{5} \mathcal{L}_{\text {domain }}^{\ell_{1}}+\psi_{6} \mathcal{L}_{\text {reg }}\end{aligned}Lθ=F,T,GminDmaxψ1Lfeat +ψ2Lperc +ψ3Lcontext +ψ4LadvG+ψ5Ldomain ℓ1+ψ6Lreg
实验
生成图像对比:
跨领域的相关度
利用correlation matrix可以计算输入语义图像和输入参考风格图像之间不同点的对应关系
图像编辑
给定一张图像及其对应的mask,对语义mask进行修改,再将原图像作为参考风格图像
方法限制
示例图像中的两辆不同颜色汽车同时与input中的汽车相对应,方法可能会产生混合颜色伪影,与现实不符;此外,在多对一映射(第二行)的 情况下,多个实例(图中的枕头)可能使用相同的样式
另外,相关矩阵等计算非常占用GPU内存,使得这个方法很难用在高分辨率的图像上。
2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation相关推荐
- 【论文笔记】Heterogeneous Transfer Learning for HSIC Based on CNN
X. He, Y. Chen and P. Ghamisi, "Heterogeneous Transfer Learning for Hyperspectral Image Classif ...
- 2021.06.03邮票面值设计
2021.06.03邮票面值设计 题目描述 给定一个信封,最多只允许粘贴 N 张邮票,计算在给定 K(N+K≤15)种邮票的情况下(假定所有的邮票数量都足够),如何设计邮票的面值,能得到最大值 MAX ...
- 2021.06.03合并石子+能量项链
2021.06.03合并石子+能量项链 题目描述 在一个圆形操场的四周摆放 N 堆石子,现要将石子有次序地合并成一堆,规定每次只能选相邻的2堆合并成新的一堆,并将新的一堆的石子数,记为该次合并的得分. ...
- 【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
论文题目:Cross-domain Correspondence Learning for Exemplar-based Image Translation 论文主页:https://panzhang ...
- 论文笔记 | 谷歌 Soft Prompt Learning ,Prefix-Tuning的 -> soft promt -> p tuning v2
论文笔记 | 谷歌 Soft Prompt Learning ptuning -> Prefix-Tuning -> soft promt -> p tuning v2 " ...
- 【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总
(2023.05.10-2023.06.08)论文阅读简单记录和汇总 2023/05/10:今天状态,复阳大残,下午淋了点雨吹了点风,直接躺了四个小时还是头晕- -应该是阳了没跑了. 2023/06/ ...
- 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
- 论文笔记:CLIP:Learning Transferable Visual Models From Natural Language Supervision详解
paper:https://arxiv.org/abs/2103.00020 代码:GitHub - openai/CLIP: Contrastive Language-Image Pretraini ...
- 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour
360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...
最新文章
- linux 源码安装e1000e,linux安装网卡e1000e
- 谷歌提出新分类损失函数:将噪声对训练结果影响降到最低
- h3c怎么创建虚拟服务器,h3c 设置虚拟服务器
- java cas机制_Java CAS机制详解
- php codeigniter 语言,关于php:CodeIgniter:语言文件编辑器?
- 【VS开发】VS2010中导入ActiveX控件
- android 录屏工具,安卓手机上最好的录屏软件在这里
- oracle load data infile
- 数据挖掘前景及工作方向选择
- 卡盟主站搭建_搭建卡盟主站下载|搭建卡盟主站教程 (附带源码)百度云_ - 极光下载站...
- SCM提升供应链管理效率
- 文件同步工具BT Sync介绍和使用说明
- 业务与信令-第6章VoLTE信令
- 交通银行信用卡积分兑换礼品方法(三种)
- 数字温度传感器DS18B20中文资料(含读写程序)-
- 能解决 80% 需求的 10个 CSS动画库
- 金蝶K3 ACTIVEX部件不能创建对象 金蝶K3一直装载进不去
- 小蓝本 第一本 《因式分解技巧》 第七章 综合运用 笔记 (第七天)
- 关于微信微博等二维码问题
- 常见的厂家的加固方式做一下总结
热门文章
- 计算机病毒的自述,电脑的自述作文500字
- Proxy SwitchyOmega安装和使用
- qq满屏飞吻代码_[爱情][飞吻][跳跳][爱心][嘴唇][玫瑰][月亮][礼物][拥抱]什么意思...
- Java Swing实用小工具开发
- 汉文化资讯社区(maven ,SSM ,MySQL)
- Java+MySQL基于Springboot+vue的汉服交流网站#毕业设计
- 程序设计与算法(三)期末考试之013:编程填空:三生三世
- 从零开始离线安装k8s集群
- 中国本土化编程 汉语编程 之我见
- Calendars and DateFormats should not be static