作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

图像翻译通常要解决两个问题:将原域图像翻译至目标域并且翻译后的图像和原域图像保持相似性。我们利用 GAN 可以很好的解决第一个问题,而针对第二个问题大多数模型都是通过限制生成器来实现,比如在生成器某层中使用跨域权重耦合或者设计循环一致性损失等。但是限制生成器可能不仅会影响模型的多样性而且还会阻止模型学习某些必要映射。

因此作者提出了利用三个网络来进行图像翻译:Generator, Discriminator 以及 Siamese,其中前两个网络主要解决将原域图像翻译至目标域的问题,Siamese 网络用于学习图像高级语义特征从而保证翻译后的图像与原域图像相似。

模型架构

TraVeLGAN 主要依赖于三个网络,其模型架构如图 1。其中 Generator 和 Discriminator 与之前大多数基于 GAN 的图像翻译模型类似,都是基于 U-Net 架构来将原域图像翻译至目标域图像,Siamese 网络用于提取图像的高级语义特征。

▲ 图1. TraVeLGAN模型架构

对于 Siamese 网络而言其希望可以保证原域任意图像间的高级语义特征差:与对应翻译后图像间的高级语义特征差保持一致,即:

作者将定义为模型的翻译向量,这部分的损失函数如下。不同于 Generator 和 Discriminator 之间互相对抗的关系,这里的 Siamese 和 Generator 是互相协作的,它们都希望能最小化损失。

为了避免 Siamese 网络偏向于学习使损失为 0 的情况,其还必须保证每个点至少与潜在空间中的其他点相距 δ,即,因此模型整体的的损失函数如下,对于鉴别器而言其仅优化对抗损失即可。

实验结果

作者主要针对传统图像翻译模型经常采用的 Apples to oranges, Van Gogh to landscape photo, Sketch to shoe 等异构性不大的数据集进行对比实验,另外也选取了 ImageNet 中 abacus, crossword, volcano, jack-o-lantern 等异构性较大的数据集进行实验。

▲ 图2. 相似域翻译的实验结果

对于相似域间的图像翻译效果的评估,作者使用了 SSIM 结构相似性来衡量,结果如表 1 所示,其中主要的对比实验是 CycleGAN 及其变种,可以看出对于相似域间的图像翻译 TraVeLGAN 可以达到和 CycleGAN 类似的效果,也就是我们完全可以不对生成器进行限制就能达到良好的翻译结果,如图 2 所示。

▲ 表1. 相似域间的 SSIM 得分

对于强异构性的图像翻译,作者发现加入 Siamese 网络后 TraVeLGAN 可以学习到更高级的语义特征。如图 3 所示,TraVeLGAN 可以将算盘中的黑色珠子映射到填字游戏中的黑/白方块中,而 CycelGAN 仅能学习到将黑色珠子映射为白色方块,即在强异构性的图像翻译中 TraVeLGAN 比 CycelGAN 能产生更合理更多样的输出结果。

▲ 图3. TraVeLGAN vs CycelGAN

由于强异构性域图像翻译的目标不再是希望翻译后的图像和原域图像相似,因此作者采用了 FID 得分以及鉴别器得分来衡量模型效果,由表 2 可以看出相比 CycelGAN 及其变种 TraVeLGAN 对于强异构性域的图像翻译效果更好,具体效果如图 4 所示。

▲ 表2. 强异构型域间 FID 得分

▲ 图4. 强异构性域间翻译效果

总结

目前绝大多数的无监督图像翻译都是通过限制生成器来保证翻译后图像与原域图像的相似性,而这种限制可能会影响模型的表达能力,限制其翻译的多样性。作者发现加入 Siamese 网络可以帮助模型在不损害原有翻译能力的前提下进行强异构型的图像翻译,并且能有效的指导生成器生成更加合理逼真的结果,这无疑为之后更加灵活的图像翻译模型设计提供了新的思路。

点击以下标题查看更多往期内容:

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

CVPR 2019 开源论文 | 基于翻译向量的图像翻译相关推荐

  1. CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...

  2. CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架

    作者丨白亚龙 单位丨京东AI研究院研究员 研究方向丨表示学习.图像识别 基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimi ...

  3. CVPR 2019开源论文 | Rob-GAN:生成器、鉴别器以及对抗攻击者

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 研究动机 自 2014 年 Goodfellow 等人提出生成式对抗网络 (Generative Adversarial Networks, ...

  4. CVPR 2019 开源论文 | 针对未知目标领域的通用领域适配方法

    作者丨游凯超 学校丨清华大学软件学院本科生 研究方向丨迁移学习和领域适配 这篇论文发表于 CVPR 2019,是我们团队(清华大学龙明盛副教授的团队)在领域适配问题设定方向的最新探索:我们将领域适配问 ...

  5. CVPR 2019 | INIT:针对实例级的图像翻译

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 研究动机 近年来关于图像翻译的研究越来越多,其中比较经典的有监督模型包括 Pix2Pix, BicycleGAN 等,无监督模型包括 Cyc ...

  6. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量.并且大多数研究将实体映射到低维空 ...

  7. ACL 2019 开源论文 | 基于知识库和大规模网络文本的问答系统

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 当前问答系统面对的一大问题就是如何利用先验知识.我们人类可以通过不断的学习,掌握非常多的先验知识,并通过这些知识来回答问题. ...

  8. ICCV 2019 开源论文 | 基于元学习和AutoML的模型压缩新方法

    这篇文章来自于旷视.旷视内部有一个基础模型组,孙剑老师也是很看好 NAS 相关的技术,相信这篇文章无论从学术上还是工程落地上都有可以让人借鉴的地方.回到文章本身,模型剪枝算法能够减少模型计算量,实现模 ...

  9. ACL 2019开源论文 | 基于Attention的知识图谱关系预测

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 由于传统方法都将三元组进行独立的处理,忽略了其相邻的三元组之间隐藏的固有信息的缺点,使得无论是转化模型还是较新的基于卷积神 ...

最新文章

  1. 《连线》杂志:2015年六大安全威胁预测
  2. 深度学习在工业推荐如何work?Netflix这篇论文「深度学习推荐系统Netflix案例分析」阐述DL在RS的优劣与经验教训...
  3. NSCTF-部分题目wp
  4. android touch事件坐标原点,Android onTouch事件与手势操作
  5. UI设计中的黄金分割率,实用案例适合临摹学习
  6. 模式搜索的KMP算法详解与C语言代码实现
  7. 简述计算机控制系统调试和运行的过程,简述计算机控制系统的一般控制过程
  8. Windows Server_2008下搭建个人下载服务器(FTP)
  9. 【操作系统】—进程同步和进程互斥
  10. centos7实现Linux和Windows共享
  11. matlab file(i).name,求大佬帮忙备注一下,有点看不懂,详细一点
  12. 陆振波的svm的matlab代码的解释,陆振波SVM的MATLAB代码解释
  13. Windows Server 2008 R2 企业版操作说明手册
  14. CentOS下切换桌面模式与命令行模式
  15. Mysql Schema优化
  16. ArcGIS API for Silverlight 绘制降雨路径动画
  17. springboot+Knif4j 部分配置
  18. 【Linux】Linux多线程(上)
  19. 清华大学期末复习方法
  20. 爱奇艺数据中台建设方案

热门文章

  1. 温故之 “快速排序”
  2. oracle查询重复数据出现次数
  3. 利用mvc 模型绑定验证方法验证普通类对象数据是否合法
  4. csu 1548: Design road (三分)
  5. Struts1 中的 global-forward
  6. Java泛型之泛型参数
  7. 如何做一个优秀的销售代表
  8. 解析oracle的rownum
  9. adaboost算法java_Adaboost 算法实例解析
  10. python函数五要素_Python安装及关键要素