论文Express | 英伟达最新:多模态无监督图像迁移网络框架
不久前,文摘菌给大家分享了一篇Ian Goodfellow的论文,教大家如何把一张哈士奇的图像硬生生的AI成一只猫咪,论文的结果确实会让人傻傻分不清楚,点击这里查看相关内容。
然而,今天的这篇论文效果更棒!先上两张图片:
当你养了一只哈士奇觉得不过瘾的时候,你可以AI出四只小猫咪,让它们一起陪你玩耍。
用一张猫咪的图像生成老虎、狮子或者豹子等其他猫科动物的图像!
用一张猫咪的图像生成小柯基、萨摩耶或者二哈的图像!
当然你也可以用豹子的图像生成萨摩耶、二哈或者小柯基的图像……
这种连PS大师都没见过的方法就是由康奈尔大学的Xun Huang(他同时在英伟达实习)等人提出的多维无监督图像迁移网络框架实现的。
在大数据文摘后台回复“迁移”下载论文~
以下是论文部分内容,文末有代码链接哦~
无监督图像迁移网络是计算机视觉领域的一个技术难题,即给定一张源域图像,如何在没有其他图像样本的情况下,学习相应目标域图像的条件分布。当处理多维条件分布时,现有的方法是在过度简化的假设条件下,通过绘制源域图像和确定的、一对一的目标图像来进行建模。
然而,上述方法无法用来生成给定源域图像的多种多样的目标图像。因此,本文提出了一种多维无监督图像迁移网络框架。
本文中假定代表图像可以被分解成域不变的内容代码,并能捕获特定于域的属性。为了能将图像迁移到另一个域中,本文通过对任意目标域图片的风格空间进行采样,并利用获得的风格代码生成内容代码。
论文方法
▲论文方法
上图说明了论文提出方法,首先将每个域Xi中的图像进行编码后放入一个共享的内容空间C和特定于域的风格空间Si,每个编码器还有逆向解码功能。
其次,为了把域X1中的图像(例如一只美洲豹)迁移到域X2中(例如各种家猫),我们在目标风格空间(家猫风格)使用随机的风格代码重组了输入图像的内容代码,不同的风格代码生成不同的输出结果。
相关算法
为了实现上述随机风格迁移,本文参考了下列相关算法:
生成对抗网络(GANs)
本文中,通过参考目标域的真实图像,使用GANs调整了迁移图像的分布细节。
图像迁移
在计算出每个域中图像的风格和每个风格对应的样本个数后,我们将每种风格作为一个单独的域进行处理。并使用多域图像迁移学习绘制每个风格对图像,进而实现多维迁移。
风格迁移
本文借助图像的内容特征和风格特征,提出的模型解决了单一样本的目标风格迁移和由图像集才能生成目标风格的弊端。
非耦合表示学习
本文受到了最近兴起的非耦合表示学习(disentangled representation learning)框架的启发。虽然很难定义图像的内容和风格,而且不同的图像要使用不同的定义,因此,我们将内容定义为下属空间,将风格定义为底层空间。
论文模型
▲论文模型
本文图像迁移由两个自动编码器组成(上图中分别用红色和蓝色箭头标注),每个域中都有这两个自动编码器。每个自动编码器的隐式代码分别由内容代码c和风格代码s组成。
用对抗对象(上图中的虚线)对模型进行训练以保证生成的迁移图像和目标域的真实图像别无二致。同时也用双向重构对象(上图中的点滑线)对模型进行了训练,以保证图像和隐式代码之间的双向重构。
▲自动编码器的结构
上图为本文中自动编码器的结构。它由内容编码器、风格编码器和联合编码器组成。
评价指标
论文中使用了下列指标来评估模型性能:
个人偏好
LPIPS距离
条件初始得分(Conditional Inception Score,CIS)
实验结果
此外,该方法还能根据图像中物体的轮廓生成迁移图像。
▲轮廓迁移(拯救淘宝卖家的神器!)
上图中,输入图像为一只女士皮鞋的轮廓,GT是皮鞋的真实图像3,该模型可以根据图像中物体的轮廓进行图像迁移。
在第三行,当输入一张皮鞋的真实图像,该模型可以生成皮鞋的轮廓,即实现逆向迁移。
原文发布时间为:2018-04-17
本文作者:文摘菌
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。
▲动物图像迁移
视频中,该模型成功的实现了一类动物向另一类动物的图像迁移。当输入一张给定图像时,可以生成多种迁移图像。生成的迁移图像中动物的形状发生了明显的改变,但是它们的表情保持一致。
该模型还可以实现高分辨率的风景图像迁移。
▲风景图像迁移
论文Express | 英伟达最新:多模态无监督图像迁移网络框架相关推荐
- 英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换
林鳞 编译整理 量子位 出品 | 公众号 QbitAI 英伟达最近的一项研究看起来有点神奇. 一张普通的猫咪图像,可以被转换成一只老虎.一头狮子或一只美洲豹. 还是一张普通的猫咪图,还能被转换成 ...
- StyleGAN3重磅发布!皮肤、毛发不再粘屏幕,还能360度旋转!英伟达最新开源
转载自:AI科技评论 作者 | 琰琰.青暮 太狂野了! 你永远不知道StyleGAN的想象力可以有多强大. 刚刚英伟达最新推出的升级版StyleGAN 3,因为一组合成艺术作品刷爆Twitter,不少 ...
- 独家解析英伟达最新GPU-A100对AI行业带来的影响
最近英伟达发布了最新GPU-A100,当我们先后经历了K系列.M系列.P系列.V系列之后,这一次的A系列发布又会带来哪些影响,未来行业的走势如何,新入行的同学究竟选择哪个领域入门比较合适.今天我将从3 ...
- 震撼!英伟达用深度学习做图像修复,毫无ps痕迹
在计算机视觉研究领域,NVIDIA常常让人眼前一亮. 比如"用Progressive Growing的方式训练 GAN,生成超逼真高清图像","用条件 GAN 进行 20 ...
- python视频处理框架_英伟达推出适用于Python的开源视频处理框架
NVIDIA推出了适用于Python的开源视频处理框架"VideoProcessingFramework"(VPF).据悉,VPF是一组开源的C ++库和Python绑定,可与其封 ...
- 英伟达最新发布NVRadarNet:基于纯Radar的障碍物和可行驶区域检测
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章转载自动驾驶之心 NVRadarNet:基于纯Radar的障碍物和可行驶区域检测 论文地址:htt ...
- 英伟达最新linux驱动程序,英伟达Linux版显卡驱动 v340.32最新稳定版下载
7月底,英伟达为Win7/Win8.1平台送来最新公版显卡驱动,进一步增强游戏体验.现在,开源系统Linux也迎来这项显卡驱动福利.近日,英伟达为Linux平台带来一款最新稳定版公版驱动v340.32 ...
- 语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本 | 资源帖...
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 由于和英伟达研究撞车,韩国一位研究语音合成的作者已经哭晕了. 10月31日,英伟达在arXiv网站上传了一篇论文--WaveFlow:一个用 ...
- 英伟达最新公布的眼球追踪技术
[转] https://www.leiphone.com/news/201607/HaIUFO0MiSbjVE67.html 人眼能看到的范围是有限的,如果你看着黑板上方的挂钟,那么你的目光聚集的地方 ...
最新文章
- word 数组 转 指针_Word之VBA丨文档中的图片怎样批量加边框?
- tab s6 linux on dex,S Pen + DeX模式 三星Galaxy Tab S6让你秒变办公达人
- vectorobserver obs是做什么_带着色碳纤维主体的OBS雪佛兰皮卡
- docker自动部署
- roscore尚未安装 问题解决方案
- linux之路由知识之ip route 命令中的疑惑
- ScrollView 里面嵌套 listview 使得listview只显示一行问题解决
- access游戏库不显示 ea_EAAccess服务Steam平台售价一览 EAAccess服务常见问题解答
- 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》...
- 服务器 配置描述文件,配置MDM的描述文件
- 去痘痘、痘坑的五大误区
- 智慧社区中的物联网产品应用
- Service Mesh 框架选型对比分析:Linkerd、Envoy、Istio、Conduit
- PAKDD 2019 都有哪些重要看点?看这篇文章就够了!
- 天融信防火墙保存配置_天融信防火墙配置备份 飞塔防火墙配置手册
- linux文件查找操作
- 令人唏嘘!谷歌这10年来究竟砍掉了多少项目和产品?
- 客运行业发展现状分析
- RGB转8色16色256色
- 附录:15个创新世界119座城整体规划与核心思想