大数据文摘出品

来源:MIT

编译:杨威、张秋玥、宁静

对照片里的某个物品不满意怎么办?

很多人可能会想到P图,但是P图的效果...手残党可能无福消受,并且耗时耗力。

有没有一款应用或者软件可以在照片指定的位置很自然地编辑场景中的物体呢?

是的,又是GAN再一次不负众望,一家由麻省理工学院和IBM团队建立的“GAN 绘画工作室”,可以自动生成逼真摄影图像并编辑其中对象的系统。

先附上在线制作地址:

http://ganpaint.io/demo/?project=church

图片场景的编辑演示

上文给出的链接是GAN 绘画工作室在线交互平台,允许用户上传自选图像以从多种角度修改其外观——从更改对象的大小到添加全新的物体(如树木和建筑物),什么都可以哦,感兴趣的读者可以先尝试一番。

下图是文摘菌给出的示例图片,在平台中选择橡皮擦工具,选择图片中的chairs可以删除,得到Output result的生成图片,图片的无损、自然地还原让我们再一次对AI惊叹!

除了可以删除场景中的物体外,在线平台还支持物体的添加,如下图在选中的黄色区域中生成了一个窗户,输出图与原图相比并不是显得很突兀。

这么神奇,是怎么做到的?

透过现象看本质:揭开神秘面纱

在讲解这个系统实现前,先来简单介绍下GAN——生成对抗网络。

GAN是为内部网络相互对抗而开发的一组神经网络,从二人零和博弈中受到启发。在这种情况下,一个网络是逼真图像生成器,而第二个则是鉴别器(以保证不被生成器欺骗)。每次鉴别器认为生成器在骗人时,它都必须”说明“自己做出此判断的原因——这很有助于生成器不断提高自己骗人的本领。

这好像有点抽象,下面将解释具体的原理。很显然这个任务从原始的Input photo得到输出图片Out result,属于在原始图片的基础上生成新的图片,需要用到GAN强大的图像生成的功能。那么是如何生成的呢?

以上图为例,为了在图像X上执行语义编辑任务,需要执行以下三个步骤:

  1. 我们先用一个中间向量z=E(x)代表图像x;

  2. 然后使用ze=edit(z)向量表示诸如:移除、添加等改变图像语义的操作概念;

  3. 最后,我们从修改后的ze重新生成图像。

值得注意的是,通常输入图像x不能由发生器G精确生成,因此(c)使用生成器G创建编辑后的图像G(xe)将导致许多原始图像的细节和属性的丢失,发生器G生成的G(z),丢失了原始图像书桌旁边的柜子,后续操作只会导致“错上加错”。因此,为了生成图像,我们提出了新的最后一步(d)学习图像特定的生成器G',其可以产生在未编辑区域中与原始图像x无异的x'e = G'(ze)。

这种策略具有可行性,但在技术上任然面临两大挑战,列举如下:

  1. 很难找到一个潜在的中间向量z,使得可以利用深度生成模型生成G(z)来捕获图像的视觉内容;上图中的(b)只不过是(a)图的粗略表达;

  2. 在一系列操作之后,来自生成模型的新合成像素通常与现有图像内容不相容,这使得新内容拼接成原始图像的背景具有挑战性。

在相关论文中提出使用图像特定的自适应方法解决了上述两个问题。关键点是学习图像特定的生成模型G'≈G,此模型产生的图片高精度的还原了输入图像x,如上图(d)所示,并且使 x ≈ G ′ (z)在图像的编辑区域之外。

Bau,Strobelt,Torralba和Zhu与前CSAIL博士生Bolei Zhou,博士后助理Jonas Wulff和本科生William Peebles参与撰写了相关论文,感兴趣的读者可展开后续研究。

附上论文地址:

http://ganpaint.io/Bau_et_al_Semantic_Photo_Manipulation_preprint.pdf

会有bug吗?能在空中画窗户吗?

答案是不会。

这一研究有一项意外的发现:系统似乎学会了一些关于物体之间关系的简单规则。它知道有些物体不属于某些特定场景,比如窗户就不该在天空中。它还知道如何创造不同场景的视觉效果。例如,如果图像中有两栋需要系统为之添加门的建筑,它不会简单地添加相同的门,而是非常不同的两扇门。

“所有绘图应用程序都会遵循用户指令,但我们这个不一样。如果用户让它把一件物体放在完全不合适的地方,它可能会拒绝哦。”,Torralba说。“这是一件个性鲜明的绘图工具。它为我们打开了一扇窗户,让我们理解GAN是如何学会绘画的。”

“这项工作帮助我们直观地看到GAN真的开始‘理解’常识性知识了,这真是让人兴奋呢。“,芬兰阿尔托大学副教授Jaakko Lehtinen说。“这项能力对于搭建最终能够自主运行的系统真的很关键——毕竟人类世界复杂多变,具有无限可能性。”

仅仅是为了编辑图像?NO!

麻省理工学院教授安东尼奥·托拉尔巴(Antonio Torralba)是MIT-IBM沃森人工智能实验室的牵头人。他指出该项目具有巨大的潜在应用价值。

应用1:影视视频场景的编辑

设计师和艺术家可以使用它来更快地调整他们想要的视觉效果。而对系统做出一些改进使其适应视频剪辑的话,则将帮助计算机图形编辑器快速组成特定镜头所需对象的特定排列。想象一下这样一个应用场景吧:如果一位导演拍摄了演员的完整场景,但忘记了在背景中包含一个对剧情很重要的东西,这个项目就能派上用场啦。

应用2:剔除 “假”图像

IBM的研究科学家Hendrik Strobelt说:“从前,每当GAN产生非常不切实际的图像时,这些错误的来源就是一个谜。”。“我们发现这些错误是由特定的神经元触发的,我们可以剔除它们以提高图像的质量。”

“知己知彼,百战不殆。”这位CSAIL的博士后说。“这种理解可能有助于我们更轻松地检测假图像。”

为了开发该系统,该团队首先确定了GAN内部与特定类型的对象(如树木)相关的单元。随后对这些单元进行单独测试,看看它们存在与否是否会决定某些物体是否出现。重要的是,他们还确定了导致视觉错误的单元,并努力将其移除以提高图像的整体质量。

该团队的目标是让人们更好地控制GAN网络。但是他们认识到,随着权力的增加,滥用的可能性也将大大增加——允许医生使用这些技术来拍摄照片就是一个潜在的例子。合作者Jun-Yan Zhu表示,深入了解GAN以及其所犯的错误将非常有助于研究人员更好地消除伪造图像。

带来的反思

通过分析需要删除的“工件”单元,GAN 绘画工作室还可用于改进和调试正在开发的其他GAN。在这个AI工具的原理并不清晰却使图像处理比以往更容易的时代,它可以帮助研究人员更好地理解神经网络及其底层结构。同时研究人员也有提到,“这个系统为更好地理解GAN模型打开了一扇大门,这将有助于我们对GAN进行多方面的研究。”

其他功能如图片中的风格切换功能还未成熟应用,如下图中改变真个树木的色调以呈现不同的季节:

“目前,机器学习系统其实就是一些我们并不总是知道如何改进的黑盒子。这就有点像那些你不敲一下就不会出声儿的旧电视机,”,主笔写过一篇关于这个系统的文章的Bau说。 “这项研究表明,虽然拆开电视研究一下里面都有些啥可能会让人望而生畏,但那真的能够提供许多有用信息的。”

AI越来越“智能”,这背后带给我们什么反思呢?读者可以在后台留言交流。

相关报道:

https://www.csail.mit.edu/news/teaching-ai-create-visuals-more-common-sense

一键空中“画”窗户!MIT和IBM联合发布“GAN 绘画工作室”相关推荐

  1. 让神经网络给符号AI“打工”,MIT和IBM联合解决深度学习痛点,未来将用于自动驾驶...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 现在的AI是神经网络的天下,但科学家们正在尝试将神经网络与"老式AI"结合. 这里说的"老式AI" ...

  2. 每日新闻:百度首个无人驾驶运营项目落户武汉;微软叫停Linux专利战;网易携手芬兰电信Elisa;瑞星华为联合发布云安全解决方案...

    关注中国软件网 最新鲜的企业级干货聚集地 今日热点 Gartner发布2018年第二季度全球服务器市场报告 日前,国际权威研究机构Gartner发布了2018年第二季度全球服务器市场报告,报告显示,在 ...

  3. 【每日新闻】致远互联与360企业安全集团联合发布国内首份协同安全白皮书 | 金山WPS发布内容生态战略

    每一个企业级的人  都置顶了 中国软件网 中国软件网  为你带来最新鲜的行业干货 小编点评 我们希望邀请更多的生态伙伴 共同探讨 共同行动 2018年4与人25日 北京站,不见不散! 趋势洞察 生态视 ...

  4. 中移物联与阿里云IoT联合发布“中移天枢”智能云模组 全面接入AliOS Things

    8月24日,在2018云栖大会·重庆峰会上,中国移动全资子公司中移物联网有限公司与阿里巴巴旗下阿里云IoT宣布达成重大合作,双方将联合发布"中移天枢"智能云模组,全面接入阿里云Io ...

  5. 构建第三代人工智能核心能力,清华、阿里、RealAI等联合发布最新AI安全评估平台

    科技是发展的利器,也可能成为风险的源头.近日,张钹院士在智源大会上表示,AI的发展带来了科技是发展的利器,也可能成为风险的源头.近日,张钹院士在智源大会上表示,AI的发展带来了新的风险和安全隐患. 在 ...

  6. 数据科学教育白皮书联合发布!顶级数据人才成长路径

    Datawhale原创 联合发布:和鲸科技.腾云大学.AWS.Datawhale 寄语:为什么要加快推进高校的数据科学教育?数据科学的知识体系包括哪些内容?数据科学人才的成长路径及教育方法论?我们希望 ...

  7. Nature封面:IBM团队发布“AI辩论家”最新研究进展、Insitro创AI制药领域单笔融资金额记录 | AI日报...

    AI制药公司Insitro完成4亿美元的C轮融资,创AI制药领域单笔融资金额记录 近日,AI制药公司Insitro宣布完成 4 亿美元的 C 轮融资,成为全球 AI 制药领域单笔融资金额最高的公司.本 ...

  8. 微软研究院和清华大学联合发布 “开放学术图谱(OAG)2.0版本”

    来源:微软研究院AI头条 本文约3000字,建议阅读5分钟. 本文为你介绍了最新发布的开放学术图谱2.0版本. [导 读]开放学术组织(Open Academic Society)是由微软.清华.艾伦 ...

  9. 短信升级为5G消息?三大运营商联合发布的《5G消息白皮书》说了啥?

    来源:帮尼资讯 5G时代来临,基础消息服务迎来全新变革. 4月8日上午10时许,中国电信.中国移动.中国联通联合举行线上发布会,发布<5G消息白皮书>. <5G消息白皮书>的发 ...

最新文章

  1. MongoDB是个好东西,希望你也会
  2. Hadoop学习笔记:MapReduce框架详解
  3. JavaScript 经常忽略的 7 个基础知识点
  4. DF标志和串传送指令
  5. php要掌握的内容,入门PHPer需要掌握的哪些内容?
  6. Python二级基础知识点
  7. 开源的“谷歌AutoML杀手”来了
  8. java注释指导手册
  9. 2019中国基金业金融科技发展白皮书
  10. 读完本文你就了解什么是文本分析
  11. Hive-3.1.3安装配置运行
  12. pos共识机制_共识机制:权益证明机制(POS)
  13. ldc服务器销售,ldc云服务器源码
  14. Yarn Web页面 8088 端口在Windows浏览器无法访问
  15. 获取html中光标位置
  16. 我的2007-高开低走,无甚成就
  17. [源码学习][知了开发]WebMagic-总体流程源码分析
  18. 解决电脑速度慢的问题
  19. 我天!中国科技原来有桎梏!道翰天琼认知智能机器人API平台接口为您揭秘。
  20. SpringBoot实体类返回JEON属性值排空返回

热门文章

  1. sql语句添加表字段
  2. 美颜SDK磨皮功能算法以及代码分析
  3. Python使用Web API数据可视化
  4. AI语音智能声控跑步机方案/案列/APP/小程序/网站
  5. python——实现数据去重
  6. typescript学习之路(四) —— ts类的继承(包含es5以及es6的类继承)
  7. Unity部署的EXE文件双击后没有任何反应(Crash)--Q盾这个坑!
  8. 购物车(七)-计算商品总价——计算总价-计算属性 数据缓存api-wx.setStorageSync()方法
  9. 魅族的colorPrimaryDark的特殊性
  10. 【PPT008】过渡页模板(含资源下载和制作教程)