作者︰Nathan Horrocks
翻译︰Gabriel Ng
校对:张睿毅本文约3300字,建议阅读5分钟
本文为大家介绍了如何利用AI进行高精度图像编辑。

处理猫咪、汽车、甚至是古董画的照片,对于这项工作的需求,在以前从未能像现在一样容易被满足,这归功于一个生成对抗网络 (GAN) 模型,叫做EditGAN。这项工作出自NVIDIA、多伦多大学和麻省理工学院的研究员们,部署自 DatasetGAN (一个人工智能视觉模型,训练只须用少如 16张人工注释的图像,性能虽然和其他方法一样高效,但其他方法需要100倍更多的图像。EditGAN 有先前模型提供的强大功能,并赋能用户去处理或操控想要的图像,例如绘图,所用的命令很简单,且原始图像质量不降低。

什么是EditGAN?

根据这篇论文

(https://arxiv.org/pdf/2111.03186.pdf):EditGAN 是第一个 GAN 驱动,图像编辑的框架,这个框架同时提供如下功能:

  • 非常高精度的编辑;

  • 仅需要非常低注释的训练数据(并且不需要外界的分类器);

  • 可以实时运行并互动;

  • 允许直接组合多次编辑;

  • 可处理实时嵌入图像、GAN生成图像、甚至超出设定范围的图像。

本模型学习一个定量的编辑向量,这个向量可以在一个图片上多次带反馈地施加。本质上,它形成了一个针对图像集和它们的内容的直观理解,这个直观理解可以被用户权衡使用,在各种特定的修改和编辑中。本模型的学习来源是相似的图像集,它能够识别不同组成部分以及图像内物体的特定部分。一个用户能利用这点,去定向修改不同分块,或者在特定区域内进行编辑。本模型的精确度使得图像不会被用户所设参数之外的因素导致失真。

Fig 1 EditGAN在工作中,模型中训练的人工智能允许用户对原始图像进行改变,有时很戏剧性

“该框架允许我们学习编辑向量时,向量的数量能随意设定,这使得之后这个编辑向量能在其他图像上用互相反馈的方式直接适配。”研究人员在他们的研究中解释道。“我们用实例展示了EditGAN 可能会以之前达不到的程度操控图像的细节和自由度,同时还能保持图像质量完整。我们还可以轻松地合并多个编辑,并做出在 EditGAN 的训练数据中没有的合理编辑操作。我们在多变的图像类型上展示了 EditGAN的优势,并量化分析了它在标准编辑里面的参考线任务中,比之前的几种编辑方法的超水平发挥程度。”

从添加各种微笑、改变某人注视的方向、创造一种新发型,到给汽车一套更好的轮子,研究员展示了究竟一个模型用最少的数据标注量可以逼出多少内在要素。用户可以绘制一个简图,或把想要编辑的部分做一一映射,引导 AI 模型理解修改任务,例如猫耳朵增大或汽车前照灯更酷。这个AI之后渲染图像,同时维持高准确性并保持原始图像的质量。之后,同样的编辑可以应用到其他实时图像上。

Fig 2 一个例子,像素分配到图像的不同部分。AI发现该不同部分并根据人工输入作出编辑

这个GAN的运作原理是?

EditGAN 给图像的每个像素赋值一个类别,例如轮胎、挡风玻璃或车架。这些像素要控制在 AI 当前的空间内,并且这些像素要基于用户输入调整,让用户有轻松,灵活地编辑这些类别的空间。EditGAN 处理仅和所需更改相关的像素。AI了解每个像素的表意是通过模型训练中的其他图像,因此你试不出来这种情况:把猫耳朵加到汽车的图像上,之后AI准确识别出结果。但是当模型正确的情况下,EditGAN 表现非常棒,提供出色的图像编辑结果。

Fig 3 EditGAN能够训练一系列类别的图像集,从动物系列到环境系列的广泛范围,可以使得它形成对内容的细节性理解

EditGAN的潜力

人工智能驱动的编辑照片和图像有可能使得摄影师和内容创作者的工作流更加清晰,将创新和数字艺术赋能到新高度。EditGAN 也赋能入门的摄影师和编辑师,产出高质量内容,或少见的疯传模因(爆款)。

“本人工智能可能会改变我们编辑的方式,不仅关于图片,可能最终也关乎视频。它允许一个人获取图像,并使用简单的文本命令对其更改。如果你有包含一辆汽车的一张照片,并且你想让车轮更大,只需输入“让车轮更大”,噗!—— 一张图片,完全像照片,里面还是那辆车,轮子更大。”– 财富杂志

EditGAN 可能也会未来被用于其他重要的应用上。比如,EditGAN 的编辑能力可以用作:生成大型数据集,包含一些既定特征。此类定制数据集能起到很大作用,比如训练低层次机器学习模型处理不同的计算机视觉任务。

此外,EditGAN 框架可能会影响未来几代 GAN 的发展。虽然当前版本的 EditGAN 专注于图像编辑,但类似的方法也可潜在地被用于编辑 3D 形状和物体,该能力将会高可用地创建虚拟 3D 内容,在游戏、电影或元宇宙领域。

想深入了解有关这种神奇方法的更多信息,请查看论文https://arxiv.org/pdf/2111.03186.pdf。

英伟达始终站在技术的最前沿,请查看英伟达研究院(https://www.nvidia.com/en-us/research/),了解更多创新研究。

原文链接:

https://developer.nvidia.com/blog/high-precision-image-editing-with-ai-editgan/

原文标题︰

High-precision Image Editing with AI: EditGAN

编辑:王菁

校对:龚力

译者简介

Gabriel Ng,清华大学概率统计方向本科生在读,一个热爱于数据分析和语言学习(和音乐)的THUer,平日活动离不开学习、健身和音乐。喜欢从数据探勘各类问题的本质,从语言认识不同文化的故事。希望通过学习和经验的累积,能以不同的角度,理性地分析问题,感性地认识问题。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 利用AI进行高精度图像编辑︰EditGAN(附链接)相关推荐

  1. 开学综合症有救了!17篇最新AI论文不容错过(附链接)

    来源:PaperWeekly 本文多干货,建议收藏. 本文为大家准备了最新AI领域的论文. @jingyihiter 推荐 #Text Generation 本文来自国防科大和微软亚研院,文章提出 p ...

  2. 脑洞大开!未来学家预测未来变迁,中国将成世界AI培训中心!(附链接)

    来源:新智元 本文约6200字,建议阅读10分钟. 未来5年.50年.500年后的世界会是什么样?本文脑洞大开带你一看究竟. [ 导读 ]新的数字达尔文主义开始.中国成为世界AI训练中心." ...

  3. 独家 | 如何手动优化神经网络模型(附链接)

    翻译:陈丹 校对:车前子 本文约5400字,建议阅读15分钟 本文是一个教授如何优化神经网络模型的基础教程,提供了具体的实战代码供读者学习和实践. 标签:神经网络优化 深度学习的神经网络是采用随机梯度 ...

  4. 干货 | 20多门AI网络课程资源(附链接)

    现如今,在火爆的人工智能领域,面临的最窘迫的问题是越来越庞大的产业规模和国家每年约500万的相关人才需求的矛盾.广阔的发展前景.巨大的人才缺口和令人心动的行业薪资,让越来越多的年轻人选择了进入这一行业 ...

  5. 独家 | Python中的SOLID原则(附链接)

    作者:Mattia Cinelli翻译:朱启轩校对:欧阳锦本文约3500字,建议阅读15分钟本文通过一些Python示例代码介绍了可以提高代码可靠性的SOLID编码准则. 标签:数据结构,编程,数据科 ...

  6. 独家 | 贝叶斯信念网络初探(附链接)

    作者:Jason Brownlee 翻译:陈超 校对:欧阳锦 本文约3500字,建议阅读8分钟 本文共分为5部分,从概率模型的挑战.概率模型--贝叶斯信念网络.如何建立和使用贝叶斯网络.贝叶斯网络范例 ...

  7. (附源码连接)利用AI将2D照片合成3D场景

    利用AI将2D照片合成3D场景 新的 NVIDIA NGP Instant NeRF 很好地介绍了神经辐射场的入门. 在短短一个小时内,您就可以编译代码库.准备图像并训练您的第一个 NeRF. 与其他 ...

  8. 独家 | OpenCV1.12 对极几何和立体视觉简介(附链接)

    作者:Kaustubh Sadekar 翻译:黄瑞迪 校对:张玲本文约6500字,建议阅读15分钟本文将使用OpenCV和立体视觉来赋予计算机这种深度知觉能力. 你是否曾经好奇过,为什么你带上特制的3 ...

  9. 神奇!大神利用AI修复古董纪录片,还原1920年的京城生活

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推 ...

最新文章

  1. pika-NoSQL原理概述
  2. hdu 2045(递推)
  3. mysql guid_MySQL – 自动增加到guid
  4. VS2017中的附加到进程
  5. Android 百度推送使用总结
  6. opencv表面缺陷检测_机器视觉表面缺陷检测 光学元件瑕疵检测
  7. 软考软件设计师考试总结(2018上半年)
  8. linux mysql dengl_linux环境搭建(四)--MYSQL
  9. datagrip切换视觉主题
  10. 计算机应用基础课程整体设计说课视频,关于计算机应用基础课程说课设计.doc...
  11. MySQL学习篇(一 安装)
  12. 需求DNA检测:如何判断一个功能是否值得做
  13. 三年前端开发面试经验加感悟(干货分享)
  14. FANUC数控系统类有哪些最新发表的毕业论文呢?
  15. 【实现网站用户登录业务功能】
  16. selenium 上传下载调用windows窗口--AutoIT
  17. 基于SSM框架的人力资源管理系统的设计实现(附源码、论文)
  18. 别以为“质量门”是惠普的专利!
  19. “蚁”小见大,数据告诉你《蚁人2》是否值得一看
  20. 【数据结构与算法】详解 “清华大学(考研)OJ题”_ 二叉树重要面试OJ题

热门文章

  1. 【c语言】蓝桥杯算法提高 填充蛋糕
  2. appcontroller.php,php用什么开发app接口
  3. Airflow安装部署
  4. 搭建高可用web和数据库集群
  5. PCL中的OpenNI点云获取框架(OpenNI Grabber Framework in PCL)
  6. SPOJ220 Relevant Phrases of Annihilation(后缀数组)
  7. php case语句 分号
  8. PHP 神盾解密工具
  9. 使用Mahout搭建推荐系统之入门篇3-Mahout源码初探
  10. android Unable to add window -- token null is n...