萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成特朗普!

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

还能让他愁眉不展、或是开口大笑:

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:
https://github.com/orpatashnik/StyleCLIP

论文地址:
https://arxiv.org/abs/2103.17249

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

推荐阅读

专治“炼丹侠”各种不服:1分钟就能搞个AI应用

竞拍AI教父Hinton

有奖问卷 | 智能汽车哪家强

你怎么看智能汽车呢?一个三分钟问卷,让我们看看现在智能汽车有多大的影响力了~ 填完问卷有抽现金红包的机会哦,据说中奖率还蛮高的~( • ̀ω•́ )✧

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

只要你一句话,马斯克就得留扫把头,项目已开源丨Adobe等出品相关推荐

  1. 马斯克放的卫星被曝3%已成太空垃圾,占资源位置,最坏还能“锁死”地球人...

    郑集杨 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 关于马斯克旗下SpaceX的"星链"(Starlink),令人担心的事情还是发生了. 之前轰轰烈烈一次次发射之 ...

  2. 同城预约二维码点餐会员多商户自助扫码搭建二开源码

    系统支持多店铺,支持外卖,堂食,扫码点餐.订单语音提醒等功能,每个商户拥有独立后台可以管理自己的店铺 用户端为H5. 考虑商户操作便捷还配有商户APP端 功能概述: 数据概况:今日交易额.今日付款数. ...

  3. 裁员吵架散摊子, 马斯克:我太难了;狠心开源一个舆情获取项目;特征工程跟调参一样简单了?!NeRF大佬直呼卷不动了;前沿论文 | ShowMeAI资讯日报

    ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向.点击查看 历史文章列表, ...

  4. 【20210409期AI简报】INT8加速训练方案、用树莓派打造的寄居蟹机器人

    导读:本期为 AI 简报 20210409 期,将为您带来 8 条相关新闻,今日二候田鼠化驾~ 本文一共 2300 字,通篇阅读结束需要 5~8 分钟 1. 只要你一句话,马斯克就得留扫把头,项目已开 ...

  5. HuggingGPT火了:一个ChatGPT控制所有AI模型,自动帮人完成AI任务,网友:留口饭吃吧...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 最强组合:HuggingFace+ChatGPT -- HuggingGPT,它来了! 只要给定一个AI任务,例如"下面这张图片里有什么 ...

  6. 支付宝支付-扫码支付详解

    此项目已开源欢迎Start.PR.发起Issues一起讨论交流共同进步 https://github.com/Javen205/IJPay http://git.oschina.net/javen20 ...

  7. 微信公众号开发之扫码支付

    此项目已开源欢迎Start.PR.发起Issues一起讨论交流共同进步 https://github.com/Javen205/IJPay http://git.oschina.net/javen20 ...

  8. js 自动分配金额_(2.4w字,建议收藏)??原生JS灵魂之问(下), 冲刺??进阶最后一公里(附个人成长经验分享)

    笔者最近在对原生JS的知识做系统梳理,因为我觉得JS作为前端工程师的根本技术,学再多遍都不为过.打算来做一个系列,一共分三次发,以一系列的问题为驱动,当然也会有追问和扩展,内容系统且完整,对初中级选手 ...

  9. HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务

    最强组合:HuggingFace+ChatGPT --HuggingGPT,它来了! 只要给定一个AI任务,例如"下面这张图片里有什么动物,每种有几只". 它就能帮你自动分析需要哪 ...

最新文章

  1. 计算机视觉已超越人类眼睛?腾讯优图与《科学》杂志全面解读
  2. 在android中监听呼出电话(电话拦截、修改呼出电话)
  3. 下血本!Facebook AI 20万美金举办“图像匹配”大赛
  4. python计算蛋白质的质量
  5. 小白用python处理excel文件-Python3操作Excel文件(读写)的简单实例
  6. Oracle 索引的失效检查
  7. IT招聘负责人:成功简历六大要素
  8. repair table accessright
  9. html字体图标显示不出来,h5页面字体图标显示不正常
  10. C-COT跟踪算法在OTB数据集上测试的接口函数
  11. Admin-UI分布式微服务监控中心
  12. 学生用计算机有哪些小游戏,学生时期:那些霸占你信息课的4款游戏,最后一款,你肯定玩过...
  13. 最新版codeblocks安装与汉化视频教程-自带编译器版
  14. Scrapy(二)翻页功能
  15. LiteCAD参考文档的学习四(单文本、多文本、弧形文本、光栅图像、图像引用、ECW/Jpeg2000 Image图像、填充图案、尺寸、引线)
  16. Winform运行后,界面尺寸与设计时不一样
  17. 【C++】复数域内的二次函数系数的求解
  18. BACKUP - Backup Files
  19. 【学者风采】Cong Wang(王聪)
  20. 通过修改注册表激活 Windows 操作系统

热门文章

  1. 如果想成为一名顶尖的前端,这份书单你一定要收藏!
  2. vs code设置支持jsx支持emmet
  3. Kotlin 一个好用的新功能:Parcelize
  4. #查找文件中是否有eee如果没有在最后加入
  5. Metasploit save命令技巧
  6. Xamarin Essentials教程设备信息DeviceInfo
  7. SQLite中的SELECT子句使用通配符
  8. iOS10 UI教程视图的生命周期
  9. 分享Kali Linux 2016.2第46周虚拟机
  10. 配置JDKAndroid 2D游戏引擎AndEngine