点击上方,选择星标置顶,不定期资源大放送

阅读大概需要5分钟

Follow小博主,每天更新前沿干货

「求帮忙把背景 P 成五彩斑斓的黑,可以吗?」

有人认为,自然语言将是软件的下一代接口:你有什么需求,「告诉」它就行了,剩下的不用你管。这种「动动嘴皮子就能把事儿办了」的场景似乎也越来越多。

在最近的一篇论文中,来自希伯来大学、特拉维夫大学、Adobe 等机构的研究者提出了一种名为「StyleCLIP」的模型,几乎可以让你动动嘴皮子就把图修了。

这里用「几乎」是因为研究者给出的接口其实还是文字版的。如下图所示,如果你想让一只猫看起来可爱一点,只需要输入「cute cat」,模型就能够把猫的眼睛放大,同时改变其他影响其可爱值的特征。

利用这个界面,你还可以改变图中人物的发型、性别等特征。

这一技术有着广泛的应用前景,比如帮短视频、图片 APP 打造一个能听懂人话的滤镜。无论你是想祛痘还是放大眼睛,只需要跟软件说一声就行了。

在作者栏,我们还看到了 Adobe 研究者的身影。如果 Adobe 将其加入 Photoshop,我们或许就不用自己动手修图了。

Standard Cognition(美国的一家自动结算解决方案提供商)联合创始人 David Valdman 指出,语言可能会是软件的下一代接口。

为了支持这一断言,他还收集了最近的一些话题、研究作为证据,比如特斯拉 AI 高级总监 Andrej Karpathy 等人讨论用自然语言给大模型下达指令;MIT 的研究者提出用文字控制图像某一区域的颜色等。

David Valdman 系列推文地址:https://twitter.com/dmvaldman/status/1358916558857269250

图片来自论文《Paint by Word》。论文链接:https://arxiv.org/pdf/2103.10951.pdf

但这种趋势也存在一些问题,比如眼下的 AI 能不能完全听懂人话呢?或者人类需要创造一种全新的语言用于跟 AI 沟通?也许在未来,程序员不再敲代码,而是要输入一些类似口语却又不是口语的文字。

StyleGAN+CLIP=StyleCLIP

顾名思义,StyleCLIP 融合了 StyleGAN 和 CLIP 两种模型的特性。

GAN 模型的出现颠覆了图像生成领域,StyleGAN 更是其中的翘楚,可以生成极其逼真的图像。此外,研究者发现,StyleGAN 学到的中间隐空间拥有解耦特性,这使得利用预训练模型对合成图像以及真实图像执行各种各样的图像操作成为可能。

但对于用户来说,利用 StyleGAN 的强大表达能力来实现自己的意图并不容易。他们需要一个简单、直观的接口。现有的语义控制发现方法要么涉及手动检查,要么涉及大量带注释的数据,要么需要预训练的分类器。此外,后续操作通常是使用一个参数模型(如 StyleRig 中的 3DMM),通过在一个隐空间中沿着一个方向移动来执行。

总之,现有的控制只能按照预设的语义方向操作图像,严重限制了用户的创造力和想象力。每次要添加一个未映射的方向,都需要大量的手工工作和 / 或大量的注释数据。

在这篇论文中,研究者利用 OpenAI 最近推出的 CLIP(Contrastive Language-Image Pre-training)模型来支持基于文本的直观语义图像操作,既不限于预设的操作方向,也不需要额外的手工工作来发现新的 control。

StyleCLIP 的效果展示。红框中的内容是人类给出的修图要求,比如「莫西干头」、「卸妆」、「变可爱」、「变狮子」等。

  • 论文链接:https://arxiv.org/pdf/2103.17249.pdf

  • 项目链接:https://github.com/orpatashnik/StyleCLIP

CLIP 模型是 OpenAI 推出的基于文本对图片进行分类的模型。给出一组以语言形式表述的类别,CLIP 能够立即将一张图像与其中某个类别进行匹配,而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。在 ImageNet 基准上,CLIP 的性能超过 ResNet-50,在识别不常见图像任务中的性能远超 ResNet。

由于自然语言能够表达更加广泛的视觉概念,将 CLIP 与 StyleGAN 的强大生成能力相结合可以为图像操作打开更迷人的图景。具体来说,在本文中,研究者探索了三种将 CLIP 和 StyleGAN 相结合的技术:

1、以文本为指导的 latent 优化,其中 CLIP 模型被用作一个损失网络,这是一种通用方法,但需要几分钟的时间来进行优化,以对图片进行操作;

2、一个训练用于特定文本提示的 latent 残差映射器。在隐空间中给定一个起点(需要操作的输入图像),映射器在隐空间中产生一个局部步骤;

3、一种在 StyleGAN 的 style space 中将文本提示映射到输入无关(全局)方向(global direction)的方法,提供了对操作强度和解耦的控制。

表 1: 优化器和映射器推断的 latent 步骤取决于输入图像,但是每个文本提示只进行一次训练。global direction 方法需要一次预处理,之后可应用于不同的(图像、文本提示)对。

 效果评估

在评估过程中,研究者将这三种方法与其他方法进行对比,所有处理过的真实图像都使用 e4e 编码器进行了反转。

下图展示了三种文本驱动的人脸图像操作方法:latent mapper method,global direction method 和 TediGAN(此处使用的 TediGAN 来源于最近更新的官方实现,因此其与 CLIP 论文中提供的方法略有不同)。

第一组的指令是「特朗普化」,也是其中最复杂的指令了,基本上要包含金发、眯眼、张嘴、脸肿几个特征(懂的人自然懂)。global latent direction 能够捕捉到这些特征,但这些特征不是专属于特朗普的,相比之下,latent 映射器更能「听懂」指令。但在第三组指令「消除皱纹」中,映射器的效果不是很理想。

结论是,对于复杂和特定的属性 (特别是那些涉及身份的属性) ,映射器能够产生更好的结果。对于更简单或更常见的属性,global direction 就足够了。此外,总体来说,TediGAN 的生成结果在三个指令中都失败了。

随后,研究者对比了 global direction 和其他 StyleGAN 图像处理方法,包括 GANSpace [13]、 InterFaceGAN [41] 和 StyleSpace [50]。

这部分对比实验涉及的都是基本操作,比如发色和唇色。本文所提出方法的生成结果较为接近 StyleSpace [50] ,只改变目标属性,所有其他属性均保持不变。

在论文中,研究者还展示了本文方法与 StyleFLow [1] 的对比,StyleFlow 同时使用了多个属性分类器和回归值,因此只能操作有限的属性。而在生成结果质量接近的前提下,本文方法不需要额外的监督。

目前,本文方法还存在一定局限性,依赖于一个预训练的 StyleGAN 生成器和 CLIP 模型进行视觉语言嵌入,因此我们无法期望它生成预训练生成器理解范畴之外的东西。类似地,映射到未充分填充图像的 CLIP 空间区域的文本提示不能产生忠实反映提示语义的视觉操作。

研究者还发现,在视觉上比较多样化的数据集上进行跨度很大的操作是很难实现的。例如,虽然老虎很容易转化为狮子 ,但是在将老虎转化为狼时,就不那么成功了。

「我本是小脑斧,又不是北极狼……」

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

修图动口不动手,有人把StyleGAN和CLIP组了个CP,能听懂修图指令那种相关推荐

  1. 移动端点击拉起输入_没广告、无捆绑、真清流!讯飞输入法PC版评测:跨屏语音动口不动手...

    原标题:没广告.无捆绑.真清流!讯飞输入法PC版评测:跨屏语音动口不动手 一.前言:等待五年 讯飞输入法PC版终于回来了 大家所熟知的讯飞输入法,最早是在Android和iOS等移动端起家,并凭借强大 ...

  2. 华为手机计算机怎么语音算术,只动口不动手!华为手机这个自带功能绝了,录音秒变文字!...

    原标题:只动口不动手!华为手机这个自带功能绝了,录音秒变文字! 现在越来越多人买手机的首选都是选择华为手机,这不仅仅是因为华为手机的"颜值"越来越高,更是因为它有很多实用的功能.今 ...

  3. 当人说君子动口不动手时怎么回怼_论文和效益:君子为什么动口不动手?

    来源:武际可科学网博客 作者:武际可 北京大学力学系 "君子动口不动手",这话是说当君子与人产生矛盾时,是要讲道理而不能老拳相对.现在,我们要把它用来看看学界的君子们,如果把写论文 ...

  4. 当人说君子动口不动手时怎么回怼_如何优雅㨃(duǐ)/怼人既彰显气质又㨃(duǐ)/怼得她无话可说?...

    首先,宝贝-不要生气,冷静,气大伤身,咱们君子动口不动手,优雅的说的她们哑口无言! 学学鲁迅先生,钱钟书先生,张爱玲女士等文人,他们的怼人段位绝对是神级,真是学习的典范 绝对优雅又气质! 鲁迅先生,素 ...

  5. 当人说君子动口不动手时怎么回怼_俗话说:“君子动口不动手。”那么到底什么样的人才称得上君子?...

    话说有一次,著名京剧大师梅兰芳见到国画大师张大千先生,说:"我是君子,您是小人." 闻听此言,张大千一下子变了脸色,以为自己做了什么影响声誉的事情. 见此情景,梅兰芳不紧不慢地补上 ...

  6. 当人说君子动口不动手时怎么回怼_故事:君子动口不动手,神人动心不动口,有情有意事后再回报...

    故事纯情虚构,却能让阅者动容,人生像孔雀开屏一样的事情无处不在,却还是想要再建一把天梯,攀登到理想的境界.<空间天梯>59 "真的呀,那我可得试试,这个功能可真是太好了,不用担心 ...

  7. 你有一笔新订单 语音_坐电梯动口不动手,浦东企业新技术实现乘坐电梯“零接触”!...

    新冠肺炎疫情期间,你是怎么按电梯的?用餐巾纸? 用牙签? 还是用一次性手套? 小布告诉你,还有更高级的方法~那就是浦东一家企业最新研发的"无接触式"AI语音电梯控制技术! 用AI语 ...

  8. 广州最斯文嫌犯“君子”抢劫动口不动手

    南方日报11月3日报道 一个有犯罪前科.曾"三进宫"的40多岁男子,斯斯文文.不费手脚便从出租车司机兜里抢劫到钱财,成功作案达4年之久,屡试不爽.这个自诩为"广州最斯文的 ...

  9. 蓝牙MESH网关_【全屋智能照明】能动口不动手!米家LED筒灯球泡 MESH组网

    LED筒灯和E27球泡灯是我们家中最常见的照明产品,以往我们会考虑各种灯泡接口.各类色温.甚至还纠结于是使用智能灯泡接入WIFI还是选择智能开关让传统灯具智能化,这些都是全屋智能照明的方案之一,但是缺 ...

最新文章

  1. sentinel 时间窗口_Sentinel使用令牌桶实现预热【原理源码】
  2. 重写HttpServlet
  3. 成功解决AttributeError: module ‘enum‘ has no attribute ‘IntFlag‘?
  4. win7倒计时桌面小工具_iOS 14系统面板截图曝光,新增桌面小工具,越来越像安卓了...
  5. 互联网1分钟 |1026
  6. .net core实践系列之短信服务-Sikiro.SMS.Api服务的实现
  7. Centos6.9下RocketMQ3.4.6高可用集群部署记录(双主双从+Nameserver+Console)
  8. 11,EasyNetQ-调度事件与定时发布
  9. Oracle_linux_lesson_p2
  10. 构建复杂的应用程序 —— 重用与重构
  11. C#测绘兰勃特墨卡托投影
  12. python官方文档中文版-主页 - Keras 中文文档
  13. 维基百科英文语料库下载地址
  14. 微信公众号关注自动回复内容php ci,如何实现微信公众号“一键关注”功能?运营神器...
  15. 微信 打开html文件,微信文件在电脑上打开文件
  16. 史玉柱自述创业历程,我思故我在
  17. 65个最常见的面试问题与技巧性答复(面试技巧和注意事项),很不错,求职之前,多看看
  18. Guitar Pro2023吉他谱作曲和练习工具
  19. 为什么要认证抖音蓝V?怎样申请抖音蓝V认证?
  20. #爬取电影天堂的磁力链接#

热门文章

  1. OSChina 周一乱弹 —— 六天颓废一天看剧
  2. 最完整代码的用php备份mysql数据库
  3. 在线qmc0转换mp3工具_如何将M4A格式的音频转换为MP3格式?只需一步搞定
  4. 红包规则_“科普闯关100%夺红包”游戏规则升级了!速速来看!
  5. 首次使用mysql_mysql的初次使用操作
  6. BERT 预训练模型及文本分类(情感分类)
  7. AWS ML deploy platform
  8. 解决softmax后列和不为1的bug记录 :问题原因为 s为1维的,来除torch.exp(x)(64x10)时候,维数不对应,需要将s也要转换为2维的即维数为(64x1),才可以广播按行对应相除
  9. 国外AI教学网红网站
  10. VMWARE安装LINUX