杨净 金磊 发自 凹非寺
量子位 | 公众号 QbitAI

朋友,你知道这个英文单词是什么吗?

Pneumonoultramicroscopicsilicovolcanoconiosis.

这个世界公认最长——由45个字母组成的单词,意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病)

但如果说,现在不是让你拼读这个单词,而是……把它给画出来呢?

(读都读不出来,还画画???

谷歌最新提出来的一个AI——Parti,它就能轻松hold住这事。

在把这个单词“投喂”给Parti后,它就能有模有样地生成多张合情合理的肺部疾病图片:

但这只是Parti小试牛刀的能力,据谷歌介绍,它是目前最先进的“文本转图像”AI。

例如,跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合”,输出结果是这样的:

(不知道的还真以为是画报呢)

而且在算法路数上,还不同于谷歌自家的Imagen,Parti可以说是把“AI作画”卷出了新高度。

就连谷歌AI负责人Jeff Dean也连发数条推文,玩得不亦乐乎:

可扩展到200亿参数:更逼真,更“聪明”

事实上,Parti的能力还不止于此。

得益于模型可扩展到200亿参数,一方面,它生成的图像更加细节逼真。

不管是短短几个字,还是五十多个个单词的小段落,都能清晰展现出来。

比如,The back of a violin,小提琴的背面。

亦或是照着梵高《星空》来描述的夜晚画面。ps,这段有67个单词。

结果Parti也不在话下,一揽子把各种风格的图全给你画出来了~

这也正是Parti的第二大能力,不光细节到位,风格也能做到多变。

还有像“浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋”这种奇特的描述,它也能在整出花活的同时还不落细节。

风格上,则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……

甚至有时候它还会讲双关笑话。


(Toad’ay,癞蛤蟆)

具体在测试结果上,MS-COCO、Localized Narrative(LN,4倍长的描述)上FID分数,Parti都取得了最先进的结果。

尤其在MS-COCO零样本的FID得分仅为7.23,微调FID得分为3.22,超过了此前的Imagen和DALL-E 2。

所有组件都是Transformer

时隔一个月,谷歌再把AI作画卷出新高度,结果作者却说:秘诀很简单

Parti主要是将文本生成图像视作序列到序列之间建模。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出从文本变成了图像。

从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer。

首先,使用基于Transformer的图像标记器ViT-VQGAN,将图像编码为离散的标记序列。

然后再通过Transformer的编码-解码结构,将参数扩展到200亿。

以往关于文本生成图像的研究,除了最早出现的GAN,大体可以分成两种思路。

一种是基于自回归模型,首先文本特征映射到图像特征,再使用类似于Transformer的序列架构,来学习语言输入和图像输出之间的关系。

这种方法的一个关键组成部分就是图像标记器,将每个图像转换为一个离散单元的序列。比如DALL-E和CogView,就采用了这一思路。

另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型,比如DALL-E 2和Imagen。

他们摒弃了图像标记器,而是采用扩散模型来直接生成图像。可以看到的是,这些模型产生的图像质量更高,在MS-COCO零样本FID得分更好。

而Parti模型的成功,则证明了自回归模型可以用来改善文本生成图像的效果。

与此同时,Parti还引入并发布了新的基准测试——PartiPrompts,用于衡量模型在12个类别和11个挑战方面的能力。

但Parti还是有一定的局限性,研究人员也展示了一些bug:

比如,对否定的描述就没招了~

一个没有香蕉的盘子,旁边一个没有橙汁儿的玻璃杯。

还会犯一些常识性错误,例如不合理地缩放。比如这张图,机器人竟然比赛车高出好几倍。

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前。太阳落在城市景观上。漫画书插图。

谷歌“自己卷自己”

在这项研究来自Google Research,团队中的华人居多。

研究核心工作人员包括Yuanzhong XuThang Luong等,目前均就职于谷歌从事AI相关研究工作。

(Thang Luong在谷歌学术上的引用量高达20000+)

左:Yuanzhong Xu;右:Thang Luong

不过有意思的是,同为“说句话让AI作画”,同为出自谷歌之手的Imagen,它跟Parti还真有点千丝万缕的关系。

在Parti的GitHub的项目文档中就有提到:

感谢Imagen团队,他们在发布Imagen之前与我们分享了其最近完整的结果。

他们在CF-guidance方面的重要发现,对最终的Parti模型特别有帮助。

而且Imagen的作者之一Burcu Karagol Ayan,也参与到了Parti的项目中。

(有种谷歌“自己卷自己”那味了

不仅如此,就连“隔壁”DALL-E 2的作者Aditya Ramesh,也给Parti在MS-COCO评价方面做了讨论工作。

以及DALL-Eval的作者们,也在Parti数据方面的工作提供了帮助。

One More Thing

有一说一,就“文本生成图像”这事,可不只是研究人员们的宠儿。

网友们在“玩”它这条路上,也是乐此不疲(脑洞不要太大好吧)

前一阵子让Imagen画一幅宋朝“虎戴VR”,直接演变成AI作画大战。

图:Imagen作画

DALL·E、MidJourney等“闻讯赶来”参与其中。

 DALL·E作画

甚至还有把Wordle和 DALL-E 2搞到一起的:

……

不过回归到这次的Parti,好玩归好玩,但还是有网友提出了“直击灵魂”的问题:

啥时候商业化?要是自己“关门玩”就没意思了。

Parti论文地址:

https://parti.research.google/

GitHub项目地址:

https://github.com/google-research/parti

参考链接:

[1]https://twitter.com/lmthang/status/1539664610596225024
[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289
[3]https://imagen.research.google/

谷歌新AI火了!世界最长单词都能画:Pneumonoultramicroscopicsilicovolcanoconiosis相关推荐

  1. 谷歌新 AI 实验室主管 Hugo 深度学习教程:神经网络、CV、NLP 难点解析

     谷歌新 AI 实验室主管 Hugo 深度学习教程:神经网络.CV.NLP 难点解析 [日期:2016-12-16] 来源:新智元  作者: [字体:大 中 小]  11月22日,谷歌在蒙特利尔的 ...

  2. 一句话就能魔改视频主角,谷歌新「AI导演」惊呆网友:这画质也太赞了

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌整出了个新"AI导演",一句话甚至能把视频主角给换了. 你看,青青草地上,一只小熊正在跳舞. 难道现在的熊都这么有艺术 ...

  3. 谷歌宣布搜索引擎多个新 AI 功能,听歌识曲 15 秒完成匹配

    技术编辑:芒果果丨发自 思否编辑部 公众号:SegmentFault 你有没有哼着一首歌却怎么也想不起歌名的情况?Google 发布了一些搜索功能的更新,其中就有一个"听歌识曲"功 ...

  4. 从云到端,谷歌的AI芯片2.0

    来源:脑极体  得芯片者得天下.我们可以把这句话再延伸一下说,得AI芯片者得未来的天下. 对于智能终端厂商来说,能够自研SoC芯片似乎才是顶级实力的象征.众所周知,盘踞全球智能手机前三甲的三星.华为. ...

  5. Jeff Dean亲自揭秘谷歌下一代AI架构:通用、稀疏且高效,网友不买帐:毫无新意...

    来源:机器之心本文约2500字,建议阅读5分钟 Jeff Dean 亲自撰文介绍他眼中的下一代 AI 架构 Pathways. 对谷歌的下一代 AI 架构,你怎么看? 在这波 AI 浪潮中,人工智能技 ...

  6. Jeff Dean亲自揭秘谷歌下一代AI架构:通用、稀疏且高效

    来源:机器之心 对谷歌的下一代 AI 架构,你怎么看? 在这波 AI 浪潮中,人工智能技术经过十几年的爆发式发展,已经在各个领域有着极为广泛的应用,如医疗.科学研究.汽车等. 但是随着技术发展的缓慢, ...

  7. 谷歌放出AI平民化大招: 李飞飞宣布推出AutoML云平台,让普通企业也能用上深度学习

    作者:杨晓凡 概要:谷歌云机器学习平台(Google Cloud AI)自从上线以来就以预训练的.可以直接调用的高效机器学习模型吸引了许多企业级用户在其上构建简单的机器学习应用. 谷歌云机器学习平台( ...

  8. 50位中外AI领袖论剑AI World,世界人工智能大会10大亮点全回顾

    AI大片震撼开启AI World 2017 新智元AI World 2017世界人工智能大会开场视频:如果你没有亲临现场,一定要看,年度AI大片,不容错过! 2017年11月8日,由新智元主办的 AI ...

  9. 看懂2020年智能浪潮,我们从百度和谷歌的AI足迹出发

    2020年已经过去,无论我们过得顺遂平安,还是过得无比艰难,我们应该都会记住这一年. 回顾2020年,在这个不同寻常的疫情之年,科技成为人类抗击疫情的关键,而人工智能技术投入抗疫战争之中,可以说是人类 ...

最新文章

  1. PHP哈希表碰撞攻击原理
  2. Full_of_Boys训练3总结
  3. tab s6 linux on dex,S Pen + DeX模式 三星Galaxy Tab S6让你秒变办公达人
  4. 深入分析Java Web技术内幕(二)
  5. 运用shell,python自动下载linux系统运维
  6. 指定的参数错误。Vim.Host.DiskPartitionInfo.-spec VSPHERE.LOCAL\Administrator WIN-DOPGQVRRU2C
  7. with open新创建的文件在哪找_Python 简明教程——24,Python 文件读写
  8. EntityFramework Core如何映射动态模型?
  9. Qt工作笔记-绘制静态折线图
  10. 阿里电商架构演变之路(一)
  11. 合工大计算机学院吴辽源,计算机学院智能计算系统系召开人才培养大讨论专题会议...
  12. CSS3——CSS行内元素和块级元素的转换
  13. 联通沃云服务器型号,云服务器
  14. 设置一个励志锁屏短语吧!苹果电脑锁屏短语在哪设置?
  15. c语言 long double 输出格式,c++ 什么是`long double`的格式说明符
  16. matlab的ezplot绘图函数
  17. 关于文件命名和整理的小技巧
  18. 一根网线搞定树莓派可视化界面
  19. 2010-2021年上市公司专利数据
  20. Java中有序与无序

热门文章

  1. 2019报表工具价格对比
  2. 真相了:大众创业葬送了多少人的前程?
  3. STM32F1关于SDIO功能的简单介绍
  4. 小程序部分机型请求200、返回数据为空
  5. UIImageView 使用 padding 为图片设置内边距的 2 种方案
  6. 第一次作为面试官,我很紧张
  7. 牛客 [JSOI2007]建筑抢修
  8. 基于JQuery 改造bootstrap模态框拖动功能
  9. 你知道Java中seriaVersionUID=1L是什么意思吗?
  10. UiPath sap logon