点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

要说2021年OpenAI最热最有创意的产品,那么非Dall·E莫属了,这是一个可以从“AI设计师”,只要给它一段文字,就能按要求生成图像。但可惜的是Dall·E并不支持中文。

现在好了,最近清华大学唐杰团队打造了一个“中文版Dall·E”——CogView,它可以将中文文字转图像。

CogView可以生成现实中真实存在场景,如“一条小溪在山涧流淌”:

也可以制造不存在的虚拟事物,如“猫猪”:

有时候还有点黑色幽默,如“一个心酸的博士生”:

CogView现在还提供了试玩网页,你可以在那里输入任何文字去转成图形,不像OpenAI的Dall·E只提供几个关键词修改选项。

能指定画风,能设计服装

CogView的能力可不仅仅是从文字输入图像,它还能处理不同微调策略的下游任务,例如风格学习、超分辨率、文本图像排名和时装设计。

在使用CogView的时候,可以加入不同风格限定,从而生成不同的绘画效果。在微调期间,图像对应的文本也是“XX风格的图像”。

CogView设计的服装也像模像样,看起来就像电商展示页,没有虚假痕迹。

原理

CogView是一个带有VQ-VAE分词器40亿参数的Transfomer,它的总体结构如下:

CogView使用GPT模型处理离散字典上的token序列。然后将学习过程分为两个阶段:编码器和解码器学习最小化重建损失,单个GPT通过串联文本优化两个负对数似然 (NLL) 损失。

结果是,第一阶段退化为纯离散自动编码器,作为图像tokenizer将图像转换为标记序列;第二阶段的GPT承担了大部分建模任务。

图像tokenizer的训练非常重要,方法有最近邻映射、Gumbel采样、softmax逼近三种,Dall·E使用的是第三种,而对于CogView来说三者差别不大。

CogView的主干是一个单向Transformer,共有48层、40个注意力头、40亿参数,隐藏层的大小为2560。

在训练中,作者发现CogView有两种不稳定性:溢出(以NaN损失为特征)和下溢(以发散损失为特征),然后他们提出了用PB-Relax、Sandwich-LN来解决它们。

最后,CogView在MS COCO实现了最低的FID,其性能优于以前基于GAN的模型和以及类似的Dall·E。

而在人工评估的测试中,CogView被选为最好的概率为37.02%,远远超过其他基于GAN的模型,已经可以与Ground Truth(59.53%)竞争。

另外作者已经放出了GitHub项目页,不过目前还没有代码,感兴趣的朋友可以关注一下等代码放出。

论文地址:
https://arxiv.org/abs/2105.13290

试用Demo:
https://lab.aminer.cn/cogview/index.html

GitHub页:
https://github.com/THUDM/CogView

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

清华唐杰团队造了个“中文AI设计师”,效果比Dall·E好,可在线试玩相关推荐

  1. 清华唐杰团队:一文看懂NLP预训练模型前世今生

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 搞出了全球最大预训练模型的悟道团队,现在来手把手地教你怎么弄懂预训练这一概念了. 刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综 ...

  2. 19 个行业观点:李开复谈20年后 AI,崔宝秋论开源之道,清华唐杰提认知图谱三要素...

    智源导读:12月16日,由科技媒体[量子位]主办的"MEET 2021智能未来大会"在北京召开,其中包括创新工场董事长兼CEO李开复.中国工程院院士谭建荣.小米公司副总裁崔宝秋.清 ...

  3. 就挺凡尔赛的!李开复谈20年后的AI,崔宝秋论开源之道,清华唐杰的PPT成了“香饽饽” | MEET2021智能未来大会...

    编辑部 发自 凹非寺  量子位 报道 | 公众号 QbitAI 2020年,这个特殊的年份即将过去. 在这一年中,我们的生活遭受重创,但AI技术和应用仍在加速脚步. "重启.重塑.重构&qu ...

  4. [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  5. 给AI一张高清照片,分分钟还你细节满满的3D人体模型,GitHub标星3.6k | 在线可玩...

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 手动对人体进行3D建模并非易事. 但现在,只给AI一张高清照片,它还真就能分分钟搞定这件事. ...

  6. 【CV】给AI一张高清照片,分分钟还你细节满满的3D人体模型,GitHub标星4.4k | 在线可玩...

    继上次分享的中科院博士用一张"静态图"就能实现人脸3D建模新研究,又一重要力作. 手动对人体进行3D建模并非易事. 但现在,只给AI一张高清照片,它还真就能分分钟搞定这件事. 甚至 ...

  7. 清华唐杰:GPT-3表示能力已经接近人类了

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编辑部 整理自 MEET 2021 量子位 报道 | 公众号 Qbi ...

  8. 清华唐杰教授:人工智能的下一个十年,认知推理是重点(附PPT下载)

    来源:学术头条 本文约4400字,建议阅读5分钟 本文为大家带来<人工智能下一个十年>的主题报告. 标签:人工智能 2020 年 3 月 25 日,智源研究院学术副院长.清华大学计算机系唐 ...

  9. 清华唐杰:GPT-3表示能力已经接近人类了,但它有一个阿喀琉斯之踵

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:量子位 人工智能,现在发展到什么阶段了? 从发展脉络上看,从符号智能.感知智能,现在应 ...

最新文章

  1. 人工智能在哪些方面可以对IT运营产生重大影响
  2. 再次分享一个多选文件上传方案“.NET研究”
  3. JQUERY 常用方法汇总
  4. 解决git push 中remote: Permission to xxxxx.git denied to xxx. fatal: unable to access xxxx 403(转)
  5. 七 web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理...
  6. 欧几里得算法和扩展欧几里得算法的简单例子
  7. 基于JAVA+Servlet+JSP+MYSQL的超市管理系统
  8. java.sql.SQLException: Access denied for user 'Administrator'@'localhost' (using password: YES)
  9. 服务提供者框架理解草图
  10. Duplicate Net Names Wire Net......
  11. NOJ [F] 懒惰的风纪委Elaine 求一堆数能组成多少个数小于等于n
  12. Unity中Transform和rotation相关小知识点
  13. 以太坊的单位wei是什么?
  14. 【转载】专利翻译常用词句
  15. Weka package manager 出错的解决办法
  16. 世坤投资大学:欲提供数据科学硕士学位的对冲基金
  17. jenkins构建:ERROR: Error fetching remote repo ‘origin‘(hudson.plugins.git.GitException/does not point)
  18. 怪兽充电或赴美上市,官网域名竟然是个组合域名?
  19. anaconda环境更改gcc版本并编译Pytorch3D 0.4.0
  20. 连接服务器显示615,D-Link DIR 615无线路由器设置

热门文章

  1. LSGO软件技术团队招新 线下组队学习
  2. 【组队学习】【27期】集成学习
  3. 技术图文:02 创建型设计模式(上)
  4. 【通俗理解线性代数】 -- 理解行列式
  5. win10 VMware15 安装 CentOS6.4 64位(慢慢弄吧,别急)
  6. php 魔术方法 多继承,day23:单继承多继承菱形继承__init__魔术方法
  7. 「2019中国大数据技术大会」超值学生票来啦!
  8. 一文全面了解基于内容的推荐算法
  9. AlphaGo之父DeepMind再出神作,PrediNet原理详解
  10. Pig变飞机?AI为什么这么蠢 | Adversarial Attack