萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

没想到,OpenAI刚公布DALL·E,就已经有人在复现了。

虽然还是个半成品,不过大体框架已经搭建好了,一位第三方作者Philip Wang正在施工中。

DALL·E是前两天刚公布的文字转图像网络框架,目前只公布了项目结果,甚至连官方论文都还没出

论文还没出,就开始复现了

论文复现的依据,来自一位叫做Yannic Kilcher的博主制作的油管视频。

他在视频中,对DALL·E的原理结构进行了猜测。

他表示,这些猜测并不代表真实情况,也许DALL·E的论文出来后,会颠覆他的预想。

Yannic认为,DALL·E应该是VQ-VAE模型、和类似于GPT-3的语言模型的结合。

GPT-3这类语言模型,有着非常强大的语言建模能力,可以对输入的文字描述进行很好的拆分理解。

而VAE模型,则是一种强大的图像生成Transformer,在训练完成后,模型会去掉编码器(encoder)的部分,只留下解码器,用于生成图像。

将二者结合的话,就能像下图中的那个小方块一样,将输入的各种物体,根据理解的文字,结合成具有实际意义的一幅画面。

例如,输入人、太阳和树,模型就能输出“太阳下,树底坐着一个人”所描绘的图像。

要怎么实现?

先简单分析一下VQ-VAE的模型原理。

与VAE相似,这也是一个Transformer结构的模型,编码器对图像进行编码后,将编码数据送入隐空间,解码器再从隐空间中,对图像进行重构。

相比于VAE,VQ-VAE隐变量的每一维都是离散整数,也就是说,它的隐空间其实是一个编码簿(codebook),包含提取出的各种向量信息。

在DALL·E里,这个编码簿,本质上可以等价为一个词汇表(vocabulary)。

这个词汇表,专门用来存储对图像的各种描述。

对输入图像进行编码时,本质上是将图像分成各种像素块。

期间,会产生各种各样的图像信息。

假设天蓝色的格子,包含“天空”的描述信息,那么在重建时,解码器读取到“天空”信息,就会分配顶端的一系列像素,用来生成天空。

在完成VQ-VAE的训练后,模型就得到了一个只有解码器看得懂的编码簿。

届时,将由类似于GPT-3的语言模型,对输入的文字进行解码,转换成只有编码簿才能看懂的向量信息。

然后,编码簿会将这些信息进行排序,依次列出每个像素块应该生成的数据,并告诉解码器。

解码器会合成这些像素数据,得到最终的图像。

为了实现这样的目标,既要对类似于GPT-3的语言模型进行训练,也要提前对VQ-VAE模型进行预训练。

而且,还需要对二者融合后的模型进行训练。

这位作者复现的DALL·E,也是依据这个视频解析的原理复现的。

有关项目本身

目前,DALL·E的复现项目还没有完成,作者仍然在加工中(WIP),不过已经有700多个Star。

作者希望写出一个PyTorch版本的DALL·E,现在的框架中,已经包含了VAE的训练、CLIP的训练,以及VAE和CLIP融合后的模型预训练。

此外,还包括DALL·E的训练、和将预训练VAE模型融合进DALL·E模型中的部分。

上述模块训练完成后,就能用DALL·E来做文字生成图像了。

目前,作者正在进行DALL·E模块部分的代码复现。

作者承诺,完成DALL·E的部分后,会把CLIP模型也一起补上。

作者介绍

Philip Wang,本硕毕业于康奈尔大学,博士毕业于密歇根大学医学院。

他的研究兴趣是AI(深度学习方向),以及医疗健康,目前GitHub上已有1.7k个followers。

关于DALL·E本身,视频解析博主Yannic也表示,之所以能取得这么好的效果,并不全是因为模型设计

DALL·E,极可能也像GPT-3一样,用了样本量庞大的数据集,来对模型进行训练。

网友表示,难以想象训练这个玩意所用的GPU数量,气候又要变暖了。

所以要想完全复现这个项目,最难的其实是硬件部分?(手动狗头)

项目地址:
https://github.com/lucidrains/DALLE-pytorch

DALL·E视频解析:
https://www.youtube.com/watch?v=j4xgkjWlfL4

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,与优秀的人同行

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

DALL·E才发布两天就被复现?官方论文还没出,大神们就在自制代码和视频了相关推荐

  1. 官方论文还没出,刷爆AI圈的DALL·E刚发布就被复现?两天800 star!

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 萧箫 发自 凹非寺 来源:量子位(QbitAI) 没想到,OpenAI刚公布DALL·E,就已 ...

  2. 水墨特效怎么做?两种方法快速搞定!大神都在用的超美视频画面效果

    想在视频里用高大上的水墨特效,却不知道怎么做?一般做这种唯美好看的效果,在一些特效软件里需要自己去设计.渲染,这一步就难倒了很多新手.那像视频大神一样的水墨特效就没办法制作了吗? 今天就教大家快速搞定 ...

  3. 苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  4. 苹果发布黄色版 iPhone 14,定价 5999 元起;大神李沐被曝离职投身大模型创业;Atlassian 裁员 |极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  5. overridePendingTransition设定两个activity之间的转场动画没有效果,但不报错! (大神帮帮我吧,代码如下,谢谢)

    MainActivity中代码: protected void onCreate(Bundle savedInstanceState) {         super.onCreate(savedIn ...

  6. 收藏了两年的嵌入式AI资源学习笔记,今天全分享给大家(附代码/资料/视频/学习规划)...

    当前乃至未来5-10年,嵌入式开发者还有哪些风口?" 画外音:风口的本质,其实就是一段时间的人才供需不平衡.说白了就是由于行业突变,敏锐的资本快速进入,导致短时间内行业大量扩张,需要大量开发 ...

  7. 我的世界java版怎么破地狱基岩_我的世界:可以破坏基岩的四种方法,新手只知道两种,大神全知道...

    你热爱生命吗?那么别浪费时间,因为时间是组成生命的材料.----富兰克林.Hi大家好!我是小编索菲亚的复苏,很高兴和大家又见面啦,祝大家心情愉快.大家都知道,基岩是在<我的世界>最底层的极 ...

  8. CV进入三维时代!Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?

    来源:Facebook AI 编辑:LRS [导读]长久以来CV的训练一直停留在二维数据上,三维数据因为标注成本高等原因都需要专业人员来开发专用模型.Facebook在ICCV 2021 发布两个3D ...

  9. 打响进军元宇宙第一枪!网易云信发布两大元宇宙解决方案

    12 月 4 日,由网易智企主办的 2021 网易创新企业大会在杭州隆重举行.大会以"科技未来说,商业相对论"为主题,网易(杭州)副总裁.网易智企总经理阮良在会上发布网易云信两大元 ...

最新文章

  1. openssl的实践应用
  2. MyBatisPlus中进行通用CRUD全局策略配置
  3. spring cloud netflix
  4. 第七章:在Spark集群上使用文件中的数据加载成为graph并进行操作(3)
  5. ant root环境配置_Java ant环境变量配置
  6. HDU 2955 Robberies(概率DP,01背包)题解
  7. Android系统信息获取 之十三:Linux内核版本信息获取
  8. python开发板卡驱动开发_一款能让你发挥无限创意的MicroPython开发板—TPYBoard开发板测...
  9. Nginx二级目录反向代理网站
  10. DICOM医学图像处理:利用fo-dicom发送C-Find查询Worklist
  11. 用R语言进行分位数回归
  12. “百度杯”CTF比赛 九月场--web Upload
  13. 高通SIMLOCK研究
  14. 卡通渲染技巧(一)——漫反射部分
  15. Pytorch 的repeat函数
  16. 弱监督语义分割-SEC(seed、expand and constrain)的原理详述
  17. Android Studio第九期 - QQ计步器效果
  18. Flash Professional CC新功能简介
  19. haxm intel庐_如何开启Intel HAXM功能
  20. 计算机编程语言用英语怎么说,计算机编程语言(国外英文资料).doc

热门文章

  1. 如何以编程方式在Android上截屏?
  2. “静态常量”与“ #define”与“枚举”
  3. 如何将CSS应用于iframe?
  4. 数据告诉你,胡歌的微世界
  5. 你的代码糟粕比精华要多得多
  6. sql2000安装时报错的问题--实例挂起和267目录名无效
  7. SQL SERVER 2005 CTE(通用表达式)
  8. 观察:Android与潮流一起,机遇无处不在
  9. ゾーン10進数、パック10進数
  10. XamarinAndroid组件教程RecylerView自定义适配器动画