2020-06-18 13:23:31

金磊 贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

生成文字的AI和生成图像的AI,竟然是同一个,人工智能要实现通用(AGI)了吗?

语言模型GPT,现在跨界了。

这一次,它要进军CV领域——以Image GPT (简称iGPT)的名义,处理「图像任务」。

那么,这位跨界选手的表现如何呢?

在主流的数据集上,与当前最高精度方法做PK,竟可以刷新纪录,达到SOTA!

简直惊掉了路人下巴:这太疯狂了,而我还在研究自然语言生成(它却已经能生成图像了)。

还有网友脑洞大开:GPT的下一步是不是要生成音乐了?

连名字都想好了——GPT-Music。

莫非,这是要通用人工智能(AGI)的节奏,琴棋书画样样精通?

从语言GPT,到图像GPT

像BERT、GPT-2这样的语言模型,在NLP任务上的成就不用多说,对一维序列的处理能力比较强悍。

但OpenAI的研究人员发现,将它应用到图像上,也就是在像素序列上进行训练,同样也可以得到连贯的完整图像。

举个例子,原始图像是一只小鸡,如下图所示。

当把它的下半部遮挡后作为输入,经过训练之后,生成的图像如下。

可以看到,在生成的一系列图像中,有逼近原始图像的结果。

再来看个猫的例子,原始图像如下。

同样是遮挡一半的图像,生成后得到的图像看起来也是比较完整。

虽然没有生成原始图像中「手」的那部分,但是我们人类看到被遮挡一半的图像,可能也不会联想到这点。

当然,当把那些有名的画作、海报等图像(也遮挡一半)作为输入,生成的图像结果也是较为完整、精确。

「图像生成」的视觉效果如此,那么「图像分类」的实验精度如何?

可以说是依旧强悍,直接上图表。

在比较主流的数据集上做实验,并与目前精度最高的方法作比较,可以看到iGPT在许多结果上超越了前人的方法,达到了SOTA。

而在其它一些数据集上的表现,虽然没有达到前人方法的精度,但也只是「略微逊色」。

所以,跨界的iGPT,是如何取得如此惊人效果的呢?

跨界原理

OpenAI的iGPT使用了一种密集的连接模式,这种模式不会对二位空间结构进行比编码,但其性能却能够超过采用编码的方法。

从结构上看,iGPT分为两个部分,预训练微调

在预训练中,分别对自动递减和BERT两个目标进行了探讨,其中,使用序列变换器架构来预测像素,而不是语言标记。

而对图像分类器进行微调,是衡量参数质量的一种方法,具体方法是在模型中增加一个小的分类器,用于优化分类目标并适应所有权重。

预训练

预训练可以看成是一种有利的初始化,也可以看成是与早期stopping结合使用时的正则器。

给定一个未标记的高维度数据集X,由x = (x1, …, xn)组成。从(1,…,n)中选择一个排列π,然后将密度函数度 p(X)的自动回归建模如下:

在处理图像时,选择一个单独的值πi =i,1≤ i ≤n,即光栅顺序。我们通过最小化数据的负对数似然来训练我们的模型:

对于BERT目标,它对一个子序列 M⊂ [1,n]进 行采样,使得每个索引 i 在 M 中出现的独立概率 为0.15。

研究人员称M为的BERT的mask,并通过最小化“蒙面” 元素 x 的负对数似然来训练模型:

编码器结构

Transformer解码器采用输入序列 xi,…,xn 离散token,并对每个位置产生d维映射。

解码器作为 L 块的堆栈实现,其中 l-th产生一个中间嵌入 hl1 , …, hln ,他们的维数也是d, 我们使用变压器解码器块的 GPT-2 公式,它作用于输入张量hl如下:

这其中,层级规范在mlp操作之前,同时,所有的操作都严格地位于残余路径上。这样的方法可以让轻松地对Transformer进行缩放。

只有在attention操作中才会出现跨序列元素的混合,为了保证训练AR目标时的适当调节,需要对attention对数的n×n矩阵应用标准的上三角mask。

当使用BERT目标时,不需要注意对数mask,只需在对输入序列应用内容嵌入后,将M中的位置归零。

此外,由于每个序列元素学习独立的位置嵌入,BERT模型没有位置感应偏差(即它是换位不变的)。

换句话说,任何位置之间的空间关系都必须由模型在训练时学习。对于AR模型来说,情况并不完全如此,因为选择栅格order还固定了一个预先指定的条件排序。

在最后的变换层之后,我们应用一个层规范nL = layer norm(hL),并从nL学习对数的投影,对每个序列元素处的条件分布进行参数化。在训练BERT时,我们只需忽略未屏蔽位置的logits即可。

微调

微调时,我们在序列维度上对nL池取平均,提取每个样本的d维特征向量:

然后,学习从fL到类对数的投影,目的是减少交叉熵损失Lclf。

虽然在Lclf上进行微调,可以得到较好的下线性能,但实证发现,联合目标的:LGEN+LCLF,LGEN∈{LAR,LBERT}效果更好。

线性探测

提取线性探测的固定特征与微调的类似,只是平均池化并不总是在最后一层。

其中0≤l≤L,实验表明,最佳特征往往位于网络的中间。

和微调一样,将这些中间特征投射到产生类对数上。因为在线性探测时将特征视为固定的,所以这个投影包含了唯一的一个可训练的权重,所以只能优化Lclf 。

思路

虽然监督式预训练是图像分类的主流,但使用大型标签图像数据集既昂贵又耗时。与其进一步扩大标签工作的规模,不如从可用未标记图像集中学习通用表示,并对其进行微调以进行分类。

研究人员使用ImageNet作为大型未标记语料库,以及小型经典标记数据集作为下游任务。对于最大的模型iGPT-XL,使用额外的1亿张未标记的网络图像,对这些图像进行筛选以达到和ImageNet相似的特征。

训练

在预训练iGPT-XL时,使用的数据包大小为64,训练二百万次迭代,对于其他所有模型,我们使用数据包大小为128,训练一百万次次迭代。

使用Adam超参数,β1=0.9,β2=0.95,依次尝试学习速率0.01,0.003,0.001,0.0003,……,一旦最终的验证损失开始增加就停止。

微调时,使用相同的包大小和Adam超参数。

当在ImageNet上运行线性探针时,使用高学习率的SGD。用余弦曲线学习速率进行一百万次迭代训练。最后,当在CIFAR-10,CIFAR-100或STL-10上运行线性探针时,使用L-BFGS算法与先前的结果保持一致 。

跨界表现很强,但仍有局限性

虽然GPT跨界处理图像的表现比较出众,但OpenAI的研究人员也谦虚的自曝「存在一定的局限性」。

这个局限性就是计算量太大

由于我们使用了语言中GPT-2使用的通用序列transformer,所以我们的方法需要大量的计算量。

在一张Nvidia V100卡上进行iGPT-L训练,大约需要2500天。而在相同情况下,MoCo24模型仅需要70天。

此外,iGPT模型仅能识别生成低分辨率图像,并有一定偏差。

这些偏差是由于数据训练而产生的,例如,模型可能在性别和角色之间建立了关联(即“男性科学家”)。

由于这些缺点,研究人员认为这项工作目前主要是作为概念的演示。

这项工作说明,像GPT-2、BERT这样的语言模型,由于具有简单、通用的特点,在给定足够计算能力的序列Transformer的情况下,可能胜任多个领域的机器学习任务。

iGPT并不是NLP的第一次跨界。前不久Facebook才将Transformer用于图像领域的目标识别。

嗯,语言模型跨界完了CV界,下一步又将挑战什么领域呢?是通用人工智能(AGI)吗?

参考链接:

https://openai.com/blog/image-gpt/

iGPT项目地址

https://github.com/openai/image-gpt

— 完 —

语言模型GPT跨界CV,OpenAI揭示强算力Transformer具有通用性相关推荐

  1. 今晚,圆桌讨论Transformer跨界CV任务

    转自:机器之心 自2017 年 6 月谷歌发布论文<Attention is All You Need>后,Transformer架构为整个NLP领域带来了极大的惊喜. 随着技术的发展,T ...

  2. NLP/CV模型跨界进行到底,视觉Transformer要赶超CNN?

    机器之心报道 机器之心编辑部 在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近 ...

  3. NLP/CV模型跨界,视觉Transformer赶超CNN?

    在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...

  4. 热门的模型跨界,Transformer、GPT做CV任务一文大盘点

    作者|陈萍 来源|机器之心 可能大家心里都有一种错误认知,做自然语言处理任务的模型不能够用来进行计算机视觉任务.其实不然,现阶段已出现好多研究,它们通过算法的改进,将在 NLP 领域表现良好的模型,如 ...

  5. 最强写作AI竟然学会象棋和作曲,语言模型跨界操作引热议,在线求战

    十三 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一个搞文本生成的模型,还能用来干嘛? 好奇心很强的网友便拿OpenAI的GPT-2做了个实验. 原来,GPT-2除了能生成文本,竟然还 ...

  6. NC | 中科院蔡磊组揭示跨界合成菌群增强番茄对镰刀枯萎病抗病能力

    跨界合成微生物群落增强番茄对镰刀枯萎病抗病能力 Cross-kingdom synthetic microbiota supports tomato suppression of Fusarium w ...

  7. 「公开课实录」幻境视界周志强:艺术+VR,一次非冲动的完美跨界

    身临其境的虚拟现实之美,名画背后的场景剧情. 整个虚拟现实行业在2016年这个公认的VR元年里都受到了空前的关注,特别是作为VR行业众多分支中最为直接面向体验者的部分,VR内容更是得到了特别的关注. ...

  8. NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI NLP的 ...

  9. 人工智能各领域跨界能手——Transformer

    导读:Transformer源自于AI自然语言处理任务:在计算机视觉领域,近年来Transformer逐渐替代CNN成为一个热门的研究方向.此外,Transformer在文本.语音.视频等多模态领域也 ...

最新文章

  1. Java线程池中submit()和execute()方法有什么区别
  2. 要管理组策略 您必须以域用户账户登录此计算机,组策略设置:使普通用户登陆域控制器的电脑...
  3. 《Selenium自动化测试指南》—第1章1.1节自动化测试基础
  4. linux拒绝sftp连接,linux服务器拒绝sftp
  5. 如何限制用户的内存使用量
  6. java 时间 转化成数字_java时间转化数字
  7. 简用计算机,你真的会使用“计算器”吗?
  8. 笨办法学python在线阅读_『笨办法』学Python 3
  9. 安卓小程序——猜数字游戏
  10. 全新MVSO影视源码+支持自动采集/超强SEO/自定义苹果CMS接口
  11. CodeMeter 软件加密技术
  12. 【光学】Matlab模拟相互垂直的光波叠加
  13. pythonpath环境变量pth_.pth 文件扩展python环境路径
  14. 少男杀手dodolook签约酷6网原创红人阵营
  15. 秋季最养胃饮食排行榜单
  16. 软件测试 | 测试方案怎么写
  17. 速卖通电脑办公行业什么产品好卖?解读2022速卖通重点招商品类及营销策略
  18. mysql被删库如何恢复_mysql整个数据库被删除了怎么恢复
  19. 关于导数意义的新认知
  20. 腾讯微博的部分知名站长名单

热门文章

  1. datagenerator解决训练时候内存不足问题
  2. 助动词有哪些 do does did,本身不能单独做谓语需要与主要动词一起做谓语 情态动词must can need
  3. 探索可解释及稳定性,AI与博弈,自适应推理——“智源论坛:机器学习青年学者报告会”要点总结
  4. 基于 MTCNN/TensorFlow 实现人脸检测
  5. TensorFlow实现基于深度学习的图像补全
  6. TensorFlow安装 通过Anaconda Prompt Win10 64位安装 cpu版 tensorflow
  7. 无向图的最小生成树(prim算法)
  8. 一图读懂|《“十四五”大数据产业发展规划》
  9. 继Facebook开源PyTorch3D后,谷歌开源TensorFlow 3D场景理解库
  10. 独家 | 集成学习入门介绍