Transformer 会接管人工智能？

来源：ScienceAI

编辑：绿萝

想象一下，你去当地的五金店，在货架上看到一种新的锤子。你听说过这把锤子：它比其他锤子敲得更快、更准确，在过去的几年里，它已经淘汰了许多其他锤子，至少在大多数用途中是这样。

还有更多！通过一些调整——这里有一个附件，那里有一个扭曲——这个工具变成了一把锯，它的切割速度至少和其他任何选择的一样准确。事实上，一些处于工具开发前沿的专家表示，这把锤子可能只是预示着所有工具将融合到一个设备中。

类似的故事正在人工智能工具中上演。这种多功能的新锤子是一种人工神经网络——一种通过对现有数据进行训练来「学习」如何完成某些任务的节点网络——称为 Transformer。它最初旨在处理语言，但最近开始影响其他 AI 领域。

2017 年，Transformer 首次出现在一篇论文中，该论文神秘地宣称「注意力就是你所需要的一切」。在人工智能的其他方法中，系统将首先关注输入数据局部的块，然后构建整体。例如，在语言模型中，附近的单词首先会被组合在一起。相比之下，转换器运行进程，以便输入数据中的每个元素都连接或关注每个其他元素。研究人员将此称为「自我注意」。这意味着一旦开始训练，Transformer 就可以看到整个数据集的痕迹。

论文链接：https://arxiv.org/abs/1706.03762

在 Transformer 出现之前，人工智能语言任务的进展在很大程度上落后于其他领域的发展。「在过去 10 年左右发生的这场深度学习革命中，自然语言处理在某种程度上是后来者，」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说。「所以从某种意义上说，NLP 落后于计算机视觉。Transformer 改变了这一点。」

很快，Transformer 就成为专注于分析和预测文本的单词识别等应用程序的领跑者。它引发了一波工具浪潮，例如 OpenAI 的 Generative Pre-trained Transformer 3 (GPT-3)，它可以训练数千亿个单词并生成一致的新文本，智能到令人不安。

Transformer 的成功促使人工智能人群问他们还能做什么。答案现在正在展开，因为研究人员报告说，Transformer 被证明具有惊人的多功能性。在某些视觉任务中，例如图像分类，使用 Transformer 的神经网络比不使用 Transformer 的神经网络变得更快、更准确。其他人工智能领域的新兴工作——比如一次处理多种输入或计划任务——表明 Transformer 可以处理更多。

「在包括计算机视觉在内的机器学习中的许多问题上，Transformer 似乎真的有相当大的变革性。」在慕尼黑的宝马（BMW）从事与自动驾驶汽车相关的计算机视觉工作的 Vladimir Haltakov 说。

就在 10 年前，AI 的不同子领域之间几乎没有共通语言。但 Transformer 的到来表明了融合的可能性。德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说：「我认为 Transformer 之所以如此受欢迎，是因为它暗示着全领域通用的潜力。我们有充分的理由想要在整个 AI 任务范围内尝试使用 Transformer」。

从语言到视觉

在「Attention Is All You Need」发布几个月后，扩大 Transformer 的最有希望的举措之一就开始了。

当时在柏林的谷歌研究部门工作的计算机科学家Alexey Dosovitskiy，正在研究计算机视觉，这是一个专注于教计算机如何处理和分类图像的 AI 子领域。与该领域的几乎所有其他人一样，他当时的常用工具卷积神经网络 (CNN) ，该网络多年来推动了深度学习，尤其是计算机视觉领域的所有重大飞跃。

CNN 通过对图像中的像素重复应用过滤器来建立特征识别来工作。正是由于卷积，照片应用程序可以按面孔组织您的图书馆，或者将鳄梨与云区分开来。CNN 被认为是视觉任务必不可少的。

Dosovitskiy 正在研究该领域最大的挑战之一，即扩大 CNN 的规模，以在不增加处理时间的情况下，在代表分辨率越来越高的图像的越来越大的数据集上进行训练。

但随后他看到 Transformer 取代了以前几乎所有与语言相关的人工智能任务的首选工具。「我们显然受到了正在发生的事情的启发，」他说。「他们得到了所有这些惊人的结果。我们开始想知道我们是否可以在视觉上做类似的事情。」这个想法有一定的意义——毕竟，如果 Transformer 可以处理大数据集的单词，为什么不能处理图片呢？

最终的结果是一个名为 Vision Transformer 或 ViT 的网络，研究人员在 2021 年 5 月的一次会议上展示了该网络。该模型的架构与 2017 年提出的第一个Transformer 的架构几乎相同，只进行了微小的更改，使其能够分析图像而不是文字。「语言往往是离散的，」Rumshisky 说，「所以很多改编必须使图像离散化。」

论文链接：https://arxiv.org/abs/2010.11929

ViT 团队知道他们无法完全模仿语言方法，因为每个像素的自注意力在计算时间上会非常昂贵。相反，他们将较大的图像划分为正方形的单元，也就是所谓的词元（token）。词元大小是任意的，因为可以根据原始图像的分辨率变大或变小（默认是每边 16 像素）。但是通过分组处理像素，并对每个像素应用自我关注，ViT 可以快速处理大量训练数据集，输出越来越准确的分类。

Transformer 以超过 90% 的准确率对图像进行分类——比 Dosovitskiy 预期的结果要好得多——在 ImageNet 分类挑战赛（一项开创性的图像识别比赛）中迅速将其推向了榜首。ViT 的成功表明卷积可能不像研究人员认为的那样是计算机视觉的基础。

与 Dosovitskiy 合作开发 ViT 的 Google Brain Zurich 的 Neil Houlsby 说：「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生产品所取代。」他说，这些未来的模型可能是纯粹的 Transformer，或者是为现有模型增加自我关注的方法。

其他结果也支持了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型，在 2022 年初，ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。没有 Transformer 的 CNN，长期的冠军，现在勉强进入前 10 名。

Transformer 的工作原理

ImageNet 结果表明，Transformer 可以与领先的 CNN 竞争。但谷歌的计算机科学家 Maithra Raghu 想知道他们是否像 CNN 一样「看到」图像。神经网络因其难以辨认的黑匣子而臭名昭著，但有一些方法可以窥探内部——例如通过逐层检查网络的输入和输出，以了解训练数据是如何流过的。

她的小组确定了自注意力在算法中导致不同感知方式的方式。归根结底，Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中，你从非常本地化开始，然后慢慢获得全球视野，」Raghu 说。CNN 逐个像素地识别图像，通过构建从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中，即使是第一层信息处理也会在遥远的图像位置之间建立联系（就像语言一样）。如果 CNN 的方法就像从单个像素开始并缩小，那么 Transformer 会慢慢地将整个模糊图像聚焦。

这种差异在语言领域更容易理解，Transformer 最初是在这里构思的。考虑这些句子：「猫头鹰发现了一只松鼠。它试图用爪子抓住它，但只抓住了尾巴的末端。」第二句的结构令人困惑：那些「它」指的是什么？只关注「它」周围的单词的 CNN 会遇到困难，但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓人，而松鼠失去了部分尾巴。

现在，很明显，Transformer 处理图像的方式与卷积网络根本不同，研究人员只会变得更加兴奋。Transformer 在将数据从一维字符串（如句子）转换为二维数组（如图像）方面的多功能性表明，这样的模型可以处理许多其他类型的数据。例如，Wang 认为，Transformer 可能是朝着实现一种神经网络架构的融合迈出的一大步，从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然，要让它真正实现是有局限性的，」他说，「但如果有一种可以通用的模型，你可以将各种数据放在一台机器上，那肯定是非常棒的。」

融合正在发生

现在研究人员希望将 Transformer 应用于一项更艰巨的任务：生成新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文中，Wang 结合了两个 Transformer 模型，试图对图像做同样的事情，这是一个困难得多的问题。当双 Transformer 网络在超过 200,000 名名人的面部上进行训练时，它以中等分辨率合成了新的面部图像。根据初始分数（一种评估神经网络生成的图像的标准方法），发明的名人令人印象深刻，并且至少与 CNN 创建的名人一样令人信服。

论文链接：https://arxiv.org/abs/2010.11929

Wang 认为，Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合，需要能够添加信息以使其看起来合理，」他说。与分类一样，Transformer 方法正在取代卷积网络。

Raghu 和 Wang 看到了 Transformer 在多模态处理中的新用途——一种可以同时处理多种类型数据的模型，如原始图像、视频和语言。「以前做起来比较棘手，」Raghu 说，因为这种孤立的方法，每种类型的数据都有自己的专门模型。但是 Transformer 提出了一种组合多个输入源的方法。「有很多有趣的应用程序，结合了其中一些不同类型的数据和图像。」例如，多模式网络可能会为一个系统提供动力，该系统除了听一个人的声音外，还可以读取一个人的嘴唇。「你可以拥有丰富的语言和图像信息表示，」Raghu 说，「而且比以前更深入。」

新兴工作表明了 Transformer 在其他人工智能领域的一系列新用途，包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold，它去年因其快速预测蛋白质结构的能力而成为头条新闻——这项任务过去需要十年的深入分析。

权衡

即使 Transformer 可以帮助联合和改进人工智能工具，新兴技术通常也会付出高昂的代价，这一点也不例外。Transformer 在预训练阶段需要更高的计算能力支出，然后才能击败传统竞争对手的准确性。

那可能是个问题。「人们总是对高分辨率图像越来越感兴趣，」Wang 说。这种训练费用可能是 Transformer 广泛实施的一个缺点。然而，Raghu 认为训练障碍可以通过复杂的过滤器和其他工具轻松克服。

Wang 还指出，尽管视觉 Transformer 已经引发了推动人工智能发展的新努力——包括他自己的——但许多新模型仍然包含了卷积的最佳部分。他说，这意味着未来的模型更有可能同时使用这两种方法，而不是完全放弃 CNN。

它还暗示了一些混合架构的诱人前景，这些架构以当今研究人员无法预测的方式利用 Transformer 的优势。「也许我们不应该急于得出 Transformer 将成为最终模型的结论，」Wang 说。但是，Transformer 越来越有可能至少成为你附近的 AI 商店的任何新超级工具的一部分。

参考内容：https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

Transformer 会接管人工智能？相关推荐

CNN被打败！Transformer将统帅人工智能？
来源:新智元现在在AI业界家喻户晓的Transformer,究竟是怎样在短短时间爆火的? Transformer的起源想象一下你逛附近的五金店,在货架上看到一种新型的锤子.它比其他锤子敲得更快.更 ...
Transformer面试题总结101道
大家好,我是对白. 今天给大家总结了101道Transformer的面试题,建议收藏: 1,请阐述 Transformer 能够进行训练来表达和生成信息背后的数学假设,什么数学模型或者公式支持了 T ...
基于Tensorflow实现一个Transformer翻译器
Transformer是谷歌在2017年的一篇论文"Attention is all you need"提出的一个seq2seq的模型架构,其创造性的提出了自注意力的思想,可以很好 ...
自然语言处理NLP星空智能对话机器人系列：Gavin大咖 Transformer 101问答集第一问
自然语言处理NLP星空智能对话机器人系列:Transformer 101问答集第一问 Gavin大咖:请大家多多贡献问题,我们共同做好Transformer 101 问答,送个全世界不同国家的Tra ...
Transformer将在AI领域一统天下？现在下结论还为时过早
点击机器学习算法与Python学习 ,选择加星标精彩内容不迷路选自 Quanta Magazine 机器之心编译从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transf ...
Fast and Effective！一文速览轻量化Transformer各领域研究进展
每天给你送来NLP技术干货! © 作者|刘子康机构|中国人民大学高瓴人工智能学院研究方向 | 多模态学习来自 | RUC AI Box 本文梳理了一些Transformer常用的轻量化方法,并分 ...
python三大编程语言_程序员最需要的三种编程语言
随着科学技术的进步和新技术的进步,编程语言的种类越来越多,变化是程序员需要跟踪和学习许多语言然而,有太多的语言无法一一掌握在目前的形式中,最需要掌握的三种编程语言是现在判断还不晚坦白说,找工作 ...
Google大调整：搜索与AI分家独立，原SVP引退，Jeff Dean终掌大权
问耕发自凹非寺量子位出品 | 公众号 QbitAI Google正在经历一次大调整. 刚刚,这家公司对外证实,Google最重要的部门分家了:搜索和AI两个业务将再次各自独立,而不是继续捆绑在 ...
什么是ChatGPT？
ChatGPT(Chat Generative Pre-trained Transformer)是人工智能研究实验室OpenAI(OpenAI:马斯克等人创建的人工智能公司)新推出的人工智能技术驱动的 ...

Transformer 会接管人工智能？

Transformer 会接管人工智能？相关推荐

最新文章

热门文章