研究人员正在教巨大的语言模型如何“看”来帮助他们理解世界。
您可能已经听过我们无数次的发言:GPT-3,这是一种发出令人讨厌的类人语言的庞大AI,真是一个奇迹。这在很大程度上也是海市蜃楼。您可以用一个简单的技巧来告诉您:询问绵羊的颜色,它将提示“黑色”和“白色”一样多-在我们的白话中反映出“黑色绵羊”这一短语。

这就是语言模型的问题:因为它们仅受文本训练,所以缺乏常识。现在,北卡罗来纳大学教堂山分校的研究人员设计了一种新技术来改变这种状况。他们称其为“密码化”,它使GPT-3等语言模型具有“看到”的能力。

这不是人们第一次尝试将语言模型与计算机视觉相结合。这实际上是AI研究迅速发展的领域。想法是两种类型的AI都有不同的优势。像GPT-3这样的语言模型是通过无监督学习进行训练的,该过程不需要手动数据标记,因此易于扩展。相比之下,像对象识别系统这样的图像模型可以直接从现实中学习更多。换句话说,他们的理解并不取决于文本所提供的世界的那种抽象。他们可以从绵羊的照片中“看到”它们实际上是白色的。

可以解析语言和视觉输入的AI模型也有非常实际的用途。例如,如果我们要构建机器人助手,则他们需要计算机视觉来导航世界和语言以与人类进行交流。

但是,将两种类型的AI结合起来说起来容易做起来难。这并不像将现有的语言模型与现有的对象识别系统装订在一起那样简单。它要求使用包含文本和图像的数据集从头开始训练新模型,该数据集也称为视觉语言数据集。

整理此类数据集的最常用方法是编译带有描述性标题的图像集合。例如,下面的图片的标题为“一只橙色的猫坐在手提箱里准备打包。” 这与典型的图像数据集不同,后者仅用一个名词来标记同一张图片,例如“猫”。因此,一种视觉语言数据集不仅可以教一个AI模型,而且还能使用动词和介词来教他们如何识别对象,以及它们如何相互关联并相互作用。

但是您可以看到为什么此数据管理过程将永远耗时。这就是为什么现有的视觉数据集如此微不足道的原因。一个流行的纯文本数据集(如英语Wikipedia(实际上几乎包括所有英语Wikipedia条目))可能包含近30亿个单词。像Microsoft上下文中的通用对象或MS COCO这样的视觉语言数据集仅包含700万。根本没有足够的数据来为任何有用的东西训练AI模型。

“无声化”解决了这个问题,它使用无监督学习方法将MS COCO中的少量数据扩展到英语Wikipedia的大小。在当今用于评估AI语言理解力的一些最困难的测试中,最终的视觉语言模型要优于最新模型。

自然语言处理初创公司Hugging Face的联合创始人兼首席科学官托马斯·沃尔夫(Thomas Wolf)表示:“在这些测试上,您不能通过稍作尝试就能超越最新技术。” “这不是玩具测试。这就是为什么这令人兴奋。”

从tokens 到 vokens

首先让我们整理一些术语。到底是什么?

在AI语言中,用于训练语言模型的单词称为标记。因此,UNC研究人员决定将与他们的视觉语言模型中的每个标记相关的图像称为“维克”。Vokenizer是他们所谓的算法,该算法为每个令牌查找元音,而vokenization是他们所谓的整个过程。

这样做的意义不仅在于显示AI研究人员喜欢编造单词。(他们的确如此。)这也有助于打破vokenization背后的基本思想。UNC研究人员不是从图像数据集开始并手动写句子作为标题(这是一个非常缓慢的过程),而是从语言数据集开始,并使用无监督学习来将每个单词与相关图像进行匹配(稍后会详细介绍)。这是一个高度可扩展的过程。

在这里,无监督学习技术最终是论文的贡献。您实际上如何找到每个单词的相关图像?

声化
让我们回到GPT-3。GPT-3是称为翻译器的一系列语言模型的一部分,当在2017年首次引入无监督学习将其应用于自然语言处理时,它代表了一项重大突破。变形器通过观察单词的用法来学习人类语言的模式。在上下文中使用,然后根据该上下文创建每个单词的数学表示,称为“单词嵌入”。例如,“猫”一词的嵌入可能表明,它经常在“喵”和“橙色”两词周围使用,而在“树皮”或“蓝色”一词中较少使用。

这就是转换器如何近似单词的含义,以及GPT-3如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子,将句子组合成段落。

有一种并行技术也可以用于图像。它不扫描文本以查找单词使用模式,而是扫描图像以查找视觉模式。它列出了猫在床上而不是树上出现的频率,并创建了嵌入该上下文信息的“猫”。

UNC研究人员的见解是,他们应该在MS COCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入,将标题转换为单词嵌入。这些嵌入的真正精巧之处在于它们可以在三维空间中绘制,您可以从字面上看到它们之间的关系。与单词嵌入紧密相关的视觉嵌入将在图形中显示得更近。换句话说,可视化猫嵌入(理论上)应与基于文本的猫嵌入重叠。很酷

您可以看到前进的方向。一旦将所有嵌入图形化并进行比较并相互关联,就很容易开始将图像(标记)与单词(标记)进行匹配。请记住,因为图像和单词是根据其嵌入进行匹配的,所以它们也会根据上下文进行匹配。当一个词的含义完全不同时,这很有用。该技术通过为每个单词实例找到不同的元音来成功地解决了这一问题。

例如:

在两个示例中,令牌都是“联系人”一词。但是在第一句话中,上下文提示该词是指联系信息,因此,复数形式是联系人图标。在第二句中,上下文提示该词是指触摸,因此,复音表示猫被抚摸了。

研究人员使用他们用MS COCO创建的视觉和单词嵌入来训练其vokenizer算法。经过培训后,发声者便可以在英语维基百科中找到令牌的发声者。这不是完美的。该算法仅发现大约40%的令牌为vokens。但这仍然是拥有近30亿个单词的数据集的40%。

利用这个新的数据集,研究人员重新训练了一种称为BERT的语言模型,BERT是Google在GPT-3之前开发的一种开源转换器。然后,他们在六种不同的语言理解测试中测试了新的和改进的BERT,包括SQuAD,斯坦福问题回答数据集(该模型要求模型回答有关一系列文章的阅读理解问题)和SWAG,SWAG试图使模型具有以下一些微妙之处:用英语来探究它是否只是模仿和记忆。改进后的BERT对所有这些都表现更好,Wolf说这没什么可打扰的。

研究人员,博士研究生Hao Tan和他的顾问Mohit Bansal将在两周内的自然语言处理经验方法会议上介绍其新的声素化技术。尽管这项工作还处于初期阶段,但Wolf认为他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破。这是类似的火花,有助于大大推动自然语言处理的发展。

他说:“在NLP上,两年前我们取得了巨大突破,然后突然间,NLP成为了一个正在发生很多事情的领域,它领先于所有其他AI领域。” “但是我们存在将文本与其他事物联系起来的问题。就像这只只会说话却看不见,听不到的机器人一样。”

他说:“本文是他们设法将其连接到另一种方式的一个例子,并且效果更好。” “您可以想象,当您想在机器人中利用这种功能强大的语言模型时,其中某些技术可能会被重用。也许您使用同一东西将机器人的感官与文本联系起来。”

这可能会导致常识AI的下一个重大突破相关推荐

  1. 独家 | 这可能会引领通用AI的下一个重大突破

    作者:Karen Hao 翻译:张一然 校对:欧阳锦 本文约2500字,建议阅读8分钟. 研究者们正在教一个大型的语言模型如何去"看"以帮助他们更好的理解这个世界. 标签:自然语言 ...

  2. 这可能会引领通用AI的下一个重大突破

    作者:Karen Hao  翻译:张一然   校对:欧阳锦 本文约2500字,建议阅读8分钟. 研究者们正在教一个大型的语言模型如何去"看"以帮助他们更好的理解这个世界. 您可能已 ...

  3. 蒲月“登高”,临风眺望,旷视邀您共赴AI的下一个十年之约

    未来十年,人工智能将如何发展,社会将在AI的推动下如何变革,全球需以何种姿态共同迎接智能爆炸的时代?这将是一项复杂的系统工程,对这个问题的回答需要汇聚全球产业界.学术界的力量来共同探索. 2020年6 ...

  4. 编程的终结;展望2023年AI系统方向;AI的下一个阶段

    1. OpenAI掌门人Sam Altman:AI的下一个发展阶段 各种AI工具已显现出巨大的日常应用潜力,可以实现人类的各种想法,改善人类的工作方式,比如由Stability.ai发布的开源Stab ...

  5. 大数据是电子地图的基础,AI成为下一个技术风口

    每到春运之时,人口的迁入和迁出就成了城市的主旋律.昨日,高德地图发布了2017年春运大数据.其中,广东省的5座城市在人口迁出比例排名中占据前5位,而安徽省的4座城市名列人口迁入比例排名前10位,成为返 ...

  6. ai前沿公司_美术是AI的下一个前沿吗?

    ai前沿公司 In 1950, Alan Turing developed the Turing Test as a test of a machine's ability to display hu ...

  7. 吴恩达:AI的下一个发展方向,从大数据转向小数据

    AI 发展方向需要转向「小数据」了. 吴恩达(Andrew Ng)在 AI 领域有着很高的声誉.在 2000 年代后期,他率先使用 GPU 与斯坦福大学的学生一起训练深度学习模型,并于 2011 年创 ...

  8. 认知智能,AI的下一个十年 | AI Procon 2020

    整理 | 屠敏 出品 | AI科技大本营(ID:rgznai100) 60 年间的「三起两落」 ,人工智能的沉浮变迁. 在 1956 年的夏天,人工智能在美国达特茅斯大学召开的学术会议之上蹒跚学步,吸 ...

  9. 认知智能,AI 的下一个十年 | AI Procon 2020

    整理 | 屠敏 出品 | AI科技大本营(ID:rgznai100) 60 年间的「三起两落」 ,人工智能的沉浮变迁. 在 1956 年的夏天,人工智能在美国达特茅斯大学召开的学术会议之上蹒跚学步,吸 ...

最新文章

  1. leetcode-93-复原ip地址
  2. 四节传送带plc梯形图_自动控制系统的大脑--PLC
  3. 日期控件的点击事件,在js中添加callback属性,不在html中直接添加
  4. asp.net mvc脚手架代码生成工具
  5. flask post json_【python:flask-SocketIO】网络通信框架简单了解
  6. linux 智联 网卡设置,Linux初学者DNS配置指南(四)配置Bind常见问题
  7. ssh 配置文件中 maxsessions 与 MaxStartups
  8. 利用iis服务器创建站点,如何使用iis建立一个网站
  9. cmd指令-快捷查看电脑ip地址
  10. 美洽客服JavaScript 网页插件
  11. 纤亿通带您了解生活小妙招--构建家庭网络指南
  12. 如何解决eclipse桌面快捷方式无法打开,jre or jkd的问题
  13. 主流手机CPU及机型介绍!手机CPU生产厂商介绍!高通QSD8250、MSM8255、TI OMAP 3630、nVIDIA Tegra 2介绍
  14. 如何在PHP中使用Modulo运算符
  15. 冯俪 | 成为最好的你,才最有魅力!
  16. 77、基于STM32单片机的超市餐饮二维码/条形码摄像头识别结账扫码系统设计
  17. 【英语六级笔记】翻译部分
  18. D2. Balance
  19. Linux中使用grep -v grep 查找不含有 grep 字段的行
  20. 常见的关系型数据库与非关系型数据库对比详解。

热门文章

  1. 基于javaweb的房产中介管理系统(java+ssm+html+bootstrap+layui+mysql)
  2. HPE: smart storage: hpssacli:
  3. LaTeX公式在括号内换行
  4. npm ERR! code ELIFECYCLE npm ERR! errno 2 npm ERR! meetwebpack@1.0.0 build: `webpack` npm ERR! Exit
  5. 北京指标公户你不知道的那些事
  6. 光伏并网逆变器资料,包含原理图
  7. 《中英双解》leetCode Jump Game(跳跃游戏)
  8. 如何写好一篇技术论文
  9. python数据分析/机器学习 笔记之决策树(泰坦尼克号旅客生存预测)
  10. win10 php安装seaslog扩展