晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

纵使地表最强语言模型GPT-3学习了30亿个单词的英文维基百科,但是依然会犯低级错误。

如果你问它:太阳有几只眼睛?

GPT-3会说“有一只”,不会意识到这个问题本身就是错误的。

因为仅受文本的训练很难让AI具备常识。

而人类靠“听说读写”全方位来学习一门语言,小时候还会有“看图说话”之类的训练。可见语言能力的形成绝不只能靠单调的语料库来解决。

因此北卡罗来纳大学教堂山分校(UNC Chapel Hill)的研究人员设计了一种新技术——Vokenization——来改变纯语言模型学习能力不足的现状。

用图像和语言联合训练AI并不是什么新鲜事,但这一次他们使用了无监督方法扩展了有限的图像资源,对于视觉语言模型来说是一项重要突破。

该论文已经被EMNLP 2020收录,相关代码也已经开源

解决图片数据集不足问题

要让AI像人类一样从“图片卡”学习语言并非易事。

因为图像数据集和纯文字语料库之间,无论是大小还是分布上,都存在着巨大的差异。

例如,下面的图片在视觉语言数据集中被描述为:“一只橘猫坐在一个准备打包的行李箱里。”

用这样的数据集训练,可以教会AI模型如何从动词介词中识别对象以及它们之间的关系。

但手工编写句子的工作量是巨大的,大部分图像数据集只会用“猫”这一个词来描述图片。只有用无监督方法才能让AI学习到更大的数据集。

GPT-3可以通过无监督学习进行训练,这个过程不需要人工数据标注,训练数据集可以做到非常大。而目标识别算法虽然能让AI从现实中学到更多知识,却存在着样本数量太少的问题。

比如,COCO数据集仅有150万个已标记的目标实例、700万个单词,而英文维基百科语料库有近30亿个单词。

从token到voken

Vokenization解决了这个问题,它使用无监督学习方法将样本数量较少的COCO数据集扩展到英文维基百科的大小。

研究NLP的人都知道,用于训练语言模型的单词称为token,作者将图像问题中的每个token相关的图像称为“voken”

论文作者不从语言数据集开始,并使用无监督学习来将每个单词与相关图像进行匹配,这是一个高度可扩展的过程。

Transformer是人们首次引入无监督学习用于NLP,它根据单词上下文创建每个单词的嵌入。比如“猫”一词的嵌入表明,它经常在“喵”和“橘色”两词附近使用,而很少和“树皮”或“蓝色”这样的词一起使用。

有一种平行技术也可以用于图像的“上下文”,它能列出了猫在床上而不是树上出现的频率,并创建了嵌入该上下文信息的“猫”。

研究人员在COCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入,将文字描述转换为单词嵌入。

在特征空间中,相近的单词嵌入其对应的视觉嵌入也离得更近。一旦将所有视觉嵌入进行比较并相互关联,就很容易将图像与单词进行匹配。

当一个词在不同语境中含义完全不同时,这很有用。Vokenization技术通过为每个单词实例找到不同的voken成功地解决了这一问题。

比如contact这个单词,当它在左边这幅图中出现的时候表示“联系人”,而在右边这幅图中出现时表示“接触”。

经过这种处理方式,算法找到了英文维基百科40%的token对应的voken。虽然没有找全,但是token总共有个30亿个啊!即使只有40%也大大扩展了数据集。

利用这个数据集,研究人员重新训练了BERT,在GLUE、SQuAD和SWAG等测试标准上,均优于纯文本训练的结果。

NLP初创公司Hugging Face的联合创始人Thomas Wolf认为,他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破,有助于大大推动NLP技术的发展。

作者简介

这篇论文的第一作者是谭昊,本科毕业于上海交大ACM班,现正在北卡罗来纳大学教堂山分校攻读博士学位。

 谭昊(图片来自彭博)

谭昊曾获得2019~2020彭博数据科学博士奖学金,他以一作身份发表的论文分别被AAAI、NAACL 、ACL、EMNLP、IJCAI等顶会收录。

谭昊的导师Mohit Bansal教授是本文的通讯作者,他还是北卡大学教堂山分校MURGe实验室主任。

 Mohit Bansal(图片来自UNC官网)

论文地址:
https://arxiv.org/abs/2010.06775

代码地址:
https://github.com/airsplay/vokenization

第三方解读:
https://www.youtube.com/watch?v=4T1u3Z2DaZA&ab_channel=DeepLearningExplainer

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

「MEET 2021智能未来大会」启幕,

早鸟票限时抢购中,扫码预定席位!

李开复博士、尹浩院士、清华唐杰教授,以及来自小米美团爱奇艺小冰亚信浪潮、容联、澎思地平线G7等知名AI大厂的大咖嘉宾齐聚,期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

拯救“没常识”的GPT-3得靠它了,交大ACM班校友提出“Voken” 无监督学习 | EMNLP 2020...相关推荐

  1. 大模型的1000+篇文章总结

    大模型的1000+篇文章总结 本文收集和总结了有关大模型的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关AI的 ...

  2. GPT4的1000+篇文章总结

    GPT4的1000+篇文章总结 本文收集和总结了有关GPT4的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关A ...

  3. GPT-3:被捧上天的流量巨星,却有重大缺陷,很危险...

    去年当红的流量明星非GPT-3莫属,能答题.写文章,做翻译,还能生成代码,做数学推理,不断被人们吹捧.不过,过誉的背后也有人开始质疑,GPT-3真的达到了无所不能的地步了吗? 红极一时的GPT-3现在 ...

  4. 用万字长文聊一聊 Embedding 技术

    作者:qfan,腾讯 WXG 应用研究员 随着深度学习在工业届不断火热,Embedding 技术便作为"基本操作"广泛应用于推荐.广告.搜索等互联网核心领域中.Embedding ...

  5. CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文

    导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文. 计算机视觉顶级会议 CVPR 2019 将于 6 月 15 日– 6 月 21 日在加利福尼亚州长滩 ...

  6. CVPR 2019 | 腾讯AI Lab 6大前沿方向33篇入选论文解读

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自腾讯 AI Lab 公众号(tencent_ailab),分组介绍了CVPR 2019 中腾讯 AI Lab 的6大重点研究方向和入选的33篇 ...

  7. 零基础入门深度学习 | 第二章:线性单元和梯度下降

    北京 | 高性能计算之GPU CUDA课程11月24-26日3天密集学习 快速带你晋级阅读全文> 无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作 ...

  8. 管理科学の学生自学CS的【计划】与【心得】

    从小见着代码就高兴,没办法.这玩意说什么都要学的,不可能不学的,这辈子都不可能不学的. 维护了一个github仓库https://github.com/PiperLiu/CS-courses-note ...

  9. 零基础入门深度学习(2) - 线性单元和梯度下降

    python深度学习大全 原文地址:https://www.zybuluo.com/hanbingtao/note/448086 往期回顾 在上一篇文章中,我们已经学会了编写一个简单的感知器,并用它来 ...

最新文章

  1. Facebook如何向十亿人推荐东西
  2. python最佳实践笔记
  3. 机房系统(三)——【充值 退卡 】
  4. 类QQ右下角弹出框(Qt)
  5. 阮一峰 《ECMAScript 6 入门》:let 和 const 命令
  6. BAPI_SALESDOCU_CREATEFROMDATA1--VA01
  7. 2021.C/C++静态代码分析工具
  8. WINDOWS是如何在注册表里记录盘符分配的
  9. Codeforces Gym 100342C Problem C. Painting Cottages 暴力
  10. 唐宇迪python课程数据百度云_【推荐下载】2017最新唐宇迪 Python数据分析与机器学习实战视频教程...
  11. 哈工大离散数学期末试题2021回忆版
  12. jQuery weui 时间选择器datetimepicker只用年月日
  13. CAXA图文档2007服务器端,CAXA图文档客户端系统管理员操作.doc
  14. 计算机蓝屏代码0x0000007b,开机出现蓝屏代码0X0000007B原因分析及解决方法
  15. 如何用html代码做表格里的对角线,如何用用div+css模拟表格对角线
  16. 大厂Android相关岗位校招职位要求汇总
  17. 三角形度数计算机公式,三角形角度计算公式
  18. 微信撤回消息在服务器可以看到吗,微信撤回消息可以查看了,对方撤回了什么一目了然...
  19. Sql Server 本地链接设置 127.0.0.1
  20. python+selenium打开浏览器-设置浏览器路径和驱动器路径

热门文章

  1. 类和实例方法有什么区别?
  2. 为什么Java大神,都在看Spring Boot和Spring Cloud的书?
  3. oracle 10g 4031
  4. Windows Server 2016 部署Hyper-V
  5. Packet Tracer 5.0实验(五) 快速生成树配置
  6. 【Codevs1322】单词矩阵
  7. CentOS系统dig和nslookup的安装
  8. 掌握这几种 Markdown 语法你就够了
  9. ansible之fetch模块
  10. 安装交叉工具链arm-linux-gcc