转自:https://www.jiqizhixin.com/articles/2018-11-21-14

今年八月,来自西雅图一家AI组织Allen Institute for Artificial Intelligence的科学家公布了一组给机器出的英语测试题。题目检验了机器能否选择出适合语境的后半句话:

在舞台上,一位女士坐在了钢琴旁。她:

A)坐在了长凳上,而她的妹妹在玩玩偶。

B)微笑着听音乐。

C)在人群中看舞者跳舞。

D)紧张地把手指放到了琴键上。

对于你来说,可能是个很简单的问题,但对于机器则不然。人类能够答对这套测试题中88%的问题,而机器只答对了大约60%。对于科学家们来说,这个数字已经很不错了,因为他们深知建造一个能够理解自然语言的系统有多难。

两个月以后,Google团队发布了撼动自然语言处理(NLP)领域的Bert模型。使用了Bert模型的系统在回答上面的测试题时,正确率与人类不相上下。

Bert的到来为人工智能的发展带来了里程碑式的意义。在过去的几个月中,科学家们能够证明机器能以通用的方式学习多变的语言,并且应用到不同的具体任务中。例如,虚拟助手Alexa、Google Home,以及在法律、医疗、金融等领域自动分析文档的软件所运用的技术都能得以提高。

有了Bert,机器终于能跟能人进行自然的对话了。

但是也有一些负面影响:比如当社交媒体平台运用了这项研究,其中的聊天机器人可能会假装成人类,我们可能连是在跟人对话还是机器对话都傻傻分不清楚了。

研究学者已经证明了飞速发展的AI技术能够创造以假乱真的图片,当这类技术迁移到自然语言领域,我们需要对网上遇到的一切都要更加提高警惕。

这些新的语言系统是通过分析成百上千万人类写出来的语句来进行学习的。旧金山一家研究机构 OpenAI研发的一款系统,分析了数千本书籍,包括浪漫小说、科幻小说等文学作品,Google的Bert也研究了同样的书籍,另外再加上维基百科中的所有内容。

每个系统都是通过分析文本来学习一项特殊的技能。OpenAI系统学习的目的是猜到句子中的下一个单词是什么,而Bert是能够猜出一句话中任何一个缺失的单词是什么。但是在掌握这些特殊技能的同时,它们也学习了语言是如何进行组合的。

“如果Bert能够猜到百万语句中所缺失的单词(例如“一个人走近超市买了1 ____ 牛奶”),那么它也能够理解语言中单词之间的关系”,见证Bert诞生的谷歌科学家Jacob Devlin表示。

基于Bert的系统也能够将相关知识运用到其他任务中去。当研究人员给Bert提供一系列问题及对应的回答,它就能自主学习回答其他的问题。当向它“投喂”描述同一事件的新闻标题时,那么以后当两句相似的语句出现时,它就进行识别判断了。 而一般情况下,机器只能识别完全一致的语句。

Bert能够完成Allen Institute出的常识测试,也能够做阅读理解测试,回答关于百科全书中的问题,例如“氧气是什么?” “降雨量是指什么?” 这类的问题。在另外一个测试中,它能够对影评进行情感分析,判断出影评是正面的评价还是负面的。

Bert在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同的NLP测试中创出最佳成绩。

这类技术的出现能帮我们向AI领域中的许多长远目标迈近一大步,比如总结分析大量复杂的信息,来协助人们做一些重大决定。

在OpenAI系统公布的几周后,其他科学家将其应用到对话当中。一个独立的科学研究组织利用OpenAI的技术在一个由Facebook AI Lab等机构主办的比赛中创造了最佳聊天机器人。谷歌开源了Bert代码,技术人员则能够把它应用到不同场景的任务中去。Google科学家Devlin和他的团队已经用102种语言对它进行了训练。

在众多科研人员认为自然语言相关技术已经遇到瓶颈时,像Bert这样系统的出现让大家看到了无限潜能。这种技术背后的复杂数学系统叫做神经网络。近些年来,这类深度学习技术加速了人脸识别、无人驾驶等技术的发展。

Bert之所以能成功,部分原因在于它所依赖的神经网络在过去几年还没有如此强大的计算机处理能力。利用Google为神经网络搭建的计算机处理器,它能够在几天之内分析维基百科里的所有文章。

Devlin先生说,驱动Bert的想法已存在多年,但它们现在才开始发挥作用,是因为现阶段的硬件可以处理更多的数据。

像谷歌一样,其他几十家公司正在为这种机器学习专门制造芯片,许多人认为这种额外处理能力的涌入将继续加速各类AI技术的发展,尤其是自然语言方面的应用。

但质疑的声音也同时存在。一些学者认为,这项技术可以持续快速发展,是因为研究人员倾向于专注于他们可以取得进展的任务,并避免他们不能做到的任务。这些系统距离真正理解语句或行文中的含义还有很长的路要走。

虽然Bert通过了实验室的常识测试,但机器距离达到人类常识的高度水平还很远。但不得不说,自然语言研究的发展轨迹已发生变化,这是一个“爆炸式进展”的时刻。

原文链接:https://www.nytimes.com/2018/11/18/technology/artificial-intelligence-language.html#click=https://t.co/v0Raiygv0p

为什么说 Bert 大力出奇迹相关推荐

  1. pytorch微调bert_小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「大力出奇迹」的时候,作为调用预训练语言模型最流行的库,HuggingFace 尝 ...

  2. 小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    转载:https://tech.ifeng.com/c/7pqoBttuWS0 选自Medium 作者:Victor Sanh 机器之心编译 参与:魔王 过去一段时间,大模型层出不穷.在大家纷纷感叹「 ...

  3. AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势

    AI:大力出奇迹?Bigger is better?AI下一代浪潮?-人工智能的大语言模型(LLMs)的简介.发展以及未来趋势 目录 人工智能的大语言模型(LLMs)-AI下一代浪潮?Bigger i ...

  4. for循环数据量太大_中文文本分类roberta大力出奇迹之数据量大的问题

    问题描述: 笔者在文本分类场景中使用了roberta+pool+dense的三分类模型.采用预训练模型做项目的时候经常苦于数据太少,模型泛化性差,因此收集了1300W数据.在我尝试暴力出奇迹的时候,遇 ...

  5. 66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVer ...

  6. 历史转折中的英伟达:百亿豪赌出奇迹 实习生项目救主

    本文来自AI新媒体量子位(QbitAI) 所到之处,英伟达CEO黄仁勋例行强调:我们是一家AI公司. 谁又能说不是? 市值两年上涨7倍,芯片供不应求,屡战英特尔,坚持怼谷歌,是当前AI大红大紫中的实力 ...

  7. 求最大连续子序列和——解法1 – 暴力出奇迹||解法2 – 分治

    解法1 – 暴力出奇迹 穷举出所有可能的连续子序列,并计算出它们的和,最后取它们中的最大值 空间复杂度:O(1),时间复杂度:O (n 3) class Solution {public int ma ...

  8. Topcoder SRM 638 DIV 2 (大力出奇迹)

    水题,就是一个暴力.大力出奇迹. Problem Statement   There is a narrow passage. Inside the passage there are some wo ...

  9. 百鸡问题用计算机思维,大力出奇迹:当古代数学难题遇到计算机

    近年来,人工智能的春风不知吹动了多少资本的浪潮,从决胜棋坛的阿尔法狗,到遍地开花的无人车,AI成为经济寒冬里熊熊燃烧的火种,不知多少投资客捧着钞票前赴后继.科幻电影中,像人类一样思考.决策.学习的强人 ...

最新文章

  1. 前期优达无人驾驶对课程评价
  2. java 可控异常_java异常处理,重新认识java异常,java7异常处理的新特性!
  3. VS2010中水晶报表插件下载安装方法
  4. 北斗导航 | GPS原理与接收机设计——青冥剑(金码、C/A码、P码)
  5. moment.js 快捷查询
  6. CAS算法的理解与应用
  7. 使用Markdown写幻灯片之Marp
  8. 【stm32单片机基础】按键状态机实现长按和短按
  9. 致远OA单点登陆到第三方系统(零代码实现)
  10. 基于Matlab的DSB调制解调,课程设计(论文)-基于MATLAB的DSB调制与解调分析.doc
  11. 基于自适应反向学习的黏菌算法
  12. 前端学习—JavaScript
  13. 计算机音乐大全集,计算器音乐合集
  14. 联合利华投资10亿欧元,致力到2030年淘汰清洁产品中的化石燃料
  15. Xilinx AXI USB2.0 Device IP 手册阅读笔记
  16. 基于android的远程视频监控系统(已开放源码)
  17. Http Post、Get提交工具
  18. 小白能理解的奈奎斯特采样及延伸出的理论
  19. 为什么说华为Petal One不只是数字会员组合服务
  20. Excel基础:开始菜单之字体的华丽转身

热门文章

  1. 函数助手-时间函数-timeShift
  2. flywa报错Detected resolved migration not applied to database: 20221103.10000
  3. ACM复习(57)17225 狼人游戏
  4. 华为计算机变大,华为P20P屏幕太小,一个小小的转换器,秒变电脑模式+超大屏幕...
  5. 我们应该知道的76个常识
  6. 【论文导读】Inferring deterministic causal relations
  7. 实证论文|数据处理问题合集
  8. 智能路由心酸调优路——看推广代码简洁之道的重要性
  9. 利用<canvas>标签绘制三角形。
  10. Vue计算属性- computed:{}