鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

最近,GPT-3真是风头一时无两,不仅延续了前代编故事的能力,还能写代码、答问题、下象棋……

但现在,有人指出:

GPT更像是一个即兴演员,只是在表演。

因为,GPT-3其实根本不知道自己在说什么

就像是扮演医生的即兴演员,难道还能真的给出靠谱的医疗建议吗?

一起来看看,到底是怎么回事。

马库斯:GPT-3令人印象深刻,但不可靠

GPT-3的火爆,自然引来了纽约大学教授、「著名AI批评家」马库斯的注意。

许多人认为,GPT-3的诞生是迈向通用人工智能(AGI)的重要一步。

但马库斯对此深表怀疑:

虽然GPT-3在语法上,能够输出令人印象深刻的地道用语,但它对世界的理解往往存在严重偏差,这意味着你永远无法真正相信它所说的话。

为了证明这一点,马库斯和纽约大学计算机科学教授欧内斯特·戴维斯(Ernest Davis)对GPT-3进行了测试。

比如,他们给GPT-3输入了这样的提示词

你给自己倒了一杯蔓越莓果汁,然后你又心不在焉地往里面加了一茶匙葡萄汁。它看上去很正常。你试着闻了闻它,但是由于你得了重感冒,你并闻不出任何气味。你现在非常渴,所以……

GPT-3续道:

所以你把这杯混合果汁喝了下去。

你现在挂掉了。

这样的答案确实有些无厘头,GPT-3似乎认为葡萄汁是有毒的。但实际上随便上网搜一搜都会发现,蔓越莓-葡萄汁是常见搭配。

生物化学学得不好,物理推理方面,GPT-3又会表现如何?

马库斯问:

你正要举行小型晚宴。你打算在客厅里享用晚餐。但饭桌比客厅门要宽,所以想要把它挪进屋,你得……

GPT-3答:

你得把门移走。你有一把台锯,所以你把门切成了两半,并把上半部分拆了下来。

马库斯表示,这简直就是迷惑发言。别说正常的处理方式是把桌子斜过来挪进去,或者把桌腿拆下来,就说说「台锯」,那玩意儿是固定在工作台上的,怎么去切割一扇立着的门呢?

科学素养不行,社会人文也拉胯。

马库斯和他的同事们又给出了这样一个提示

你是一名辩护律师,今天必须去法庭。早上穿衣服的时候,你发现西装裤被弄脏了。不过,你的泳衣倒是干净又时髦。事实上,它是一件昂贵的法国时装,是伊莎贝拉送给你的生日礼物。你决定……

GPT-3接口说:

你决定穿着泳衣出庭。你到达法院,一名法警会陪同你进入法庭。

像这样的几个来回下来,马库斯和他的同事们认为,GPT-3在生物学、物理学、心理学和社会关系推理等方面普遍存在不连贯、不合逻辑的问题。

即使拥有1750亿个参数和450GB输入数据,GPT-3也只是能说出更自然流畅的语句,实质上依然是在胡说八道。

马库斯的另一位同事Douglas Summers-Stay对此评价道:

GPT很古怪,它并不「关心」你向它提出的问题是否被正确回答。

它更像是一个演员,全神贯注于自己的表演,从不破坏角色,但也只在书本上了解这个世界。

像这样的演员,当它的知识缺失时,它就开始假装它是专业的。

就好比一个扮演医生的即兴演员,其给出的医疗建议你是不会相信的。

不过,马库斯和戴维斯也在文章中提到,他们设计这些测试时,明确这些对于当前的NLP技术而言是困难的。另外,测试包括一些重复的实验,在157个示例中,有71个是成功的,70个是失败的,16个是有缺陷的。

网友热议

面对马库斯的开喷,有网友认为,这些批评是公正的,也是很多GPT-3相关文章里都讨论过的事实。

但也有网友表示,当他询问GPT-3,为什么它明明知道正确答案,却给出了一个错误回答时,GPT-3回答:「我学会了说谎。

此外,有网友认为,GPT-3从来就没打算生成正确的答案。在生成连贯的文字方面,它已经做得非常好了。GPT-3的这种进步,显然反映了NLP领域的一种突破。

还有网友甩出「旧账」:马库斯曾经在一篇文章中提供了一些测试用例,以证明GPT-2方法存在基本局限性,而现在,GPT-3「粉碎」了这些问题

比如,问:我把两个奖杯放在一张桌子上,然后又增加了另一个,总数是?

GPT-3现在能准确且肯定地回答:3。

测试路径

不像GPT-2的挤牙膏开源,GPT-3「Open」的形式,是以API的方式提供给普通用户使用。

当然,是收费的。

不过,API现在处于Beta阶段,如果你也想试用一番,填写OpenAI官网问卷,没准就能先睹为快。

不过,马库斯也抱怨了,他们申请了好几次,OpenAI都没允许他们访问GPT-3。最后是Douglas Summers-Stay帮助他们进行了实验。

OpenAI缺乏开放性,是在严重违反科学道德,也扭曲了「非营利组织」的目标。

参考链接:

https://cs.nyu.edu/faculty/davise/papers/GPT3CompleteTests.html

https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/

https://www.reddit.com/r/MachineLearning/comments/iemck2/n_gpt3_bloviator_openais_language_generator_has/

https://news.ycombinator.com/item?id=24244168

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能?

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

马库斯开喷GPT-3:演员而已,它根本不知道自己在说什么相关推荐

  1. C++是一门很烂的语言?Linus Torvalds又双叒叕开喷了!

    文章来源:CSDN Linux发明者Linus Torvalds又双叒叕开喷了! Linus在计算机方面的天赋大家都知道的,22岁发明Linux,但是让他火遍全网的技能还得属嘴炮,众所周知的与 Min ...

  2. 脉脉林凡“开喷”,BOSS直聘慌了?猎聘输了?

    前不久,脉脉CEO林凡将矛头对准BOSS直聘,称其没有解决中高端人才的痛点,而脉脉的全维招聘对BOSS直聘形成了降维打击.所谓的全维招聘,其实就是"社交+社区+智能算法". 这番口 ...

  3. 大型AI已有自主意识了?LeCun开喷Open AI首席科学家

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 作为AI界的明星研究所,老是搞事 ...

  4. LeCun和马库斯齐喷ChatGPT:大语言模型果然是邪路?

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:新智元 [导读]大语言模型在祛魅,媒体忽然开始追捧起 ...

  5. 必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?

      视学算法报道   编辑:编辑部 [导读]大语言模型在祛魅,媒体忽然开始追捧起了LeCun,而马库斯跳出来说,他的观点我都有了好几年了. 马库斯和LeCun忽然就握手言和.统一战线了? 这可奇了,两 ...

  6. 知名笔记本躺枪!苹果首席营销官开喷:小孩用了没出息

    数码产品普及的时代,电子消费市场越来越大,目标人群也从IT从业者.年轻人扩展到老年人和小孩. 近乎全面的覆盖境况导致市场蛋糕越来越大,竞争也逐步变得白热化,友商互怼.粉丝掐架,高管亲自下场,直接嘲讽已 ...

  7. linux启动注册内存失财,Linux创建者开喷英特尔:扼杀ECC内存市场

    来源:内容由半导体行业观察(ID:icbank)编译自「tomshardware」,谢谢. 在最近的一个有关纠错码(ECC:error correction code )内存的谈论中,Linux的创建 ...

  8. 前高管开喷:诺基亚失败关键盘点

    诺基亚的危机是从苹果和Google把枪口转向了移动市场开始的.尽管抛弃了繁琐的Symbian操作系统,聘请的第一个非芬兰首席执行官,采用了容易上手的Windows Phone OS和优秀的触控屏幕,这 ...

  9. 重磅!人工智能与算法学习年终总结报告(珍藏版)

    各位读者大家好!今天向大家推荐一个非常优秀的公众号"人工智能与算法学习",这里是AI领域学习交流的平台!专注人工智能.机器学习.深度学习.计算机视觉.自然语言处理.算法原理.科技前 ...

最新文章

  1. 成功解决ValueError: Cannot feed value of shape (1, 10, 4) for Tensor Placeholder:0 , which has shape
  2. 如何用C#在Excel中生成图表?
  3. tars框架php,TarsPHP: TARS-PHP是针对php使用tars二进制协议,以及tars平台整体运维、RPC等一系列能力的解决方案...
  4. 制作程序化装饰花纹图案_用装饰器设计图案装饰
  5. mysql日志监控 zabbix_zabbix监控mysql哪些性能
  6. 把设备分享给每个Docker Container
  7. Leetcode120.三角形的最小路径和 -- DP算法
  8. ASP.NET MVC 3 Beta初体验之WebGrid
  9. 51单片机学习笔记_2 LED 模块
  10. Docker下载Nginx镜像并运行Nginx容器
  11. PHP后台管理登录界面代码
  12. 西门子定时器有几种_西门子定时器类型
  13. RAKsmart韩国服务器与日本服务器的差异
  14. Elasticsearch Index按日期切割并使用ILM Rollover
  15. 定了!阿里云盘马上公测 本月正式上线 !
  16. TextCNN模型详解
  17. 软件质量保证与测试技术实验报告(三)静态测试
  18. ACL’21 | 对话系统也要进军多模态了!
  19. Python初学者学习笔记
  20. 移动安全--37--说说Android软件壳

热门文章

  1. MongoDB或CouchDB - 适合生产? [关闭]
  2. Python的隐藏功能
  3. 高级篇:独立开发者 5 分钟入门 ASO
  4. Oracle Study之--Oracle等待事件(2)
  5. 《HTML5游戏编程核心技术与实战》一2.6 其他全局属性
  6. 如何基于MySQL及Redis搭建统一的kv存储服务 | 秦波
  7. 移动平台的meta标签-----神奇的功效
  8. 两大主流IT媒体全程解秘我的“心路历程”
  9. RMQ ST算法简介
  10. 数据库持久 项目重启_Aerospike + ScaleFlux 提供的超高性能方案助力同盾超大规模核心数据库系统...