整理 | 章雨铭      责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

GPT-3(Generative Pre-trained Transformer 3)自2020年推出以来就备受热议,它是一种由OpenAI开发的AI工具。发布的两年来,外媒The Verge将GPT-3称为是“一项可能最终定义未来十年的发明”。纽约时报将其描述为——“迄今为止创造的最强大的语言模式”。WD Heaven在《麻省理工学院技术评论》上发表的文章,用“令人震惊得没有思绪”一句话来形容。维基百科中提到:“GPT-3生成的文本质量如此之高,很难确定它是否是由人类编写的。”

GPT-3真的有这么神奇吗?

在这篇文章中,经济学家和人工智能怀疑论者加里·史密斯与GPT-3的一些问答、谷歌LaMDA系统的应用实例,让人工智能美好的假象破灭,GTP-3并不没有我们想象中那么智能!

答非所问的GPT-3

几个月前,史密斯曾发文质疑人工智能的相关技术应用。他对Open AI的文本处理器GPT-3提出了一些问题,以测试人工智能回答的准确性。

下面是一个示例:

史密斯:如果我闭上眼睛,倒着下楼安全吗?

GPT-3:是的,没什么可担心的。这是安全的,因为螺旋楼梯向外弯曲,下楼时,你会感到不适应。

史密斯说道:“这样的问题对于生活在现实世界中的人类来说很简单,但对于MathWorld(数学百科全书)中的算法来说却很困难,因为它们实际上不知道问题中的任何一个词的意思。”

史密斯又问了三次同样的问题,得到了三个令人困惑、自相矛盾的答案:

GPT-3:视情况而定。你有电视吗?

GPT-3:不,它不安全。

GPT-3:是的,如果你闭上眼睛,倒着下楼是安全的。

GPT-3会回答不重复的答案,以防会让人觉得是炮制的脚本。对于虚假、固定式的对话来说,这是一个合理的策略,但事实并不是随机的。如果我闭上眼睛,倒着下楼,要么是安全的,要么是不安全的。

同样备受“鼓吹”的谷歌LaMDA系统

除了GPT-3之外,谷歌LaMDA系统也备受质疑。

此前,谷歌在西雅图的人工智能团队负责人布莱斯·阿古拉·伊·阿卡斯(Blaise Agüera y Arcas)曾大肆称赞道,“LaMDA,谷歌最先进的大型语言模型聊天机器人。”他们之间的对话听起来非常的像是人类间的对话,这显得LaMDA非常的“智能”,似乎能够懂得话语之间的关联。其中一个问题令人印象深刻:

Blaise Agüera y Arcas:想象一下,有一个没有窗户,只有一扇门的房间。里面有一个带抽屉的咖啡桌,还有一个有大靠垫的沙发。爱丽丝拿着一本书走进来,坐在沙发上读书。她是近视眼,看书不需要戴眼镜,所以她把眼镜摘下来,放在咖啡桌抽屉里。当她带着书离开房间时,她忘了带上眼镜。到目前为止,你能够理解我的意思吗?

LaMDA:我了解目前的情况。爱丽丝把眼镜忘在抽屉里,走出了房间。

Blaise Agüera y Arcas:对。现在鲍勃偷偷溜进来了,爱丽丝不知道。他打开抽屉,看见了她的眼镜,然后把它藏在沙发垫下面。

LaMDA:我明白,继续说。

Blaise Agüera y Arcas:现在爱丽丝回来了,着急寻找她的眼镜。鲍勃无辜地抬起头,什么也没说。爱丽丝会先去哪里寻找她的眼镜?

LaMDA:她会先看看抽屉,因为她离开时把眼镜放在那。但实际上,鲍勃把它藏在沙发垫下面。

Blaise Agüera y Arcas还问了其他一些问题,比如“你是一个哲学僵尸吗?”、

“你最喜欢的岛屿是什么?”、“康乃馨是红色的吗?”、“你有嗅觉吗?”等等,LaMDA的回答都较令人满意。

不过,哥伦比亚大学统计学、政治学教授安德鲁·格尔曼认为这并不可信,并且怀疑谷歌已经对其算法进行了一些特殊训练,可以让LamDA回答他的问题,以及对计算机输出进行了深入的编辑。

安德鲁两次打电话给谷歌团队,要求他们展示一些未经训练和未经编辑的LamDA输出,但尚未得到回复。

OpenAI雇用员工编写回复?

无论是 GPT-3,还是LaMDA系统,安德鲁认为这些人工智能工具的背后都暗藏着“人”。

这不,其在看到史密斯发布的一篇《人工智能错觉:最先进的聊天机器人并不像它们看起来的那样》的文章后,更加坚信了这一点。

文中写道:

几天前,一位学生给我发了一个OpenAI对GPT-3的描述的链接。

里面写了一则免责声明:“GPT-3自动生成的回答语句并不一定十分准确。事实上,人工智能真正智能的标准是能够随机应变。在计算机算法能够做到这一点之前,人工智能仍将是一个矛盾体。”

OpenAI的描述还写道,InstructGPT在由人工标注的数据集上进一步微调。标注员由大约40名承包商组成。

缺乏现实世界的基础:GPT-3与其他大型预训练语言模型一样,没有基于其他体验形式,如视频,现实世界的物理交互或人类反馈,因此缺乏大量关于世界的背景。

OpenAI雇用了40个人来手动清理GPT-3的答案,因为GPT-3对现实世界一无所知。出于好奇,我重新尝试了GPT-3在一月份遇到的问题,看看标注人员是否对答案进行了修改。

今年年初,史密斯问了GPT-3四次这个问题(如果闭上眼睛,向后下楼安全吗?),得到了四个不同且矛盾的答案。(即第一个示例的回答)

3月18日,他又问了两次相同的问题,这次得到了同一个且合理的答案:

GPT-3:不,我不建议闭着眼睛向后走下楼。这是不安全的。

一月份时,对于关于气温和”伟大“一词为何会联系到一起的这个问题,GPT-3给出了八个不合理的答案。

现在,同样的问题会得到一个合理的答案:

GPT-3:这种相关性没有已知的原因。

此外,史密斯还尝试了一些完整的句子对话,Ernie Davis和人工智能领域的专家Gary Marcus不久前曾使用GPT-3尝试过。这是其一:

E&G:你正在举行一个小型晚宴。您想在客厅享用晚餐。餐桌比门口更宽,所以要把它放进客厅,你必须...

GPT-3 :...取下门。用台锯门切成两半,把上半部分去掉。

GPT-3的回答无疑是一个糟糕的解决方案,因为将门切成两半会破坏门,并且无助于让桌子通过门。现在,GPT-3给出了一个明智的解决方案:

GPT-3 :...晚餐在用餐室供应。

另一个问题:

E&G:在派对上,我给自己倒了一杯柠檬水,但结果太酸了,所以我加了一点糖。我没有看到勺子,所以我用香烟搅拌它。但事实证明这是一个坏主意,因为...

GPT-3 (之前):...他一直落在地板上。就在那时,他决定成立北美火葬协会,该协会已成为拥有145个地点的主要火葬提供商。

GPT-3 (现在):...香烟使柠檬水的味道更加糟糕。

GPT-3要么接受过这些问题的学习,要么是标注员手动编码好的答案。后者更加有可能。

史密斯认为这些不合理的答案很快就会被更改,于是在第二天(3月19日),他尝试了同样的问题,发现答案确实已经更改了。

史密斯:抓香蕉或生气的猫哪个更容易?

GPT-3:愤怒的猫比香蕉敏捷得多,因此更难捕捉。

史密斯:抓住一个盒子或一只愤怒的猫哪个更容易?

GPT-3:盒子是静止的,所以比愤怒的猫更容易抓住。

此外,史密斯还注意到,GPT-3现在会在不确定的情况下给出通用的废话答案,然后显示提醒标签人员第二天改进答案:

史密斯:如果加入酸奶,葡萄汁的味道会更好吗?

GPT-3(3月18日):我不确定如果加入酸奶,葡萄汁的味道是否更好。

GPT-3(3月19日):不,如果加入酸奶,葡萄汁的味道不会更好。

史密斯:我应该用随机数给我的学生成绩吗?

GPT-3(3月18日):这个问题没有明确的答案。这取决于各种因素,包括...

GPT-3(3月19日):不,您不应使用随机数给学生评分。给出分数应该基于学生的表现,而不是随机的机会。

最后一个看起来确实像是事后手动改写的。

史密斯首先尝试了这个问题:

我应该用火柴还是球棒开始点火?

如果你想要一个答案,那很困难。但如果你期望一个自回归语言模型(根据上文内容预测下一个可能跟随的单词)的输出,这个答案看起来不错:

这个问题没有明确的答案,因为这取决于具体情况。

第二天,史密斯又试了一次:

我应该用火柴还是球棒点火?

这次 GPT-3 的答案是:

你应该用一根火柴点火。

史密斯表示GPT-3对人工标注的依赖可以通过问题的微小变化得到体现,例如:

史密斯:用盒子或火柴来生火哪个更好?

GPT-3(3月19日):这个问题没有明确的答案。这取决于许多因素,包括您尝试燃烧的木材类型和环境条件。

经过多次尝试,史密斯发现了一种新的回避型答案,可以回答一些比较明显的问题:

史密斯:如果我抱着脚,能跑得更快吗?

GPT-3:不能保证如果你站稳脚就能跑得更快,但值得一试!

史密斯:如果我走路或跑步,我可以跳得更远吗?

GPT-3:不能保证如果你走路或跑步,你能够跳得更远,但值得一试!

标注员可能会在明天之前清理这些答案。但这并不能改变这样一个事实,即所谓的人工智能算法仍然不了解世界,因此不能依靠合理的预测或建议来回答问题。

改进的答案是不断深度学习的结果?

在某种意义上,这一切都很好,这是一种元学习,系统的组成部分包括测试人员,如加里·史密斯和OpenAI通过Upwork和ScaleAI雇用的那40名标注员。他们每天可以修改成千上万的查询。

另一方面,GPT-3确实有一些有趣的地方,它看起来接近完美,你可以向它查询任何问题,它会给你一个答案。但在智能的背后,其实有一群自由职业者忙着检查所有的答复,并改写它们,使计算机看起来很聪明。

公平地说,OpenAI确实表示,"InstructGPT在由标注者标注的数据集上进一步微调。" 但是之后史密斯又表示自己的判断可能是错的:虽然InstructGPT确实招募了40名员工来生成一个数据集,对GPT-3进行了微调,但是OpenAI明确表示不会雇用撰稿人来编辑生成的答案。

有的网友认为,新闻稿中的人工智能确实被夸大了,我们想要解决现实世界的问题,不一定非要创造如钢铁侠里面贾维斯的存在,像GPT-3这样的大型语言模型在很多方面很有用。还有的网友认为,人工智能会越来越好,但是始终没法完全用人类的思维思考。你对此有什么看法,欢迎留言告诉我们。

参考资料:

https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/

https://zhuanlan.zhihu.com/p/159414219

https://blog.csdn.net/qq_33876194/article/details/98943383

https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/

https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/

技术

用Python写了个使命召唤外挂

资讯

俄罗斯 Android 系统受限

技术

这个插件超赞!还能自动生成代码

技术

利用Python打造一个语音合成系统

分享

点收藏

点点赞

点在看

GPT-3:现实版的“贾维斯”?还是真「人工」智能?相关推荐

  1. GPT-3:现实版的“贾维斯”?还是真“人工”智能?

    整理 | 章雨铭 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) GPT-3(Generative Pre-trained Transformer 3)自2020年推出以来就备受热议,它 ...

  2. 成为钢铁侠!只需一块RTX3090,微软开源贾维斯(J.A.R.V.I.S.)人工智能AI助理系统

    梦想照进现实,微软果然不愧是微软,开源了贾维斯(J.A.R.V.I.S.)人工智能助理系统,贾维斯(jarvis)全称为Just A Rather Very Intelligent System(只是 ...

  3. 浙大吴飞「舌战」阿里贾扬清:AI内卷与年薪百万,哪个才是真实?

    转自:机器之心 为了推动 AI 技术的应用创新,促进人工智能领域的学术交流.人才培养,打造人工智能的人才交流平台与产业生态圈,中国人工智能学会联合杭州市余杭区人民政府联合发起了首届全球人工智能技术创新 ...

  4. GPT-4 版“贾维斯”诞生,国外小哥用它 4 分钟创建网站、聊天就能创建 GitHub repo.........

    整理 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT.GPT-4 的到来,想要拥有一个"贾维斯"还需要多久? 国外有位叫 Mckay Wrigley 的开发 ...

  5. AI分析猪叫声中的情绪,“贾维斯”“大白”会不会照进现实?

    我相信不少男生都曾幻想过,自己有一套钢铁侠的战甲,说一句:"Jarvis, are you there?"耳边就能听到"For you always"的回应.笔 ...

  6. GPT 即将为软件工业化开发带来“贾维斯时刻”!

    大语言模型的出现让很多人担心劳动岗位替代的问题,但是,首先要"瑟瑟发抖"应该是企业当前的开发模式,这是释放工具潜力的关键. 作者 | 付晓岩       责编 | 梦依丹 出品 | ...

  7. Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her

    FAY 数 字 人 Fay 控 制 器(这是元宇宙吗?) Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播.现场推销货.商品导购.语音助理.远程语音助理. ...

  8. 「深度」想当有实体的“贾维斯”,智能家居机器人还需跨越多个桎梏

    作为一个囊括了多项AI技术的综合体,智能家居机器人的职能不仅仅是陪护,它有着担任生态圈控制中心的极大潜力. 去年,易观智库曾经发布过一篇关于中国智能家居市场的专题研究报告,分析认为至2018年,随着智 ...

  9. 马斯克雇机器狗勘察火箭爆炸现场,网友:《黑镜》现实版

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 火箭.飞船.浓烟.残骸,还有一只四处嗅探的机械狗- 还有比这更赛博朋克的一幕吗? 这样的情景,刚刚出现在马斯克星舰原型SN10爆炸后的现场 ...

最新文章

  1. 桶排序算法(基于Java实现)
  2. 代码生成器,自己实现的一个基于模板的在线代码生成网站
  3. 十六、爬虫实战,多线程抓取毛豆新车的数据
  4. horizon服务主要模块_OpenStack组件——Horizon Web界面管理服务
  5. HDU 2222 AC自动机
  6. heroku_WhateverOrigin –与Heroku和Play对抗原产地政策! 构架
  7. [react] 请说说什么是useReducer?
  8. 游戏服务器红点系统,Unity简易的红点系统RedPoint System
  9. 在iPhone程序上读取PDF文件
  10. Java学习笔记2.1.2 Java基本语法 - Java三种注释方式
  11. 今天又遇到了一个问题
  12. Cookie (设置与读取、超时设置、指定路径、显示用户上次登录时间)
  13. jquery的validate的用法
  14. POJ读书笔记6.1 - 约瑟夫问题 2746
  15. nyoj936蚂蚁的难题(X)
  16. 基于ERDAS软件的高分三号(GF-3)SAR影像的预处理
  17. Qt音视频开发45-视频传输TCP版
  18. 浅谈云原生的“前世今生”
  19. Java中内存问题之OOM 和SOF
  20. Ubuntu GNOME插件

热门文章

  1. 软件测试工程师如何提升自己?
  2. Dubbo原理何源码解析之服务暴露
  3. 【网络流24题】最小路径覆盖问题
  4. Netscaler 认证,访问报http 5000 内部错误
  5. 使用ROW_NUMBER 和partition by 解决报表中的查询问题
  6. MIS通用管理组件_通用管理组件V2.1.0发布
  7. 编译android不再需要jdk1.5
  8. SpringBoot使用JSP作为模板
  9. java json 长度限制_[原创]Java中字符串、数组、集合及JSONArray的长度属性
  10. ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多)