来源:专知

运用逻辑推理能力进行全面的自然语言理解尝试。随着生成预训练Transformer 4(GPT-4)的发布,它在推理任务上被称为“先进”的,我们渴望了解GPT-4在各种逻辑推理任务上的表现。本报告分析了多个逻辑推理数据集,包括流行的基准数据集如LogiQA和ReClor,以及新发布的数据集如ARLSAT。我们使用需要逻辑推理的基准测试多选阅读理解和自然语言推理任务。我们进一步构建了一个逻辑推理的分布外数据集,以调研ChatGPT和GPT-4的鲁棒性。我们还对ChatGPT和GPT-4的性能进行了比较。实验结果表明,在大多数逻辑推理基准测试中,ChatGPT的表现明显优于RoBERTa微调方法。在我们的手动测试中,GPT-4表现得更好。在这些基准测试中,ChatGPT和GPT-4在知名数据集如LogiQA和ReClor上表现相对较好。然而,在处理新发布和分布外的数据集时,性能显著下降。对于ChatGPT和GPT-4来说,逻辑推理仍然具有挑战性,尤其是在分布外自然语言推理数据集上。

https://www.zhuanzhi.ai/paper/60bedf74f62332e5c82c7a1bd40f0cf5

1. 引言

逻辑推理对人类智能至关重要,将逻辑推理能力纳入自然语言理解(NLU)系统自人工智能开始以来一直是一个活跃的研究兴趣(Cresswell, 1973) (Kowalski, 1979) (Iwanska´,1993)。研究人员一直在探索实现这一目标的各种方法,包括基于规则的方法、符号系统(MacCartney和Manning, 2007a)、微调大型语言模型(Wang等人,2018),以及结合神经和符号方法(Li和Srikumar, 2019)。

在传统的逻辑和语义方法中,计算语言学家开发了利用一阶逻辑(FOL)或自然逻辑(macaccartney和Manning, 2007a)的符号系统来解决基本的推理任务。基于规则的模型很难用手工制定的规则和定理证明器来解决诸如RTE挑战(Dagan等人,2005年)等问题。早期研究人员采用的形式逻辑推理提出了符号系统和手工设计的规则,其中知识使用形式逻辑或其他符号表示显式地表示。通过规则,系统可以进行演绎操作。然而,这些方法在处理模糊性和可扩展性方面面临挑战。它们在处理真实世界的自然语言数据时很脆弱。

神经网络模型时代看到了大规模NLI数据集的兴起作为流行基准。例如,SNLI (Bowman等人,2015)和多流派NLI (MNLI) (Williams等人,2018)数据集是通过众包创建的,具有巨大的数据规模和广泛的覆盖面。它们促进了具有更好表示能力的模型的发展,并成为自然语言理解研究的首选基准。随着基于transformer (Vaswani et al., 2017)的语言模型(如BERT (Devlin et al., 2018)的出现,模型性能的巨大飞跃,这些模型的训练方案使它们能够访问巨大的未标记语料库。因此,构建具有数万亿参数的语言模型成为可能(Brown et al., 2020) (Raffel et al., 2019)。预训练和微调的范式自此成为文本推理任务的主要解决方案。研究人员在对大规模文本语料库进行预训练后,对特定任务数据集的语言模型进行微调。大型预训练语言模型(LMs)在流行的NLI和MRC基准上取得了超越人类的表现,这促使人们在文本推理方面进行更复杂的基准测试。

随着最近几个数据集的发布,逻辑推理NLP研究重新获得了势头,特别是LogiQA和Reclor。数据集来自中国公务员考试和法学院入学考试(LSAT)等逻辑推理考试。这些测试即使对人类来说也是具有挑战性的,并且是高质量的Golden标记数据。逻辑推理被用于大型预训练语言模型(PLM)的许多探测任务和问答和对话系统等下游任务中。与传统基准相比,PLM表现不佳。尽管到目前为止取得了进展,但在NLU系统中实现类似人类的逻辑推理能力仍然是一项具有挑战性的任务。生成式预训练Transformer 4 (GPT-4) (OpenAI, 2023)以及ChatGPT是OpenAI新发布的语言模型,旨在理解和生成多模态内容。GPT-4在需要逻辑推理的任务中具有更强大的能力。逻辑推理对人类的智能至关重要,它使我们能够根据给定的信息得出结论、做出预测并解决问题。将逻辑推理纳入到语言模型中,如GPT-4,可以彻底改变自然语言理解(NLU)系统,使其更准确,更鲁棒,并能够理解自然语言中的复杂信息。

对ChatGPT和GPT-4在逻辑推理任务上的性能进行了评估,探索了它们在多个逻辑推理基准上的性能,详细分析了ChatGPT和GPT-4在逻辑推理任务上的优势和局限性。我们将讨论评估GPT-4逻辑推理能力的两个任务:多项选择阅读理解和自然语言推理。这两个任务都是推理繁重的,并可作为测试模型推理能力的游乐场。在这两种任务下,已经发布了多个逻辑推理数据集。事实证明,这些基准对于PLM来说很难解决。希望该报告能进一步揭示ChatGPT和GPT-4的逻辑推理能力。我们的贡献如下:

1.  在两个逻辑推理任务上测试了ChatGPT和GPT-4:多项选择阅读理解和自然语言推理。在多个逻辑推理测试集上进行实验,分析ChatGPT和GPT-4的逻辑推理能力。

2.  该文构建了一个分布外逻辑推理数据集,进一步研究了ChatGPT和GPT-4的鲁棒性。

3. 实验表明,ChatGPT和GPT-4都擅长解决著名的逻辑推理阅读理解基准,但在处理分布外数据集方面很困难。它们在需要逻辑推理的自然语言推理任务上的性能仍有待提高。

2. 实验设置

考虑多项选择阅读理解和自然语言推理任务进行评估。多项选择阅读理解在大型语言模型上进行了大量测试,因为这些任务通常具有结构清晰和高质量的数据集。另一方面,自然语言推理任务是评估推理能力的基本任务。

表1显示了多项选择阅读理解数据集的结果。ChatGPT显示,在几个长期基准上,与基线模型相比,性能有所提高。在LogiQA 2.0测试集上准确率达到53.37%,比RoBERTa基础模型高出近4个点。在中文LogiQA 2.0版本上进行测试时,ChatGPT与RoBERTa的性能差距较大,表明ChatGPT在中、英文语言上的性能具有一致性。ChatGPT在ReClor数据集上取得了57.38%的准确率,而RoBERTa的准确率为55.01%。然而,ChatGPT在分布外的数据集上的性能会大幅下降。在AR-LSAT测试集上,准确率仅为20.42%,低于RoBERTa base的性能。在LogiQA 2.0 ood上的性能为38.44%,仍然低于RoBERTa base。实验结果表明,ChatGPT在LogiQA和ReClor等逻辑推理系统中表现良好。ChatGPT的准确性略高于微调方法。然而,在新发布的AR-LSAT数据集和LogiQA 2.0分布外数据集上进行测试时,性能明显下降。

尽管有局限性,ChatGPT仍然代表了自然语言理解的重大进步,并展示了语言模型进行逻辑推理的潜力。在LogiQA和ReClor上进行手动测试时,GPT-4的性能明显优于ChatGPT。在LogiQA 2.0测试集上,GPT-4的准确率为75.26%。然而,在中文LogiQA 2.0测试集上,GPT-4在中文版本数据集上的准确率下降明显,达到了51.76%。在ReClor开发集上(ReClor在其测试中也不包括黄金标签),GPT-4达到了92.00%的准确率,这是显著的。然而,当在AR-LSAT测试集上进行测试时,GPT-4的表现令人惊讶地更差,只有18.27%的准确率。在LogiQA 2.0 ood数据集上的测试结果表明,GPT-4的正确率仅为48.21%,明显低于在ReClor数据集上的正确率。我们不会急于得出结论,但可以肯定地说,GPT-4在分布外数据集上的性能下降是明显的。

在自然语言推理任务上的实验结果表2展示了在自然语言推理数据集上的结果。在逻辑推理NLI数据集上,ChatGPT的性能优于RoBERTa模型。在对照测试集(805个实例)上,准确率达到58.45%,比RoBERTa-base模型高出近10%。在ConjNLI测试集(623个实例)上,ChatGPT的准确率为47.03%,比RoBERTa高出约9%。在HELP数据集(35891个实例)上,ChatGPT获得了42.31%的准确率,比RoBERTa高出约3个点。在MED数据集(5382个实例)上,ChatGPT的准确率为55.02%,比RoBERTa高出近9%。在TaxiNLI测试集(10071个实例)上,ChatGPT取得了57.30%的准确率,比RoBERTa算法提高了7%以上。由于我们注意到ChatGPT不擅长遵循NLI任务指令,因此我们提供了一个上下文示例来帮助模型生成任务标签,如图2所示。总的来说,结果表明,与在阅读理解任务上的表现相比,ChatGPT仅以很小的优势超过微调后的RoBERTa。

我们在五个NLI数据集上测试了GPT-4的性能。一般来说,GPT-4的性能比ChatGPT好,但结果并不令人惊讶。在对照测试集上,GPT-4的表现与ChatGPT相当,获得了58.18%的准确率。在ConjNLI测试集和HELP上的准确率分别为61.00%和53.33%,表现略好。在MED和TaxiNLI数据集上的性能较好,分别达到了75.79%和75.47%。在5个NLI数据集上的实验结果表明,与多项选择阅读理解相比,GPT-4在逻辑推理和自然语言推理上并没有表现出令人印象深刻的性能。在自然语言推理任务场景中,即使提供了指令,GPT-4也不能稳定地输出标签。由此我们可以推断,虽然GPT-4在多项选择阅读理解任务中训练得很好,但在自然语言推理任务中却不擅长遵循指令。

实验结果表明,ChatGPT和GPT-4在大多数逻辑推理基准测试上优于RoBERTa,包括流行的LogiQA和ReClor以及不太知名的AR-LSAT数据集。然而,对于两个GPT模型来说,分布外数据集的性能下降是明显的,这表明它们很难处理新的和不熟悉的数据。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

ChatGPT和GPT-4的逻辑推理如何?浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答,常规优异新数据差...相关推荐

  1. 【ChatGPT】预训练模型微调及其应用(ChatGLM-6B、duckduckgo_search、GPT在科研的应用等)

    note instructGPT(基于提示学习的系列模型)-->GPT3.5(大规模预训练语言模型)-->ChatGPT模型(高质量数据标注+反馈学习).chatGPT三大技术:情景学习. ...

  2. 最新ChatGPT商业网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐

    最新ChatGPT商业网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐 一.AI创作系统 二.系统程序下载 三.系统介绍 四.安装教程 五.主要功能 ...

  3. 2023最新ChatGPT商业运营网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐+免费更新版本

    2023最新ChatGPT商业运营网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐+免费更新版本 一.AI创作系统 二.系统程序下载 三.系统介绍 ...

  4. 最新ChatGPT GPT-4 文本推理技术详解(附ipynb与python源码及视频讲解)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(二)

    目录 前言 最新ChatGPT GPT-4 文本推理技术详解 1. 什么是推理(Reasoning)? 2. 导入ChatGPT 3. 测试ChatGPT的推理能力 3.1 演绎推理(Deductiv ...

  5. chatGPT爆火,什么时候中国能有自己的“ChatGPT“

    目录 引言 一.ChatGPT爆火 二.中国何时能有自己的"ChatGPT" 三.为什么openai可以做出chatGPT? 四.结论 引言 随着人工智能技术的不断发展,自然语言处 ...

  6. ChatGPT版Bing被调戏到生气发飙,ChatGPT被证实具有人类心智

    文|金磊 发自 凹非寺 源|量子位 谁能想到,ChatGPT版必应竟能像人一样发脾气! 事情是这样的. 前两天一个华人小哥不是"黑"了ChatGPT版必应,扒出它的小名叫Sydne ...

  7. linux 找回gpt分区,linux – 修复graid mini磁盘上损坏的GPT分区

    我正在尝试修复格雷德迷你1TB外置硬盘上的GPT损坏分区表.以下是gdisk的报告: root@philippe-desktop:/home/philippe/thomasdisk# gdisk /d ...

  8. 最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+邀请分佣功能+支持后台一键更新+网站后台管理+永久更新!

    最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+邀请分佣功能+支持后台一键更新+网站后台管理+永久更新! AI付费创作系统: 如果后续程序有新版,直接在后台一键更新即可! 程序完 ...

  9. 毕马威计算机测试题,KPMG毕马威2019招聘最新在线测试cute数字文字逻辑推理答案及解析...

    原标题:KPMG毕马威2019招聘最新在线测试cute数字文字逻辑推理答案及解析 KPMG毕马威2019招聘已经开始了,KPMG毕马威采用的是cute题,包括数字推理,文字推理,逻辑推理,情景判断,以 ...

最新文章

  1. 【bzoj2694】Lcm 莫比乌斯反演+线性筛
  2. linux c调用wcf服务,Silverlight+WCF实现跨域调用
  3. 《系统集成项目管理工程师》必背100个知识点-02项目组织方式和特点
  4. IEnumerable 使用foreach 详解
  5. shell编程之简单四则运算及数组定义
  6. 硬件:串口的基础知识笔记
  7. html倒计时timer,js如何使用定时器实现倒计时功能
  8. python列表json_python-带有列表的JSON_normalize JSON文件包含字...
  9. MySQL快速上手[学习笔记](三)
  10. 鸿蒙系统有安全管家吗,每个人都能拥有的“钢铁侠管家”?华为最新鸿蒙系统了解一下!...
  11. 如何vista中使用netmeeting
  12. java.exe 0xc000012d_应用程序无法正常启动 0xc000012d
  13. MAX232(电平转换:RS232-TTL)
  14. python怎么才能不挂科_如何才能在大学里不挂科?
  15. 选择合适的 Go 字符串拼接方式
  16. 自控力读书笔记 第六章 “那又如何”:情绪低落为何会使人屈服于诱惑?
  17. 好妈妈胜过好老师 书摘
  18. 贴片陶瓷电容的NPO、C0G、X7R、X5R、Y5V、Z5U区别
  19. 零基础学网页设计之HTML基础教程
  20. mysql utf8mb4 bin_Mysql的utf8与utf8mb4区别,utf8mb4_bin、utf8mb4_general_ci与utf8mb4_unicode_ci的选择...

热门文章

  1. MediaCoder的CUDA H.264编码技术预览及测试报告
  2. Web 2.0中AJAX技术应用详解[转]
  3. java通过容联云通讯实现发送短信验证码
  4. 人脸识别:使用MinGW编译seetaface6
  5. Vue中状态管理——Vuex
  6. 1.1 坐标系转换关系
  7. 如何使用Metabadger帮助AWS EC2抵御SSRF攻击
  8. keyshot渲染玻璃打光_keyshot7耳机渲染打光教程
  9. FISCO BCOS——SmartDev-Contract——Traceability商品溯源合约案例分析
  10. 你越撩TA_TA越聪明?谁是最厉害的人工智能机器人?