文章目录

  • 主要解决什么问题
  • 采用什么方法
  • 实验分析与结果
  • 消融实验
    • Commonsense Reasoning
    • Symbolic Reasoning
  • 问题与展望
  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

主要解决什么问题

大语言模型越来越大,效果越来越好。但是在一些具有挑战性的任务上面,比如arithmetic, commonsense, 和symbolic reasoning上面依旧不能够很好地去处理。

作者提出了chain of thought的一系列prompt方法来进行改进,在不调整模型参数的情况下,在多个任务中取得了SOTA的成绩。

采用什么方法

如上图所示,作者在给定的QA示例里面,添加了一些中间推倒步骤,导致模型最终的输出能够正确。数学化描述就是将prompt组成<input, chain of thought, output>的方式。chain of though就是中间一系列的推倒过程。

chain of thought的好处如下(拆分复杂任务,可解释性更强,处理任务能力更强):

实验分析与结果

Chain of thought的方法可以超越之前的finetune,和之前最好的效果。chain of thought在小模型上并没有提升,只有当模型大于100B的时候才会有这种效果。侧面反映了他们的instruct fine-tune不够,COT很难激发他的in-context 推理能力。

小模型产生的输出更加流畅,但是产生了不合乎逻辑的思维链,导致比standard prompt的输出结果更低。任务比较简单的话,也体现不出差异,如MAWSP,SVAMP这两个数据集上差异不明显,而GSM8K上任务比较复杂,差距就体现出来了。在100B以上模型效果很好,甚至超过了之前基于监督训练的SOTA模型 (橙色的线)。

是大模型在参数量大了之后拥有了COT的能力,还是通过instruct fine-tune给大模型注入了这个能力?值得考究。

消融实验

除此之外,作者还做了一些消融实验。

  • Equation only

具体prompt如下:

对于一两步能够推倒出来的,这个Equation不Equation最终效果都差不多。

  • Variable compute only

排除输入更长,消耗了更多计算量,模型思考更加仔细的影响。作者往prompt里面补充点号到prompt中,进行对比。发现效果也并不好,因此不是这个原因。

  • chain of thought after answer

<input, chain of thought, output>的顺序是比较重要的,把chain of thought放到后面变成<input, output, chain of thought>的话,效果就会变差。

  • 鲁棒性测试

作者还分析了不同的写作prompt的风格对chain of thought的影响。最终发现都会比standard prompt效果好。

Commonsense Reasoning

作者还在一些常识性问题上做了推理能力对比:

Symbolic Reasoning

作者在符号推理问题上做了分析对比

  • Task 1: Last letter concatenation: 名字拼接,比如“Amy Brown” → “yn”
  • Task 2: 硬币推理 “A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?”

作者同时做了in-domain test和out-of-domain (OOD) test。

问题与展望

  1. 如果继续扩大模型,效果还会变好吗?
  2. 还有其他更好的prompt方法吗?
  3. 怎么说明模型确实在做推理?
  4. 是否有比手动写prompt更好的方式?
  5. 怎么确保推理path的正确性?
  6. 怎么在小模型上实现类似的效果?

【COT】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models相关推荐

  1. 【人工智能】大语言模型简介 —— A Very Gentle Introduction to Large Language Models without the Hype

    [人工智能]大语言模型简介 -- A Very Gentle Introduction to Large Language Models without the Hype 目录 [人工智能]大语言模型 ...

  2. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

  3. 【论文代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS

    最近很多工作好像都绕不开lora,无论是sd还是llm.... 1. 背景 问题:大模型重新训练所有模型参数的完全微调变得不太可行. lora在做什么 我们提出了低秩自适应,即LoRA,它冻结预先训练 ...

  4. 【笔记】Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La

    <Comparison of Object Detection and Patch-Based Classification Deep Learning Models on Mid- to La ...

  5. 【Tiny4412】烧写Android系统remote data too large问题分析和解决

    00. 目录 文章目录 00. 目录 01. 问题描述 02. 问题分析 03. 问题解决 04. 附录 01. 问题描述 使用fastboot烧写system.img的时候,出现如下错误. [roo ...

  6. 【转】使用Auto Layout中的VFL(Visual format language)--代码实现自动布局

    原文:http://www.cocoachina.com/ios/20141209/10549.html 本文将通过简单的UI来说明如何用VFL来实现自动布局.在自动布局的时候避免不了使用代码来加以优 ...

  7. 【AI4Code】CodeX:《Evaluating Large Language Models Trained on Code》(OpenAI)

    代码生成--CodeX (OpenAI) 最近非常火的OpenAI的Copilot背后的模型.文章35页,58位作者,6位共同一作. 顺理成章的,把模型做的再大一点,训练数据集做的再大一些,计算资源再 ...

  8. 【Gaze】A Survey on Using Gaze Behaviour for Natural Language Processing

    A Survey on Using Gaze Behaviour for Natural Language Processing 1. Abstract 摘要中主要介绍本文的工作,整篇主要讨论了在NL ...

  9. 【Sentence Simplification via Large Language Models 论文精读】

    Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...

最新文章

  1. IOS 学习---触摸事件与手势
  2. [Nhibernate]SchemaExport工具的使用(二)——创建表及其约束、存储过程、视图
  3. boost::contract模块实现可选结果的测试程序
  4. 错误fatal error: zlib.h: 没有那个文件或目录的解决办法
  5. Linux上的TIME_WAIT和tcp_fin_timeout
  6. Java 匿名内部类理解
  7. FastDFS 文件上传工具类
  8. 推荐:Dapper扩展-Dapper.SimpleCRUD
  9. 对于enable_shared_from_this、shared_from_this使用笔记
  10. centos5.8安装mysql5.3_CentOS 5.8 64位 源码安装mysql5.5.28
  11. 为什么PostgreSQL是最先进的开源数据库
  12. springboot加载配置文件优先级
  13. 这周的工作任务,编写sql存储过程
  14. CentOS配置Nginx官方的Yum源 及yum安装php
  15. 配置docker加速器
  16. win10录屏电流声_电脑录屏出现杂音?可能是这几种原因
  17. ruhe调整计算机色温,显示器色温怎么调节
  18. checkbox 选中_山西男篮热身赛两胜江苏 张宁首秀表现不俗 为什么会选中他?
  19. 最近工作用到的sql脚本
  20. Texstudio + sumatraPDF 正反向搜索关联设置

热门文章

  1. c语言课程设计猜数字游戏报告,C语言课程设计-猜数字游戏报告.doc
  2. Flume 尚硅谷2019
  3. 电小天线理论仿真-单极子天线1
  4. 岩棉夹芯板英标BS476-20BS476-22耐火测试
  5. opencv标定实现总结(圆点,棋盘格和非对称圆点)
  6. 电音与计算机相关吗,什么是电音声卡 电音声卡功能和区别介绍【图文】
  7. 关于诉讼融资,你需要了解的4件事儿~
  8. 优维CMDB:OneModel协助IT资源管理快速落地
  9. 运用hadoop计算TF-IDF
  10. Adobe Flash player 错误代码16解决方法