一、概述

title:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文地址:https://arxiv.org/abs/2201.11903

auto COT代码【COT升级版本】:GitHub - amazon-science/auto-cot: Official implementation for "Automatic Chain of Thought Prompting in Large Language Models" (stay tuned & more will be updated)

auto COT说明:人工去编写COT耗时耗力,auto COT使用机器生成推理过程,然后拼接成COT样例组装成context送入llm,效果居然超过了manual-COT(人工设置的COT)

1.1 Motivation

  1. 探究COT(chain of thought)【一系列中间的推理步骤】如何能极大的提升大模型对复杂问题的推理能力。
  2. type1 task:随着模型scale变大,效果也逐渐提升,像文本分类,情感分类就是这样。
  3. type2 task:随着模型scale变大,效果变平flat,即效果随着增大模型没什么提升,像复杂数学问题的推理就是这种情况。
  • 左边:简单问题的推理效果随着模型增大而提高,这个时候COT比没有用COT好一丢丢
  • 右边:复杂问题推理能力效果不随着模型增大而提高,这个时候用了COT,可以带来显著的提升

1.2 Methods

  1. 通过chain-of-thought prompting【一步一步思考】来验证足够大的模型存在的推理能力涌现的情况。

COT是什么:在给出的样例中,写出更详细的推理过程

各种场景COT例子

1.3 Conclusion

  1. 在三种大型语言模型上进行的实验表明,思维链提示可以提高其在一系列算术、常识和符号推理任务上的性能。
  • 没用COT:18%解决率,用了COT:57%解决率,这提升量也太大了
  1. 收益可能是惊人的。例如一个只有8个思维链范例COT的PaLM 540B在数学单词问题的GSM8K基准测试上达到了最先进的准确性,甚至超过了finetuned后的GPT-3。
  2. 思维链推理是模型尺度的一个涌现属性【emergent property】,它允许足够大的语言模型来执行推理任务,否则就会有平坦的尺度曲线【小模型不太行】。
  3. COT(chain of thought)总结:
    1. COT原则上可以让模型执行多个中间步骤推理,可能可以给需要多个推理step的问题分配更多计算资源来解决。
    2. COT提供了可解释性
    3. COT可以解决一些常识性的问题
    4. 可以像few-shot一样,提供一些中间结果作为参考样例。

二、详细内容

1 COT是随着模型大小增加而涌现的一种能力

(1)只在100B左右的大模型上才有效果

(2):任务越难,效果越好,例如GSM8K上,GPT和PaLM用了COT比没有COT高差不多2倍。

(3):利用PaLM540B在GSM8K数据集上达到了SOTA。

2 消融实验:是哪些原因使COT效果表现不错

  • Equation only:只在给出答案前,加入了数学equation【只给数学表达式,不给自然语言描述】,验证COT是否为Equation带来的提升,图5显示不是【说明自然语言在推理过程中起到了非常重要的作用】。
  • Variable compute only:在给出答案前,加入和COT等长度的...,验证是否为COT增加token从而增加计算量带来的提升,发现和baseline也没啥变化,说明不是这个原因。
  • Chain of thought after answer:验证COT是否因为新增的prompts让LLM更能够接入相关知识而带来效果的提升,这里让COT放在答案后,发现和baseline也没啥区别,说明COT并不是因为能够接入额外知识而带来的提升,是确实因为模型学到推理带来的提升。。
  • 结论:COT确实在大模型里面能够带来推理能力的提升,而不是增加计算量,引入额外知识带来的提升。

3 鲁棒性

  • 不同人写的COT还是有一定方差,但是都比没用COT要好
  • 从训练集搞出来的examplars【训练集数据已经有step的推理过程】也验证了COT的有效性
  • 结论:用了COT等类似的方法,在复杂推理问题上,就是要比没用好

4 其他场景

  • 通用常识知识推理:CSQA:常识QA,StrategyQA:multi-hop 策略回答,Data:时间推理,Sports:运动,SayCan:指挥机器人
  • 结论:1. 模型增大,效果提升。2. COT在这些通用知识上也有一定的提升,在CSQA上提升不是特别大,其他还可以。
  • 符号推理:(1)拼接尾字母。(2):翻转硬币(推理硬币是正面还是反面)。
  • 实验方法:(1)in domain:该领域的测试数据。(2):OOD,out-of-domain的数据
  • 结论:(1)in domain的COT比没有COT好,但是要模型在62B左右才有一个比较大的效果的提升。(2):对于OOD(out-of-domain)数据,要500B才有一个比较大的提升,同时COT比没有用COT好非常多。

三、其他参考

  1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - 知乎
  2. Chain of Thought论文、代码和资源【论文精读·43】_哔哩哔哩_bilibili

GOOGLE | COT(chain of thought)开山之作,利用思维链提升复杂问题推理能力相关推荐

  1. Chain of Thought 开山之作论文详解

    chain of thought 也就是 CoT ,一经提出就引发了社区对它的热烈讨论,CoT 能够帮助大规模语言模型解决复杂的算术.常识及字符推理等任务. 背景知识 语言模型 语言模型的本质是对任意 ...

  2. 语义分割领域开山之作:Google提出用神经网络搜索实现语义分割

    来源: AI科技评论 1. Introduction 在 arxiv 浏览论文的时候,单独看文章名不知道属于 CV 哪个领域,怀着对一作 Liang-Chieh 敬畏的心,在摘要中扫描到 PASCAL ...

  3. ViT:Transformer在CV领域的开山之作

    ViT引发的变革 Transformer最开始是作为自然语言处理(英语: Natural Language Processing ,缩写作 NLP)领域的模型框架,在该领域其可谓大放异彩,然而自始至终 ...

  4. 导师:CNN 开山之作 AlexNet 都复现不了,延毕吧!

    经常有粉丝问我,当前AI领域学术会议动辄上千篇文章,到底如何才能找到适合自己且值得一读的论文? 想辨别出对自己有用且优秀的论文,就需求积累大量的经典论文,因为前沿技术的更迭都是基于经典Paper的某个 ...

  5. BNN领域开山之作——不得错过的训练二值化神经网络的方法

    作者| cocoon 编辑| 3D视觉开发者社区 文章目录 导读 概述 方法 确定二值化以及随机二值化 梯度计算以及累加 离散化梯度传播 乘法运算优化 基于位移(shift)的BN 基于位移的AdaM ...

  6. 文本匹配开山之作--双塔模型及实战

    作者 | 夜小白 整理 | NewBeeNLP 在前面一篇文章中,总结了Representation-Based文本匹配模型的改进方法, 基于表征(Representation)的文本匹配.信息检索. ...

  7. QEMU 源代码阅读经验开山之作

    头一次在阿里云栖社区写blog,想来想去想到最近一直看QEMU的代码.后续我会在这个博客中写一些QEMU代码的分析心得.希望有人捧场.暂时先写这么一点作为开山之作的引子. 写在博客开启之日,感谢我的家 ...

  8. 【论文解读】R-CNN 深入浅出理解目标检测开山之作

    R-CNN是CNN处理目标检测问题的开山之作,其中的区域提议,难例挖掘,非极大值抑制等等方法沿用至今..整个打下了two-stage模型的框架.但我并不推荐研究R-CNN的实现,因为选择性搜索部分与现 ...

  9. 分布式事务开山之作——《深入理解分布式事务:原理与实战》草图曝光!!

    大家好,我是冰河~~ 今天,咱们就暂时不聊[精通高并发系列]了,今天插播一下分布式事务,为啥?因为冰河联合猫大人共同创作的分布式事务领域的开山之作--<深入理解分布式事务:原理与实战>一书 ...

最新文章

  1. [翻译]ASP.NET MVC 3 开发的20个秘诀(十二)[20 Recipes for Programming MVC 3]:缩放图片尺寸创建缩略图...
  2. SLAM前端中的视觉里程计和回环检测
  3. 6.神操作(把master上的三个安装包scp给slave)—Hadoop完全分布式搭建完成
  4. Vue+Openlayers+el-checkbox实现多选配置图层的显示和隐藏
  5. 可观测性与原生云监控
  6. Android之在TextView里面部分文字变颜色并且可以点击
  7. Jmeter系列之no-gui模式
  8. 六、 抽象类与接口对比
  9. 最简单的c语言if程序,C语言简单实用的程序-if else 嵌套式的使用例子
  10. 《Adams/ view从入门到提高》视频 —— ftc正青春
  11. h3c交换机限制端口访问_勒索病毒,华为/H3C三层交换机/路由器用ACL访问控制实现端口禁用...
  12. 图形学初步--裁剪算法之Liang-Barsky算法
  13. 产品部和业务部门是什么关系
  14. 由浅入深玩转华为WLAN—12安全认证配置(5)Portal认证,外置Protal服务器TSM对接
  15. android追美剧app,追美剧必备神器!安卓追剧助手App体验
  16. 从 “ 我爱你 ” 到 “ 我爱钱 ”
  17. 前端页面项目——博客系统
  18. Flutter实践:深入探索 flutter 中的状态管理方式(1)
  19. 听故事的男同学,没了666
  20. java图片管理系统_基于Java的图片管理信息系统的设计与实现

热门文章

  1. linux内核中的ASID是什么?
  2. 2017年三月初大厂前端面试总结
  3. 计算机基础word目录操作题,Word综合操作题 计算机基础
  4. MATLAB矩阵及线性代数
  5. 【数字IC前端笔试真题精刷(2022年)】芯原——数字前端设计/验证
  6. SIM应用那些事儿,你做对了吗?
  7. 一个射频工程师应该知道的
  8. 机房空调制冷量计算方法
  9. 头条员工工资表曝光,牛逼的人注定会牛逼
  10. 籍贯怎样填写_填表格籍贯怎么填写