大模型的涌现能力(Emergent Abilities of LLM)
来源:知乎 海狸同学 文章编辑来源 人工智能前沿讲习
https://zhuanlan.zhihu.com/p/609339534
论文名称:Emergent Abilities of Large Language Models
论文链接:https://arxiv.org/pdf/2206.07682.pdf
论文来源:Google&Deepmind
论文讨论了LLM中的emergent abilities现象,主要探究随着model scale的增长,emergnce现象的出现。
1. Emergent Abilities Definition
本文中对LLM的emergent abilities的定义为:
在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent.
(An ability is emergent if it is not present in smaller models but is present in larger models.)
本文的目的不是去谈论是否存在一个scale就可以观察到emerge abilities,而是去讨论之前的工作中出现的emergent现象。
2. Few-Shot Prompted Tasks
本部分主要讨论在prompting范式下的emergent abilities, 该范式如下图所示:
few-shot prompting的emergent主要体现为模型在没有达到一定规模前,得到的表现较为随机,在突破规模的临界点后,表现大幅度提升。如下图所示,在BIG-Bench上,GPT-3和LaMDA在未达到临界点时,模型的表现都是接近于零。而在GPT-3的规模突破2 · 10^22 training FLOPs (13B参数),LaMDA的规模突破10^23 training FLOPs (68B参数),模型的表现开始快速上升。
3. Augmented Prompting Strategies
除了few-shot prompting可以反映emergent abilities, 作者认为如果在某个任务上的某个手段,模型达到一定规模以前,使用该手段,相比于基线没有提升或者是有害的,那么可以将该手段看成emergent ability.
作者在Multi-step reasoning(chain-of-thought prompting); Instruction following(使用instructions描述任务,不使用few-shot exemplars); Program execution;Model calibration(calibration需要模型去评估自己是否能正确回答某个问题)
下表给出了大模型出现emergent ablities的规模统计
4. Discussion
4.1 Potential explanations of emergence
对于模型突破某个规模的临界值后,出现emergent abilities的现象。作者给出直观上的猜想,某个multi-step reasoning任务需要l个step的计算,那么可能需要模型主要需要O(l)层的数目。同时也可以很自然猜想更多的参数和更多的训练有助于模型记忆更多的world knowledge. 比如在closed-book question-answering可能需要模型有更多的参数去记忆尝试知识。
衡量emergent abilities的evaluation metrics也值得探究。仅仅使用最终的指标如acc等并不一定很好反映emergence.
4.2 Beyond scaling
虽然本文主要探究模型超过一定规模后出现emergent ability, 但模型仍然有可能通过数据,算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上,LaMDA在137B,GPT-3在175B上出现emergent ability,而PaLM在62B就可以出现。
4.3 Another view of emergence
虽然模型的规模与大模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。如下图所示,模型的emergent abilities可以看成一系列相关变量的函数。
4.4 Directions for future work
作者为未来研究大模型中的emergent abilitie提供了一些方向。
Further model scaling: 继续增加模型的规模探究模型的表现的提升。
Improved model architectures and training:从模型的结构和训练过程上提高模型的质量,从而使模型在较低的训练成本下就可以获得emergent abilities.
Data scaling: 增大数据集的规模
Better techniques for and understanding of prompting:更好地发挥prompt在模型中的作用
Frontier tasks: 仍然有些任务无法出现emerent abilities,这也是值得探究的。
Understanding emergence: 关于emergent abilities为什么会在语言模型中发生仍然是未知的。
猜您喜欢:
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 经典GAN不得不读:StyleGAN戳我,查看GAN的系列专辑~!
一顿午饭外卖,成为CV视觉的前沿弄潮儿!最新最全100篇汇总!生成扩散模型Diffusion Models
ECCV2022 | 生成对抗网络GAN部分论文汇总CVPR 2022 | 25+方向、最新50篇GAN论文ICCV 2021 | 35个主题GAN论文汇总超110篇!CVPR 2021最全GAN论文梳理超100篇!CVPR 2020最全GAN论文梳理
拆解组新的GAN:解耦表征MixNMatchStarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版附下载 |《TensorFlow 2.0 深度学习算法实战》附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》《零样本图像分类综述: 十年进展》《基于深度神经网络的少样本学习综述》
大模型的涌现能力(Emergent Abilities of LLM)相关推荐
- 【自然语言处理】【ChatGPT系列】大模型的涌现能力
大语言模型的涌现能力 <Emergent Abilities of Large Language Models> 论文地址:https://arxiv.org/pdf/2206.07682 ...
- 新浪张俊林:大语言模型的涌现能力——现象与解释
内容来源:ChatGPT 及大模型专题研讨会 分享嘉宾:新浪新技术研发负责人.中国中文信息学会理事 张俊林 分享主题:<大型语言模型的涌现能力:现象与解释> 转载自:https://zhu ...
- 活动报名|2023年ICLR杰出论文作者贺笛:思维链如何解锁并释放大模型的隐藏能力...
2023年7月6日(周四)上午11点「智源Live第43期丨思维链如何解锁并释放大模型的隐藏能力」将在线举办,本期活动邀请了北京大学助理教授.博士生导师贺笛老师进行线上报告,题目为<Toward ...
- 大模型已涌现社会行为,斯坦福爆火论文打造《西部世界》雏形
源|机器之心 <西部世界>的游戏逐渐走进现实. 我们能否创造一个世界?在那个世界里,机器人能够像人类一样生活.工作.社交,去复刻人类社会的方方面面. 这种想象,曾在影视作品<西部世界 ...
- TOT(Tree of Thought) | GPT-4+dfs搜索算法提升大模型复杂问题解决能力
大家好,我是HxShine. 今天分享一篇普林斯顿大学的一篇文章,Tree of Thoughts: Deliberate Problem Solving with Large Language Mo ...
- AI绘画最强工具:集成所有国内外主流大模型AI绘画能力文生图、图生图、图修复和超分辨率能力。
AIGC(Artificial Intelligence Generated Content)登上舞台,以高效.精准.定制化等能力特征,重新定义了内容生产方式. 只需通过4行代码就能实现强大的文图生成 ...
- ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?
作者 | 张俊林 责编 | 王子彧 出品 | CSDN(ID:CSDNnews) 如今,大语言模型已经彻底改变了自然语言处理 (NLP)的研发现状.众所周知,增加语言模型的规模能够为一系列下游 ...
- 【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力
Chain-of-Thought Prompting:从大模型中引导出推理能力 <Chain-of-Thought Prompting Elicits Reasoning in Large La ...
- 智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会...
萧箫 整理自 AIGC峰会 量子位 | 公众号 QbitAI ChatGPT引爆了大模型,也彻底将大模型相关的AI产业生态带到了新的阶段-- 大模型的"涌现能力",让AI真正展现出 ...
最新文章
- K8S 从懵圈到熟练--大数据平台技术栈18
- 【FPGA】SRIO IP核系统总览以及端口介绍(一)(User Interfaces 之 I/O Port)
- python 任务计划_windows 10 设定计划任务自动执行 python 脚本的方法
- SQL语句 SELECT LIKE用法详解
- git如何切换分支_如何让 Jenkins 支持选择 git 分支进行构建
- 制作404页面的重要性
- ellen 纽奥良大学演讲
- 技术人生“白天求生存,晚上谋发展”
- 数学常用公式及规律、结论(三)
- 大数据分析的作用与注意事项
- 一文搞懂常见概率分布的直觉与联系
- MATLAB几何均值滤波
- OFD文件是什么?如何将ofd转成PDF格式?
- Installation failed due to: ‘null‘
- Jedis Connection Pool
- win10休眠_硬派玩家 | Win 10关机速度变慢?这还真不是错觉
- 解决Adobe Acrobat XI pro 开启十几秒自动闪退
- python自相关函数提取基音周期_自相关函数法基音周期提取(matlab版)
- 课程设计:公交线路管理系统
- 科目三上海浦东邮佳考场心酸历程
热门文章
- 【input 标签的 type 属性详解】
- 电报登陆收不到验证码_紧急扩散!这片海域船舶注意!超强台风奔袭,13日夜间将登陆(附防台措施)...
- 最实用的必备电脑软件
- 《穷爸爸富爸爸》 —— 罗伯特访问记录
- 点评番茄花园事件与M$在中国!
- 搭建服务器处理系统(基于netty)
- html页面的内容外观显示样式,XHTML CSS制作样式风格切换的WEB站点
- Archlinux配置邮件(以qq邮箱为例)
- 奖品的价值 Erasing and Winning
- window系统关机睡眠快捷方式及编译android app gradle命令