1.简介

本文根据2022年《Training language models to follow instructions with human feedback》翻译总结的,文中提出了InstructGPT,从文章标题也可以看出来训练模型采用了人类指导反馈的数据。

因为chatGPT说是InstructGPT的姊妹模型,所以了解下InstructGPT。InstructGPT的第一步训练是基于GPT-3。最终实验结果InstructGPT好于GPT-3。

InstructGPT的构建由下图所示的三个步骤构成。
1)第一步会基于GPT-3训练出来一个Supervised fine-tuning (SFT)模型。第一步的训练数据由我们雇佣的40个标注者根据提示(prompt)编写期望的输出构成(demonstrations)。这些标注者在应聘前会进行筛选测试。训练数据大约有1万3千个训练prompt,来自于API或者标注者手写的。
2)第二步是训练一个Reward modeling (RM)模型,训练数据是模型输入prompt后对应输出的排名(有多个模型输出,也是标注者对其进行的手工排序)。大约有3万3千个训练prompt,来自于API或者标注者手写的。
3)第三步是使用强化学习(Reinforcement learning (RL))针对RM模型优化SFT模型。首先获得一个prompt,然后SFT模型生成一个输出,然后RM模型针对这个输出计算一个奖励,然后这个奖励用来继续更新SFT模型(使用PPO方法)。这步没有使用标注数据,主要是前面两个有使用标注数据。PPO数据只使用了来自API的3万1千个训练prompt.

我们将来自于人类反馈的强化学习简称为RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。

我们有如下发现:
1)标注者相对于GPT-3的输出更喜欢InstructGPT;
2)相对于GPT-3,InstructGPT在真实性方面有改善;
3)InstructGPT在毒性输出上有小的改善,在RealToxicityPrompts数据上有验证。
4)通过修改我们的RLHF 微调过程,我们可以最小化在公共NLP数据上的衰退表现。
5)我们的模型对于没有产生训练数据的标注者,也有很好的泛化能力。
6)公共NLP数据不能反应我们的语言模型如何使用的。
7)除了对RLHF 微调分布表现好外,InstructGPT对于输入指示也有很好的泛化性。
8)InstructGPT依然会产生错误。比如对于错误的引导输入会产生非期望的输出。

2.数据

下表是第一步训练数据prompt的分类统计。

3.模型

3.1.RM

Reward modeling (RM)模型)损失函数如下,大体就是比较输入prompt x对应的两个输出y,按照标注的偏好进行训练:

3.2.RL

我们使用PPO方法微调SFT模型。
为了克服在公共NLP数据上的衰退表现,我们实现混合预训练的梯度到PPO梯度,这种方法我们叫做PPO-ptx,也就是InstructGPT。

损失函数如下:

4.结果

对API promt的结果。可以看到PPO-ptx(InstructGPT)好于GPT。

示例

输入prompt,输出结果。有点像问答系统。

InstructGPT:chatGPT的姊妹模型相关推荐

  1. 课代表:ChatGPT及大模型专题研讨会

    课代表:ChatGPT及大模型专题研讨会 周末应领导的要求听了一下午的直播(什么时候能不再做领导对啥感兴趣你就要每天围着什么转的牛马呢?),一打开还看到了自己本科的老师(死去的记忆突然攻击我).既然做 ...

  2. ChatGPT背后的模型三兄弟

    ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具.在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能 ...

  3. Visual chatgpt多模态大模型的前菜

    刚开始感觉这就是一篇工程类文章,把各种的模型做了整合,把最近很热的两个方向chatgpt和文本生成图.图文提问整合在一起.看完文章发现自己太自傲了,绝对轻视了微软亚研院大佬们的实力. 表面看起来这是一 ...

  4. Nature给学术界立规矩:ChatGPT等大模型不可以成为作者

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心  |  编辑:蛋酱 随着研究人员不断涌入先进的 AI ...

  5. 超越ChatGPT:大模型的智能极限

    在此前<大型语言模型的涌现能力>.<ChatGPT进化的秘密>两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的"潜在的"范式转变,并拆 ...

  6. 对话ChatGPT,大模型时代到来

    文章目录 1. 你觉得大模型时代已经到来了吗? 2. 大模型和以前的模型有什么区别? 3. 列举一下你知道的大模型有哪些 4. ChatGPT与传统的智能助手有什么区别? 5. ChatGPT有什么优 ...

  7. 大模型LLM微调的方式:Instruction/Promt/Prefix/PET、

    背景         Pre-training + Fine-tuning 模式:先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型(Pre-trained L ...

  8. GPT系列:GPT1 -> 2 -> 3 -> InstructGPT ->ChatGPT

    2018年6月 GPT-1:[无监督预训练+有监督微调] 大量数据(约5GB文本)上无监督训练,然后针对具体任务在小的有监督数据集上做微调: 关键词:"scalable, task-agno ...

  9. ChatGPT通俗导论:从RL之PPO算法、RLHF到GPT-N、instructGPT

    前言 自从我那篇BERT通俗笔记一经发布,然后就不断改.不断找人寻求反馈.不断改,其中一位朋友倪老师(之前我司NLP高级班学员现课程助教老师之一)在谬赞BERT笔记无懈可击的同时,给我建议到,&quo ...

最新文章

  1. FPGA/IC技术交流2020
  2. HDU-2102 A计划 dfs
  3. Homebrew软件包管理器中发现RCE漏洞,小心你的Mac和Linux
  4. Ubuntu连接以太网时显示“设备未托管”的解决办法
  5. DBCP|C3P0参数详解
  6. 视图可视化 后台_如何在单视图中可视化复杂的多层主题
  7. MySQL浅谈 LEFT JOIN
  8. jfinal调用mysql存储过程 封装_jfinal如何调用存储过程?
  9. [Python] 拉格朗日插值
  10. js中数组过滤、遍历、迭代every、some、filter、map、forEach、reduce、reduceRight
  11. springboot读取linux文件_SpringBoot 读取文件代码模版
  12. 内核抢占机制(preempt)
  13. c语言 运行库 下载,Visual C++运行库合集
  14. vc设备工程师_工程/设备工程师简历工作经历填写样本
  15. 软件开发学习资料大全
  16. 数据库基础知识(思维导图)
  17. 知识分享:移动设备的安全管理策略和方法
  18. app三种工具的元素定位与swipe 滑动
  19. NRDP要比NSCA更好使用
  20. 后台监控服务器信息,服务器后台聊天监控

热门文章

  1. C#获取动态key的json对象的值
  2. CSS实现div填满剩余高度
  3. 将电脑网络通过USB共享给Android 设备
  4. SpringBoot笔记之模板引擎
  5. Java implements关键字
  6. 16个超棒的国外免费PSD资源素材网站推荐
  7. ECharts修改坐标轴,坐标轴字体,坐标轴网格样式
  8. pjsip学习 ------ 二
  9. Django进阶教程
  10. Matlab中安装NURBS工具箱及使用