HuggingFace发表了一篇博客,详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后,觉得讲解的还是蛮清晰的,因此提炼了一下核心脉络,希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外,文末整理了几篇关于 RLHF 最热门的12篇必读论文,卖萌酱打包好挂在公众号后台了,感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

在过去几年里,基于prompt范式的AI生成模型取得了巨大的成功,诞生了不少有意思的AI应用,例如AI写小说,AI写代码,AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例,大多是采用“自回归生成”的方式,通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词,然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量(而不是单个词),人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度,但这也仅仅是在评价的层面,模型在训练的时候是见不到这些人类真实的偏好的。

因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。基于这个思想,便引出了本文要讨论的对象——RLHF(Reinforcement Learning from Human Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型

抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文_夕小瑶的博客-CSDN博客

从零实现ChatGPT——RLHF技术笔记 - 知乎

Illustrating Reinforcement Learning from Human Feedback (RLHF)

RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】相关推荐

  1. 只用1/500数据就打败人类!一种采样高效的强化学习算法 | 报告详解

    [栏目:前沿进展]近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari )游戏数据上超过同等游戏时长的人类平均水平.Ef ...

  2. 空间简史-人类认识空间的旅程与其对强化学习的启示

    来源:混沌巡洋舰 摘要:本文是对okeefe 1978(栅格细胞发现者, 2014诺贝尔奖得主)的论文 cognitive map  的总结和延申. 一  空间的先验与后验之争 对于我们在其中生存和繁 ...

  3. 基于文本知识库的强化学习技术——Learning to Win by Reading Manuals in a Monte-Carlo Framework

    论文链接:http://people.csail.mit.edu/branavan/papers/acl2011.pdf 文章目录 1. 背景介绍 2. 将攻略文本引入值函数 Q(s,a)Q(s, a ...

  4. 基于图神经网络的多智能体深度强化学习

    参考文献 [1] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. a ...

  5. 基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

    1.基于深度强化学习的机器人运动控制研究进展 1.1 深度强化学习 1.1.1 强化学习简介: 强化学习(Reinforcement Learning, RL)利用试错机制与环境进行交互,旨在通过最大 ...

  6. 基于强化学习与深度强化学习的游戏AI训练

    github地址 一.摘要 在本次大作业中由两个项目组成. 第一个小项目即为简单AI走迷宫游戏,通过强化学习的Q-learning算法,对AI进行训练来让其能以大概率找打一条通关路径并基本按照该路径进 ...

  7. [CV] 基于机器视觉和强化学习的导航

    本文学习CVPR 2019 论文: 1.Abstract 作者提出视觉导航是目前很火的一个方向,然后提出了基于自然语言理解的导航 提到了几个名词: VLN : Vision-language navi ...

  8. 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback

    一.论文信息 论文名称:Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback ...

  9. 优于人类参考摘要,适用CNN新闻,OpenAI用人类反馈提升了摘要生成质量

    选自arXiv 作者:Nisan Stiennon 等 机器之心编译 编辑:杜伟.小舟.陈萍 近日,来自 OpenAI 的研究者利用人类反馈优化了文本摘要生成模型,该模型生成的摘要质量显著提升,并且可 ...

最新文章

  1. 聊聊reactive streams的schedulers
  2. 前端笔记之NodeJS(四)MongoDB数据库Mongoose自制接口MVC架构思想|实战
  3. 大学计算机组装与维修考试题,【校选修】计算机组装与维修 考试题
  4. JS小功能(操作Table--动态添加删除表格及数据)实现代码
  5. Linux网络模块全局变量,()不是Linux系统的特色.
  6. java try catch_Java - 异常处理机制
  7. QT下使用MapX控件的问题以及Activex技术
  8. 音乐专业如何利用计算机思维,太神奇了!带学生“玩音乐”居然可以打开思维创新...
  9. 外卖行业现状分析_2020年中国外卖行业市场现状与发展前景分析
  10. 机器学习笔记——数据挖掘与机器学习区别以及课程内容
  11. SAP 移动类型 与 账户 字段选择不一致
  12. Quartus 平台 FPGA 片内 RAM 使用
  13. Android保存图片和视频到本地并更新相册
  14. 四大金刚 数据结构_学习JavaScript数据结构与算法(三):集合
  15. 单电源运放全波整流电路
  16. 自动白平衡技术(WhiteBalance)(转自Harri的blog)
  17. 更新丨织信Informat V1.12:审批流通知支持移动端打开链接,一键实现快速审批
  18. android 收藏功能,5款不可思议的安卓黑科技APP,各个超级实用,希望大家低调收藏...
  19. asp.net1012-科研项目管理系统#毕业设计
  20. 怎么用动作捕捉设备制作数字人宣传片?

热门文章

  1. 终于等到你,最强 IDE Visual Studio 2017 正式版发布(附详细介绍与下载地址)
  2. python爬取电子书_python爬取计算机电子书(源码移步github)
  3. C++模板——template
  4. swiper.js显示指定图片
  5. 如何做一个简单的XX(学生/图书馆)管理系统(二)
  6. 【报名】RT-Thread师资培训,苏州大学王怀宜教授主讲!
  7. 发展零碳的重要支柱——光储直柔
  8. 数组指针(用几个例子来看看用法)
  9. Python 函数 pass
  10. (九)巴菲特与索罗斯的投资习惯:术业有专攻