大型“指令调优”语言模型在新任务上展现了Zero-shot的卓越能力,但严重依赖于人类编写的指令数据,而这些数据在数量、多样性和创造性方面都是有限的。

斯坦福科研人员引入了self-instruction框架,提高指令遵循能力来自我迭代进化,与InstructGPT的性能相当,相比原始GPT3提升33%!将大模型与指令对齐再也不用人工标注(annotation-free),最后还发布了他们合成的自生成指令数据集,来促进对指令调优的研究。

自我指示self-instruct

self-instruct是一种任务不可知(task-agnostic)的方法,通过自己生成指令数据(指令、输入和输出样本)并使用它进行引导来提高语言模型的指令遵循能力。

自动指示执行的流程:

首先准备好一个小的任务种子集(每个任务的一条指令和一个输入-输出实例)作为任务池开始,从任务池中抽取随机任务用于提示语言模型LM(例如GPT3)生成新的指令和实例,再过滤低质量或类似的生成,合格的就添加回任务池。

羊驼Alpaca模型

指令遵循语言模型叫Alpaca羊驼,是在近期Meta开源的LLaMA 7B模型上进行微调的。语料使用的是text-davinci-003生成的52K指令。stanford_alpaca在GitHub开源,地址见文末。

整体流程图:

训练过程中,使用了完全分片数据并行(Fully Sharded Data Parallel)混合精度(mixed precision) 等训练等技术,硬件方面:在8个80GB A100上对7B LLaMA模型进行微调3个小时,成本竟然不到100美元!但效果惊人,与InstructGPT_001的性能相当。

数据集合评估方法

52k数据集分布:

模型评估
采用四级评级系统,用于分类模型输出的质量,定义如下:
A: 回答是有效和令人满意的
B:响应是可以接受的,但有一些小错误或缺陷可以改进
C:响应是相关的,并响应指令,但它在内容中有重大错误。
D:响应不相关或无效,包括重复输入,完全不相关的输出等。

首发原文链接:

自驱力超强的羊驼?斯坦福Alpaca媲美text-davinci-003,成本不到600美元!

自驱力超强的羊驼?斯坦福微调LLaMa相关推荐

  1. 如何提高一个人的自驱力@酷酷的小航航

    自驱力可以让我们更好的学习,能够更加饱满的态度,充足的精力去投入到工作和学习中,不仅可以提升工作学习的效率,还可以促进职场的更好的发展. 1.良好的工作和学习的环境.可以提升一个人的自驱力,首先就要营 ...

  2. 营造激发自驱力注重培养学习力的想法一

    目录 背景 过程 第一节: 第二节: 第三节: 总结 升华 背景 小编做的是教育类公司,其实无论是做公司的产品,还是对于公司团队人员的培养,都需要去思考教育这件事,尤其是激发自驱力培养学习力: 故而有 ...

  3. 真实案例分享:网络推广执行力超强名人

    真实案例分享:网络推广执行力超强名人 2010-08-24 10:46:36 来源:www.928l.com [ 大 中 小] 评论:0 条 我要投稿 收藏本文

  4. 物联网技术渐趋成熟 车联网应用或成市场主驱力

    目前,物联网应用场域.设备技术.通讯技术已相对成熟,可选用的嵌入式运算平台.通讯芯片与技术底层已可达到建构应用平台需求,导入物联网应用的企业会越来越多.车联网在未来物联网应用将呈现极高的商业价值,汽车 ...

  5. 大模型入门(四)—— 基于peft 微调 LLaMa模型

    llama-7b模型大小大约27G,本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调. 1.模型和数据准备 使用的大模型:https://hug ...

  6. 【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

    昨天在github上看到一个在本地部署中文大模型的项目,和大家分享一下.先把地址po出来. 项目名称:中文LLaMA&Alpaca大语言模型+本地部署 (Chinese LLaMA & ...

  7. 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

    2023开年以来,大模型进入疯狂内卷状态,大模型的发布都要以"天"为单位进行迭代. 之前,尝试了从0到1复现斯坦福羊驼(Stanford Alpaca 7B) ,下面我们来尝试从0 ...

  8. 弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源

    ©作者 | 机器之心编辑部 来源 | 机器之心 BELLE 基于 Stanford Alpaca,对中文做了优化,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据). 距离 ChatG ...

  9. 中澜视讯产品运营总监黄超强:产品+付费+未来汽车

    嘉宾介绍 黄超强,2010年进入互联网,一直做非典型产品经理.在搜狐.爱卡.易车.英雄互娱.罗辑思维,Fast4ward等二三线非大厂互联网公司呆过.近2年开始带领整个产品技术运营团队独立负责项目,对 ...

最新文章

  1. ubuntu预装脚本
  2. 小米台灯底座接口很松_呵护你的眼,米家台灯1S
  3. 如何将mysql5的sql文件导入到mysql4?
  4. Vagrant安装centos7时一直报错无法保存文件
  5. linux 网卡绑定updelay,Linux 配置双网卡绑定实现负载均衡
  6. 音视频技术开发周刊 | 159
  7. 那些关于浏览器的趣图和幽默段子
  8. mysql分表 查询 优化_MySQL性能管理及架构(查询优化、分库分表)一遍文章搞定...
  9. Qt图形界面编程入门(Qt的历史、Qt安装资源链接、Qt Creator简介)
  10. opencv获取mat的指针_opencv中Mat类型数据操作与遍历
  11. vmware workstation中Linux虚拟机固定IP
  12. TensorFlow中CNN的两种padding方式“SAME”和“VALID”
  13. samba介绍、搭建及坑
  14. 诡异的The inferior stopped because it triggered an exception错误
  15. PMP考试要学多久,考试难吗?
  16. 用python 写hadoop 需要怎么配置环境 python开发hadoop教程
  17. [JavaSE] 认识String类(StringBuffer和StringBuilder)
  18. “熬夜导致秃头”,因果关系推断说这话有问题!
  19. 宾夕法尼亚大学在线计算机硕士,Z 同学_宾夕法尼亚大学_计算机_录取成功案例分享...
  20. 半导体器件物理【15】非平衡过剩载流子 —— 连续性方程

热门文章

  1. 第05课:Redis 实际应用中的异常场景及其根因分析和解决方案
  2. Bootstrap免费字体和图标网站
  3. 2022中国新时代100大建筑公布,重庆来福士、北京大兴机场、港珠澳大桥等杰出工程入选 | 美通社头条...
  4. Github上开源仿京东商城项目启动配置详解(进阶版)
  5. Linux的vx开头的文件,微博 Qzone 微信 Linux文件及目录常用命令,进来瞅瞅
  6. 自然语言和计算机语言二义性,二级C++精品课程第一章第一节计算机语言及其发展...
  7. PDF Converter OCR for Mac(PDF转换器和OCR识别工具)
  8. Unity3D中UGUI的RectTransform对齐方式详解
  9. Android 自定义apk名称
  10. C语言程序设计简谐运动的模拟,C语言课程设计简谐振动实验的模拟.doc