©作者 | 机器之心编辑部

来源 | 机器之心

BELLE 基于 Stanford Alpaca,对中文做了优化,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

距离 ChatGPT 的最初发布,过去差不多四个月的时间了。就在上星期 GPT-4 发布时,ChatGPT 第一时间上线了新版本。不过众所周知的一个秘密是,不管是 ChatGPT 还是 GPT-4 都不大可能开源。加上巨大的算力投入以及海量的训练数据等,都为研究界复制其实现过程设下重重关卡。

面对 ChatGPT 等大模型的来势汹汹,开源平替是一个不错的选择。本月初,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行。

时隔几天,斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 Alpaca,他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据,同时进行了一些修改,在初步的人类评估中,Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003(GPT-3.5)模型。

但遗憾的是,Alpaca 的种子任务都是英语,收集的数据也都是英文,因此训练出来的模型未对中文优化。为了提升对话模型在中文上的效果,有没有更好的方法呢?别急,接下来介绍的这个项目就能很好的解决这个问题。

开源中文对话大模型70 亿参数的 BELLE(Bloom-Enhanced Large Language model Engine)来了。它基于斯坦福的 Alpaca 完成,但进行了中文优化,并对生成代码进行了一些修改,不仅如此,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

在数据方面,该项目开源了基于 Alpaca 的数据收集代码,基于这段代码生成了约 100 万条中文数据,结合 Alpaca 的 5 万条英文数据,在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face。

Hugging Face 地址:

https://huggingface.co/BelleGroup

项目作者表示:该项目旨在促进中文对话大模型开源社区的发展。

项目地址:

https://github.com/LianjiaTech/BELLE

项目介绍

该项目主要包含以下四部分内容:

  • 175 个中文种子任务

  • 生成数据的代码

  • 0.5M 生成的数据

  • 基于 BLOOMZ-7B1-mt 优化后的模型

数据发布

1. zh_seed_tasks.jsonl:包含 175 个种子任务,样例如下

{"id": "seed_task_20", "name": "horror_movie_opening", "instruction": "你需要为一部恐怖电影写一个创意的开场场景。", "instances": [{"input": "","output":" 太阳已经落山,留下了一个黑暗的小镇。微风吹拂空荡的街道,让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然,一声令人毛骨悚然的尖叫声划破了寂静,随后是玻璃破碎的声音。一所房子亮起了灯光,可以看到一个人影朝镇中心奔跑。当> 那个人影越来越靠近时,清楚地看到那是一个年轻女子,她浑身血迹斑斑。"}],"is_classification": false}

2. prompt_cn.txt: 生成所使用的提示语

3. 0.5M 生成的数据

数据生成

沿用 Alpaca 的方式:

pip install -r requirements.txt
export OPENAI_API_KEY=YOUR_API_KEY
python generate_instruction.py generate_instruction_following_data

默认使用 Completion API,模型 text-davinci-003。如果想使用 Chat API 并使用 gpt-3.5-turbo 模型,可通过参数控制:

python generate_instruction.py generate_instruction_following_data \--api=chat --model_name=gpt-3.5-turbo

输出文件在 Belle.train.json,可以人工筛选后再使用。

模型调优

该项目基于 BLOOMZ-7B1-mt 模型和 Belle.train.json 训练模型,具体参数如下:

此外,该项目还采取了不同大小规模(20 万、60 万、100 万和 200 万样本)的指令学习的数据集训练模型,得到不同的模型版本如下所示:

模型使用例子

局限性和使用限制

基于当前数据和基础模型训练得到的 SFT 模型,在效果上仍存在以下问题:

  • 在涉及事实性的指令上可能会产生违背事实的错误回答。

  • 对于具备危害性的指令无法很好的鉴别,由此会产生危害性言论。

  • 在一些涉及推理、代码等场景下模型的能力仍有待提高。

  • 基于以上模型局限性,该项目要求开发者仅将开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的,不得用于商业,以及其他会对社会带来危害的用途。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源相关推荐

  1. LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了

      视学算法报道   编辑:编辑部 [新智元导读]Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻.今天,斯坦福发布了一个由LLaMA 7B微调的模型Alpaca ...

  2. 最新ChatGPT开源平替模型骆马(Vicuna) 单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布

    转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...

  3. 《预训练周刊》第28期:M6-10T:高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...

    No.28 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...

  4. 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  5. 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  6. 我在iPhone上装了70亿参数大模型,来自陈天奇团队最新成果

    克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 跑大语言模型的门槛,已经降低到一部iPhone了. 当然安卓版本也有,只要手机RAM够6G,听上去是不是比用2060还要震撼? 而且这次还是开箱 ...

  7. AI领域「听风者」:声纹识别5大核心知识点!

    https://www.toutiao.com/a6691897670778225160/ 在移动互联网大行其道的时代,人们不用出门不用见面就可以完成很多事情,比如购物.生活缴费.投资理财等,在享受着 ...

  8. OTT广告价值「锋芒毕露」,谁能蚕食更大市场?

    文 | 响铃说 作者 | 曾响铃 近日,第22届IAI传鉴国际广告奖公布了获奖名单.作为OTT行业领跑者的酷开科技,在本次评选中同时摘得「年度数字营销公司」和「案例奖」两项大奖. IAI传鉴国际广告奖 ...

  9. 全屋Wi-Fi领域「兵戎相见」,鸿雁这一局赢面大不大?

    作者 | 牧之 编辑 | 小沐 出品 | 智哪儿 zhinaer.cn 相比全屋智能,另一个刚需属性更强,消费规模更大的细分市场,便是全屋Wi-Fi.在这个板块,当鸿雁入局的时候,笔者还是有些许的「诧 ...

最新文章

  1. node执行cmd命令方法
  2. 信息系统项目管理师-成本效益分析
  3. javascript实现yield
  4. 使用Lambda优化日志案例
  5. ng-template和ngTemplateOutlet
  6. 无法加载 DLL“SQLite.Interop.DLL”: 找不到指定的模块。 (异常来自 HRESULT:0x8007007E)。...
  7. xss攻击中受影响的是服务器还是客户端,安全测试基础之 XSS
  8. C#链接mysql 新手容易出错的问题
  9. python类的属性和对象属性_Python打印对象的全部属性
  10. (18)Zynq FPGA 看门狗定时器介绍
  11. java: cannot execute binary file问题的解决
  12. 【JAVA错误笔记】 - 【Could not open ServletContext resource [/WEB-INF/applicationContext.xml]解决方法】
  13. oracle恢复表数据
  14. hand_mysql
  15. Android:浏览图片,点击放大至全屏效果
  16. UVA10115- Automatic Editing
  17. FleaPHP 学习笔记1
  18. GPU状态显示和部分指标含义
  19. Haystack:Facebook 的照片存储系统
  20. 中科院 鲁士文 计算机网络,《计算机网络-鲁士文》10_基于IP的多协议标记交换技术.pptx...

热门文章

  1. 如何申请电子邮件邮箱账号?邮件系统服务器哪个稳定?
  2. jenkins 固定脚本踩过坑
  3. Python源码解读之六 浮点数
  4. java计算机毕业设计留守儿童帮扶网站源码+mysql数据库+系统+lw文档+部署
  5. 建站技术:不懂设计怎么也能做出好看的banner
  6. Bochs配置文件-bochsrc
  7. MM2018/风格迁移-Style Separation and Synthesis via Generative Adversarial Networks通过生成性对抗网络进行风格分离和合成
  8. OpenCV小游戏-《跑跑卡丁车》项目实践-3
  9. Webp图片怎么打开?如何转成JPG图片?
  10. 分布式的在线教育系统的实现与应用