弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源

©作者 | 机器之心编辑部

来源 | 机器之心

BELLE 基于 Stanford Alpaca，对中文做了优化，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。

距离 ChatGPT 的最初发布，过去差不多四个月的时间了。就在上星期 GPT-4 发布时，ChatGPT 第一时间上线了新版本。不过众所周知的一个秘密是，不管是 ChatGPT 还是 GPT-4 都不大可能开源。加上巨大的算力投入以及海量的训练数据等，都为研究界复制其实现过程设下重重关卡。

面对 ChatGPT 等大模型的来势汹汹，开源平替是一个不错的选择。本月初，Meta「开源」了一个新的大模型系列 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3，而且可以在单块 V100 GPU 上运行。

时隔几天，斯坦福基于 LLaMA 7B 微调出一个具有 70 亿参数的新模型 Alpaca，他们使用了 Self-Instruct 论文中介绍的技术生成了 52K 条指令数据，同时进行了一些修改，在初步的人类评估中，Alpaca 7B 模型在 Self-Instruct 指令评估上的表现类似于 text-davinci-003（GPT-3.5）模型。

但遗憾的是，Alpaca 的种子任务都是英语，收集的数据也都是英文，因此训练出来的模型未对中文优化。为了提升对话模型在中文上的效果，有没有更好的方法呢？别急，接下来介绍的这个项目就能很好的解决这个问题。

开源中文对话大模型70 亿参数的 BELLE（Bloom-Enhanced Large Language model Engine）来了。它基于斯坦福的 Alpaca 完成，但进行了中文优化，并对生成代码进行了一些修改，不仅如此，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。

在数据方面，该项目开源了基于 Alpaca 的数据收集代码，基于这段代码生成了约 100 万条中文数据，结合 Alpaca 的 5 万条英文数据，在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face。

Hugging Face 地址：

https://huggingface.co/BelleGroup

项目作者表示：该项目旨在促进中文对话大模型开源社区的发展。

项目地址：

https://github.com/LianjiaTech/BELLE

项目介绍

该项目主要包含以下四部分内容：

175 个中文种子任务
生成数据的代码
0.5M 生成的数据
基于 BLOOMZ-7B1-mt 优化后的模型

数据发布

1. zh_seed_tasks.jsonl：包含 175 个种子任务，样例如下

{"id": "seed_task_20", "name": "horror_movie_opening", "instruction": "你需要为一部恐怖电影写一个创意的开场场景。", "instances": [{"input": "","output":" 太阳已经落山，留下了一个黑暗的小镇。微风吹拂空荡的街道，让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然，一声令人毛骨悚然的尖叫声划破了寂静，随后是玻璃破碎的声音。一所房子亮起了灯光，可以看到一个人影朝镇中心奔跑。当> 那个人影越来越靠近时，清楚地看到那是一个年轻女子，她浑身血迹斑斑。"}],"is_classification": false}

2. prompt_cn.txt: 生成所使用的提示语

3. 0.5M 生成的数据

数据生成

沿用 Alpaca 的方式：

pip install -r requirements.txt
export OPENAI_API_KEY=YOUR_API_KEY
python generate_instruction.py generate_instruction_following_data

默认使用 Completion API，模型 text-davinci-003。如果想使用 Chat API 并使用 gpt-3.5-turbo 模型，可通过参数控制：

python generate_instruction.py generate_instruction_following_data \--api=chat --model_name=gpt-3.5-turbo

输出文件在 Belle.train.json，可以人工筛选后再使用。

模型调优

该项目基于 BLOOMZ-7B1-mt 模型和 Belle.train.json 训练模型，具体参数如下：

此外，该项目还采取了不同大小规模（20 万、60 万、100 万和 200 万样本）的指令学习的数据集训练模型，得到不同的模型版本如下所示:

模型使用例子

局限性和使用限制

基于当前数据和基础模型训练得到的 SFT 模型，在效果上仍存在以下问题：

在涉及事实性的指令上可能会产生违背事实的错误回答。
对于具备危害性的指令无法很好的鉴别，由此会产生危害性言论。
在一些涉及推理、代码等场景下模型的能力仍有待提高。
基于以上模型局限性，该项目要求开发者仅将开源的代码、数据、模型及后续用此项目生成的衍生物用于研究目的，不得用于商业，以及其他会对社会带来危害的用途。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源相关推荐

LeCun狂赞：600刀GPT-3.5平替！斯坦福70亿参数「羊驼」爆火，LLaMA杀疯了
视学算法报道编辑:编辑部 [新智元导读]Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻.今天,斯坦福发布了一个由LLaMA 7B微调的模型Alpaca ...
最新ChatGPT开源平替模型骆马（Vicuna）单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布
转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...
《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...
王小川新公司开源 70 亿参数量的中英文预训练大模型，可商用；谷歌要求员工慎用 AI，即便是自己家的 Bard|极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
王小川新公司开源 70 亿参数量的中英文预训练大模型，可商用；谷歌要求员工慎用 AI，即便是自己家的 Bard|极客头条...
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
我在iPhone上装了70亿参数大模型，来自陈天奇团队最新成果
克雷西发自凹非寺量子位 | 公众号 QbitAI 跑大语言模型的门槛,已经降低到一部iPhone了. 当然安卓版本也有,只要手机RAM够6G,听上去是不是比用2060还要震撼? 而且这次还是开箱 ...
AI领域「听风者」：声纹识别5大核心知识点！
https://www.toutiao.com/a6691897670778225160/ 在移动互联网大行其道的时代,人们不用出门不用见面就可以完成很多事情,比如购物.生活缴费.投资理财等,在享受着 ...
OTT广告价值「锋芒毕露」，谁能蚕食更大市场？
文 | 响铃说作者 | 曾响铃近日,第22届IAI传鉴国际广告奖公布了获奖名单.作为OTT行业领跑者的酷开科技,在本次评选中同时摘得「年度数字营销公司」和「案例奖」两项大奖. IAI传鉴国际广告奖 ...
全屋Wi-Fi领域「兵戎相见」，鸿雁这一局赢面大不大？
作者 | 牧之编辑 | 小沐出品 | 智哪儿 zhinaer.cn 相比全屋智能,另一个刚需属性更强,消费规模更大的细分市场,便是全屋Wi-Fi.在这个板块,当鸿雁入局的时候,笔者还是有些许的「诧 ...

弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源

项目介绍

弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源相关推荐

最新文章

热门文章