130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考
源|机器之心
OpenAI 的强大模型们,被开源社区复刻得差不多了。
过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。
以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。
由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但富有创意的研究者似乎总能给他们的模型找到新名字。近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本(作者表示,初步人工评测显示 13B 版本比 7B 版本模型要好不少,不过这不是一个严谨的结论)。
这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。
目前,该模型已经开源。
项目地址:
https://github.com/lm-sys/FastChat
Meta 前段时间开源了系列大模型 LLaMA,Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似,但 Vicuna 比 Alpaca 的生成质量更好,速度也更快。
我们来对比一下 Alpaca 和 Vicuna 的生成结果,对于同一个问题:「为你最近刚去过的夏威夷旅行撰写一篇博客,重点介绍文化体验和必看景点」,Alpaca 的回答是:
Vicuna 的回答是:
显然,Vicuna 的回答比 Alpaca 优秀很多,甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢?我们来看一下 Vicuna 的技术细节。
模型介绍
受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。
如下图所示,该研究首先从 ShareGPT 收集了大约 7 万个对话,然后改进了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。
具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:
内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。
多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。
为了提供 demo,该研究实现了一个轻量级的分布式服务系统。
demo 地址:
https://chat.lmsys.org/
研究团队提供了一个具体的演示样例,其中包含多轮对话,如下视频所示:
GPT-4 做考官,Vicuna 能考 90 分以上
在模型评估方面,该研究创建了 80 个不同的问题,并利用 GPT-4 来初步评估模型的输出质量,其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4,由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。
具体来说,研究者也发现,通过精心设计提示,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题,包括费米问题、编码、数学任务等等,用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题,并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。
研究发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数。但是,该研究也注意到 GPT-4 不太擅长判断编码、数学任务。
如上图所示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。
GPT-4 在 80 个问题上对几个模型的评估结果(满分为 10 分)如下表所示,Vicuna 在总分上达到 ChatGPT 的 92%。
当然,与其他大语言模型类似,Vicuna 也有一定的局限性。例如,它不擅长推理或数学任务,还有在输出信息的准确性和偏见等方面存在缺陷。
不过,作为一个开源模型,性能总体上可以达到 ChatGPT 的 90%,已经非常难得,并且成本只需 300 美元。感兴趣的读者快去试试吧。
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜推广与求职讨论群
[1]https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session
[2]https://vicuna.lmsys.org/
130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考相关推荐
- 300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了...
视学算法报道 机器之心编辑部 OpenAI 的强大模型们,被开源社区复刻得差不多了. 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象. 以 Me ...
- 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...
梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...
- 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布
千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...
- 训练一个130亿参数的模型要用几个GPU?微软:一个就够
视学算法报道 转载自公众号:机器之心 作者:蛋酱.张倩 现在的模型动辄数百.数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer,将 ...
- #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布
#今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...
- 最新ChatGPT开源平替模型骆马(Vicuna) 单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布
转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...
- 重磅!Meta AI开源OPT-175B:1750亿参数大模型
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:机器之心 | 编辑:陈萍 OPT-175B,使人工智能更加开放和可复制. Meta AI 在昨 ...
- 开源高性能 RISC-V 处理器“香山”国际亮相;Apache Log4j 远程代码执行漏洞;DeepMind 拥有 2800 亿参数的模型 | 开源日报
整理 | 宋彤彤 责编 | 郑丽媛 开源吞噬世界的趋势下,借助开源软件,基于开源协议,任何人都可以得到项目的源代码,加以学习.修改,甚至是重新分发.关注「开源日报」,一文速览国内外今日的开源大事件吧! ...
- 【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3
01 行业大事件 谷歌.Meta如何给大模型瘦身?谷歌工程师亲述部署秘籍(免费书) 这是一本正在写作的新书,目前前四章已经放出了草稿. 过去几年,GPT-3 等几个大模型展示了大数据.大算力的力量,它 ...
最新文章
- linux虚拟机图形界面安装,linux 在虚拟机中安装图形界面
- 运维中的日志切割操作梳理(Logrotate/python/shell脚本实现)
- 战队基地_走a怪凌晨四点被赶出训练基地,粉丝礼物还被战队瓜分
- Hazelcast入门指南第1部分
- 【POJ】3268 Silver Cow Party
- python crypto安装_关于python安装pip及crypto库
- 机器人带陀螺仪走钢丝_一言不合就走钢丝,机器人化身“七变美男子”,萌翻你!...
- html5 dzzxjbd cn,UEditor实现单张图片上传至腾讯云(对象存储服务)功能(html5
- Mysql练习_MySQL练习(一)
- 华三服务器bios中查看硬盘,H3C服务器升级BIOS
- 信息学奥赛一本通评测系统P1336
- cmd强制删除文件夹
- MATLAB NAR时间序列神经网络两种预测方法
- 组装苹果xsmax价格是多少?
- Docker学习(八):Docker可视化与监控
- C++snprintf的使用
- 什么是EOS(柚子)
- 统一配置中心对比介绍
- 【愚公系列】2023年04月 攻防世界-MOBILE(Android2.0)
- Bootstrap专用图标字体Font Awesome