300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了...

视学算法报道

机器之心编辑部

OpenAI 的强大模型们，被开源社区复刻得差不多了。

过去几个月，OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局，也成为其他研究赶超的对象。

以 Meta 开源 LLaMA（直译为「大羊驼」）系列模型为起点，斯坦福大学等机构的研究人员先后在其上进行「二创」，开源了基于 LLaMA 的 Alpaca（羊驼）、Alpaca-Lora、Luotuo（骆驼）等轻量级类 ChatGPT 模型，大大降低了这类模型的研究、应用门槛，训练、推理成本一再降低。

由于「二创」过于丰富，生物学羊驼属的英文单词都快不够用了，但富有创意的研究者似乎总能给他们的模型找到新名字。近日，来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna（小羊驼）。这个模型也是基于 LLaMA，不过用到的是 13B 参数量的版本（作者表示，初步人工评测显示 13B 版本比 7B 版本模型要好不少，不过这不是一个严谨的结论）。

这个项目有趣的地方在于，作者在评测环节并没有通过某种「标准化考试」来测定模型性能（因为他们认为这些问题测不出模型在对话中的变通能力），而是让 GPT-4 当「考官」，看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示，相比于现有的 SOTA 开源模型（LLaMA、Alpaca），GPT-4 在超过 90% 的问题中更倾向于 Vicuna，并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

目前，该模型已经开源。

项目地址：https://github.com/lm-sys/FastChat

Meta 前段时间开源了系列大模型 LLaMA，Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似，但 Vicuna 比 Alpaca 的生成质量更好，速度也更快。

我们来对比一下 Alpaca 和 Vicuna 的生成结果，对于同一个问题：「为你最近刚去过的夏威夷旅行撰写一篇博客，重点介绍文化体验和必看景点」，Alpaca 的回答是：

Vicuna 的回答是：

显然，Vicuna 的回答比 Alpaca 优秀很多，甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢？我们来看一下 Vicuna 的技术细节。

模型介绍

受 Meta LLaMA 和 Stanford Alpaca 项目的启发，Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站，用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据，但不同的是，Vicuna 是一个完全开源的模型，研究团队明确强调 Vicuna 不能用于任何商业目的。

如下图所示，该研究首先从 ShareGPT 收集了大约 7 万个对话，然后改进了 Alpaca 提供的训练脚本，以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。

具体来说，Vicuna 以斯坦福的 Alpaca 为基础，并进行了如下改进：

内存优化：为了使 Vicuna 能够理解长上下文，该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求，因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。
多轮对话：该研究调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出计算微调损失。
通过 Spot 实例降低成本：该研究使用 SkyPilot 显著降低了成本，将 7B 模型的训练成本从 500 美元削减至 140 美元左右，将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。

为了提供 demo，该研究实现了一个轻量级的分布式服务系统。

demo 地址：https://chat.lmsys.org/

研究团队提供了一个具体的演示样例，其中包含多轮对话，如下视频所示：

GPT-4 做考官，Vicuna 能考 90 分以上

在模型评估方面，该研究创建了 80 个不同的问题，并利用 GPT-4 来初步评估模型的输出质量，其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4，由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。

具体来说，研究者也发现，通过精心设计提示，GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题，包括费米问题、编码、数学任务等等，用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题，并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。

研究发现 GPT-4 不仅可以产生相对一致的分数，而且可以详细解释为什么给出这样的分数。但是，该研究也注意到 GPT-4 不太擅长判断编码、数学任务。

由 GPT-4 评估的响应比较。

如上图所示，相比于现有的 SOTA 开源模型（LLaMA、Alpaca），GPT-4 在超过 90% 的问题中更倾向于 Vicuna，并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中，GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。

GPT-4 在 80 个问题上对几个模型的评估结果（满分为 10 分）如下表所示，Vicuna 在总分上达到 ChatGPT 的 92%。

当然，与其他大语言模型类似，Vicuna 也有一定的局限性。例如，它不擅长推理或数学任务，还有在输出信息的准确性和偏见等方面存在缺陷。

不过，作为一个开源模型，性能总体上可以达到 ChatGPT 的 90%，已经非常难得，并且成本只需 300 美元。感兴趣的读者快去试试吧。

参考链接：

https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session

https://vicuna.lmsys.org/

转载请联系原公众号获得授权

点个在看 paper不断！

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了...相关推荐

130亿参数开源模型「小羊驼-Vicuna」来了！复刻ChatGPT九成功力，GPT-4亲自监考
源|机器之心 OpenAI 的强大模型们,被开源社区复刻得差不多了. 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象. 以 Meta 开源 LL ...
千亿参数大模型首次被撬开！Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布...
梦晨萧箫发自凹非寺量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...
千亿参数大模型首次被撬开：Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布
千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...
#今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI，完整模型权重及训练代码全公布
#今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...
最新ChatGPT开源平替模型骆马（Vicuna）单个GPU就能跑！UC伯克利领头，130亿参数「小羊驼」权重公布
转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...
Meta复刻GPT-3“背刺”OpenAI，千亿参数大模型权重及训练代码全公布，中文开发者可用吗？
Meta (原Facebook)开放了一个"高达"1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3-- 之前GPT- ...
首个“开源ChatGPT”来了：基于谷歌5400亿参数大模型，华人小哥出品，网友吐槽：这谁能跑？
就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGP ...
【剑指金九银十】今天来谈一下一份高质量「简历」是如何撰写出来的
都说九月十月是跳槽的高峰期 (也有金九银十的说法),所以近期计划出一些面试求职相关的文章,如果觉得不错,请点赞/留言,莫要白嫖~ 01. 简历是什么我们在上一篇文章有过「简历是一份工 ...
ChatGPT还在2G冲浪？新模型「youChat」：我已能够解说2022世界杯
视学算法报道编辑:蛋酱.小舟 youChat 能成为搜索引擎变革的先行者吗? ChatGPT 自推出以来就被寄予厚望,一些人认为它会取代搜索引擎,成为「改变游戏规则的人」. 真的会有这一天吗?至少, ...

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了...

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了...相关推荐

最新文章

热门文章