视学算法报道

机器之心编辑部

OpenAI 的强大模型们,被开源社区复刻得差不多了。

过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。

以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。

由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但富有创意的研究者似乎总能给他们的模型找到新名字。近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本(作者表示,初步人工评测显示 13B 版本比 7B 版本模型要好不少,不过这不是一个严谨的结论)。

这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

目前,该模型已经开源。

项目地址:https://github.com/lm-sys/FastChat

Meta 前段时间开源了系列大模型 LLaMA,Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似,但 Vicuna 比 Alpaca 的生成质量更好,速度也更快。

我们来对比一下 Alpaca 和 Vicuna 的生成结果,对于同一个问题:「为你最近刚去过的夏威夷旅行撰写一篇博客,重点介绍文化体验和必看景点」,Alpaca 的回答是:

Vicuna 的回答是:

显然,Vicuna 的回答比 Alpaca 优秀很多,甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢?我们来看一下 Vicuna 的技术细节。

模型介绍

受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。

如下图所示,该研究首先从 ShareGPT 收集了大约 7 万个对话,然后改进了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。

具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:

  • 内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。

  • 多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

  • 通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。

为了提供 demo,该研究实现了一个轻量级的分布式服务系统。

demo 地址:https://chat.lmsys.org/

研究团队提供了一个具体的演示样例,其中包含多轮对话,如下视频所示:

GPT-4 做考官,Vicuna 能考 90 分以上

在模型评估方面,该研究创建了 80 个不同的问题,并利用 GPT-4 来初步评估模型的输出质量,其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4,由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。

具体来说,研究者也发现,通过精心设计提示,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题,包括费米问题、编码、数学任务等等,用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题,并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。

研究发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数。但是,该研究也注意到 GPT-4 不太擅长判断编码、数学任务。

由 GPT-4 评估的响应比较。

如上图所示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。

GPT-4 在 80 个问题上对几个模型的评估结果(满分为 10 分)如下表所示,Vicuna 在总分上达到 ChatGPT 的 92%。

当然,与其他大语言模型类似,Vicuna 也有一定的局限性。例如,它不擅长推理或数学任务,还有在输出信息的准确性和偏见等方面存在缺陷。

不过,作为一个开源模型,性能总体上可以达到 ChatGPT 的 90%,已经非常难得,并且成本只需 300 美元。感兴趣的读者快去试试吧。

参考链接:

https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session

https://vicuna.lmsys.org/

© THE END

转载请联系原公众号获得授权

点个在看 paper不断!

300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了...相关推荐

  1. 130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考

    源|机器之心 OpenAI 的强大模型们,被开源社区复刻得差不多了. 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象. 以 Meta 开源 LL ...

  2. 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...

  3. 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

    千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...

  4. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  5. 最新ChatGPT开源平替模型骆马(Vicuna) 单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布

    转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...

  6. Meta复刻GPT-3“背刺”OpenAI,千亿参数大模型权重及训练代码全公布,中文开发者可用吗?

    Meta (原Facebook)开放了一个"高达"1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3-- 之前GPT- ...

  7. 首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?

    就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGP ...

  8. 【剑指金九银十】今天来谈一下一份高质量「简历」是如何撰写出来的

    都说九月十月是跳槽的高峰期 (也有金九银十的说法),所以 近期 计划出一些 面试求职 相关的文章,如果 觉得不错,请点赞/留言,莫要白嫖~ 01. 简历是什么 我们在 上一篇文章 有过 「简历是一份工 ...

  9. ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯

    视学算法报道 编辑:蛋酱.小舟 youChat 能成为搜索引擎变革的先行者吗? ChatGPT 自推出以来就被寄予厚望,一些人认为它会取代搜索引擎,成为「改变游戏规则的人」. 真的会有这一天吗?至少, ...

最新文章

  1. 关于MATLAB中xlswrite函数写数据出现服务器异常情况的解决办法
  2. mysql新建备份在哪里_navicat for MySQL创建备份计划的详细流程
  3. python接口自动化(十四)--session关联接口(详解)
  4. 阿当姆斯matlab,数值计算方法与MATLAB应用
  5. 从壹开始 [vueAdmin后台] 之三 || 动态路由配置 项目快速开发
  6. elementUI之switch应用的坑
  7. 3青春痘长在哪里不害怕
  8. 常用公差配合表图_ER弹簧夹头配套BT刀柄常用规格型号表
  9. Cenos 7修改时区的方法
  10. linux5.5 里dns,linux red hat 5.5 dns 问题求解
  11. 渗透中Meterpreter基本操作和对应的windows上的排查或者现象
  12. Ancient Knight(打造Windows Mobile平台最专业的游戏修改器)
  13. windows安装telnet工具
  14. matlab 风机风速,【资料】组合风速与风力机功率的Matlab仿真分析
  15. ACCESS品牌管理集团为你甄选生活好物 VTN会员商城与品质的故事
  16. php 怎么使用sql server 2000,Linux下PHP支持MSSQL(SQL Server2000)
  17. 华为p20支持手机云闪付吗_华为哪些手机支持云闪付
  18. 2.5维电子地图关键技术研究与实现
  19. 70.爬楼梯(简单)
  20. Python字符串的索引与切片

热门文章

  1. Python 安装步骤(版本3.6.4)
  2. java开源项目及spring微服务架构
  3. Unity换脸插件OpenCVForUnity实现换脸
  4. 【132期】面试再被问到Spring容器IOC初始化过程,就拿这篇文章砸他~
  5. 使用Python批量下载无版权图片
  6. Java 基础 —— Java 中的值类型与引用类型
  7. 吉利星瑞噪音分贝测试软件,吉利星瑞性能测试:确实是最好的自主A级车
  8. FPGA-vivado仿真导出波形文件
  9. 【python+xpath】爬取股票数据(尝鲜版)(可多支股票一并查询)
  10. oracle分区名称能不能相同,Oracle分区介绍