源|机器之心

OpenAI 的强大模型们,被开源社区复刻得差不多了。

过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。

以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。

由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但富有创意的研究者似乎总能给他们的模型找到新名字。近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本(作者表示,初步人工评测显示 13B 版本比 7B 版本模型要好不少,不过这不是一个严谨的结论)。

这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

目前,该模型已经开源。

项目地址:
https://github.com/lm-sys/FastChat

Meta 前段时间开源了系列大模型 LLaMA,Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似,但 Vicuna 比 Alpaca 的生成质量更好,速度也更快。

我们来对比一下 Alpaca 和 Vicuna 的生成结果,对于同一个问题:「为你最近刚去过的夏威夷旅行撰写一篇博客,重点介绍文化体验和必看景点」,Alpaca 的回答是:

Vicuna 的回答是:

显然,Vicuna 的回答比 Alpaca 优秀很多,甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢?我们来看一下 Vicuna 的技术细节。

模型介绍

受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。

如下图所示,该研究首先从 ShareGPT 收集了大约 7 万个对话,然后改进了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。

具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:

  • 内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。

  • 多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。

  • 通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。

为了提供 demo,该研究实现了一个轻量级的分布式服务系统。

demo 地址:
https://chat.lmsys.org/

研究团队提供了一个具体的演示样例,其中包含多轮对话,如下视频所示:

GPT-4 做考官,Vicuna 能考 90 分以上

在模型评估方面,该研究创建了 80 个不同的问题,并利用 GPT-4 来初步评估模型的输出质量,其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4,由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。

具体来说,研究者也发现,通过精心设计提示,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题,包括费米问题、编码、数学任务等等,用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题,并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。

研究发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数。但是,该研究也注意到 GPT-4 不太擅长判断编码、数学任务。

▲由 GPT-4 评估的响应比较。

如上图所示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。

GPT-4 在 80 个问题上对几个模型的评估结果(满分为 10 分)如下表所示,Vicuna 在总分上达到 ChatGPT 的 92%。

当然,与其他大语言模型类似,Vicuna 也有一定的局限性。例如,它不擅长推理或数学任务,还有在输出信息的准确性和偏见等方面存在缺陷。

不过,作为一个开源模型,性能总体上可以达到 ChatGPT 的 90%,已经非常难得,并且成本只需 300 美元。感兴趣的读者快去试试吧。

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

[1]https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session

[2]https://vicuna.lmsys.org/

130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考相关推荐

  1. 300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了...

    视学算法报道 机器之心编辑部 OpenAI 的强大模型们,被开源社区复刻得差不多了. 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象. 以 Me ...

  2. 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...

  3. 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

    千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...

  4. 训练一个130亿参数的模型要用几个GPU?微软:一个就够

    视学算法报道 转载自公众号:机器之心 作者:蛋酱.张倩 现在的模型动辄数百.数千亿参数,普通人训不动怎么办? 前不久,谷歌发布了参数量为 1.6 万亿的语言模型 Swith Transformer,将 ...

  5. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  6. 最新ChatGPT开源平替模型骆马(Vicuna) 单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布

    转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...

  7. 重磅!Meta AI开源OPT-175B:1750亿参数大模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:机器之心 |  编辑:陈萍 OPT-175B,使人工智能更加开放和可复制. Meta AI 在昨 ...

  8. 开源高性能 RISC-V 处理器“香山”国际亮相;Apache Log4j 远程代码执行漏洞;DeepMind 拥有 2800 亿参数的模型 | 开源日报

    整理 | 宋彤彤 责编 | 郑丽媛 开源吞噬世界的趋势下,借助开源软件,基于开源协议,任何人都可以得到项目的源代码,加以学习.修改,甚至是重新分发.关注「开源日报」,一文速览国内外今日的开源大事件吧! ...

  9. 【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3

    01 行业大事件 谷歌.Meta如何给大模型瘦身?谷歌工程师亲述部署秘籍(免费书) 这是一本正在写作的新书,目前前四章已经放出了草稿. 过去几年,GPT-3 等几个大模型展示了大数据.大算力的力量,它 ...

最新文章

  1. linux虚拟机图形界面安装,linux 在虚拟机中安装图形界面
  2. 运维中的日志切割操作梳理(Logrotate/python/shell脚本实现)
  3. 战队基地_走a怪凌晨四点被赶出训练基地,粉丝礼物还被战队瓜分
  4. Hazelcast入门指南第1部分
  5. 【POJ】3268 Silver Cow Party
  6. python crypto安装_关于python安装pip及crypto库
  7. 机器人带陀螺仪走钢丝_一言不合就走钢丝,机器人化身“七变美男子”,萌翻你!...
  8. html5 dzzxjbd cn,UEditor实现单张图片上传至腾讯云(对象存储服务)功能(html5
  9. Mysql练习_MySQL练习(一)
  10. 华三服务器bios中查看硬盘,H3C服务器升级BIOS
  11. 信息学奥赛一本通评测系统P1336
  12. cmd强制删除文件夹
  13. MATLAB NAR时间序列神经网络两种预测方法
  14. 组装苹果xsmax价格是多少?
  15. Docker学习(八):Docker可视化与监控
  16. C++snprintf的使用
  17. 什么是EOS(柚子)
  18. 统一配置中心对比介绍
  19. 【愚公系列】2023年04月 攻防世界-MOBILE(Android2.0)
  20. Bootstrap专用图标字体Font Awesome

热门文章

  1. 与游戏结合的建材网店
  2. 由《社交网络》想到的...
  3. 文件资源管理器历史记录清除
  4. 教育部原副部长:大学千篇一律 需个性化
  5. Windows安装启动logstash
  6. 佛家经典语录 - 佛的告诫
  7. 如何更改微信登录密码?经验分享!微信怎样修改登陆密码?
  8. SQL过滤数据——WHERE
  9. YOLOX-PAI:加速YOLOX,比YOLOV6更快更强
  10. (转贴)彻底卸载hp打印机驱动