300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了...
视学算法报道
机器之心编辑部
OpenAI 的强大模型们,被开源社区复刻得差不多了。
过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。
以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。
由于「二创」过于丰富,生物学羊驼属的英文单词都快不够用了,但富有创意的研究者似乎总能给他们的模型找到新名字。近日,来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna(小羊驼)。这个模型也是基于 LLaMA,不过用到的是 13B 参数量的版本(作者表示,初步人工评测显示 13B 版本比 7B 版本模型要好不少,不过这不是一个严谨的结论)。
这个项目有趣的地方在于,作者在评测环节并没有通过某种「标准化考试」来测定模型性能(因为他们认为这些问题测不出模型在对话中的变通能力),而是让 GPT-4 当「考官」,看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 在总分上达到了 ChatGPT 的 92%。
目前,该模型已经开源。
项目地址:https://github.com/lm-sys/FastChat
Meta 前段时间开源了系列大模型 LLaMA,Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似,但 Vicuna 比 Alpaca 的生成质量更好,速度也更快。
我们来对比一下 Alpaca 和 Vicuna 的生成结果,对于同一个问题:「为你最近刚去过的夏威夷旅行撰写一篇博客,重点介绍文化体验和必看景点」,Alpaca 的回答是:
Vicuna 的回答是:
显然,Vicuna 的回答比 Alpaca 优秀很多,甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢?我们来看一下 Vicuna 的技术细节。
模型介绍
受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。
如下图所示,该研究首先从 ShareGPT 收集了大约 7 万个对话,然后改进了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。
具体来说,Vicuna 以斯坦福的 Alpaca 为基础,并进行了如下改进:
内存优化:为了使 Vicuna 能够理解长上下文,该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求,因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。
多轮对话:该研究调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
通过 Spot 实例降低成本:该研究使用 SkyPilot 显著降低了成本,将 7B 模型的训练成本从 500 美元削减至 140 美元左右,将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。
为了提供 demo,该研究实现了一个轻量级的分布式服务系统。
demo 地址:https://chat.lmsys.org/
研究团队提供了一个具体的演示样例,其中包含多轮对话,如下视频所示:
GPT-4 做考官,Vicuna 能考 90 分以上
在模型评估方面,该研究创建了 80 个不同的问题,并利用 GPT-4 来初步评估模型的输出质量,其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4,由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。
具体来说,研究者也发现,通过精心设计提示,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题,包括费米问题、编码、数学任务等等,用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题,并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。
研究发现 GPT-4 不仅可以产生相对一致的分数,而且可以详细解释为什么给出这样的分数。但是,该研究也注意到 GPT-4 不太擅长判断编码、数学任务。
由 GPT-4 评估的响应比较。
如上图所示,相比于现有的 SOTA 开源模型(LLaMA、Alpaca),GPT-4 在超过 90% 的问题中更倾向于 Vicuna,并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。
GPT-4 在 80 个问题上对几个模型的评估结果(满分为 10 分)如下表所示,Vicuna 在总分上达到 ChatGPT 的 92%。
当然,与其他大语言模型类似,Vicuna 也有一定的局限性。例如,它不擅长推理或数学任务,还有在输出信息的准确性和偏见等方面存在缺陷。
不过,作为一个开源模型,性能总体上可以达到 ChatGPT 的 90%,已经非常难得,并且成本只需 300 美元。感兴趣的读者快去试试吧。
参考链接:
https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session
https://vicuna.lmsys.org/
© THE END
转载请联系原公众号获得授权
点个在看 paper不断!
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了...相关推荐
- 130亿参数开源模型「小羊驼-Vicuna」来了!复刻ChatGPT九成功力,GPT-4亲自监考
源|机器之心 OpenAI 的强大模型们,被开源社区复刻得差不多了. 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象. 以 Meta 开源 LL ...
- 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...
梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...
- 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布
千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...
- #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布
#今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...
- 最新ChatGPT开源平替模型骆马(Vicuna) 单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布
转载:单个GPU就能跑!UC伯克利领头,130亿参数「小羊驼」权重公布 [导读]刚刚,UC伯克利.CMU.斯坦福等,联手发布了最新开源模型骆马(Vicuna)的权重. 3月31日,UC伯克利联手CMU ...
- Meta复刻GPT-3“背刺”OpenAI,千亿参数大模型权重及训练代码全公布,中文开发者可用吗?
Meta (原Facebook)开放了一个"高达"1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3-- 之前GPT- ...
- 首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?
就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGP ...
- 【剑指金九银十】今天来谈一下一份高质量「简历」是如何撰写出来的
都说九月十月是跳槽的高峰期 (也有金九银十的说法),所以 近期 计划出一些 面试求职 相关的文章,如果 觉得不错,请点赞/留言,莫要白嫖~ 01. 简历是什么 我们在 上一篇文章 有过 「简历是一份工 ...
- ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯
视学算法报道 编辑:蛋酱.小舟 youChat 能成为搜索引擎变革的先行者吗? ChatGPT 自推出以来就被寄予厚望,一些人认为它会取代搜索引擎,成为「改变游戏规则的人」. 真的会有这一天吗?至少, ...
最新文章
- 关于MATLAB中xlswrite函数写数据出现服务器异常情况的解决办法
- mysql新建备份在哪里_navicat for MySQL创建备份计划的详细流程
- python接口自动化(十四)--session关联接口(详解)
- 阿当姆斯matlab,数值计算方法与MATLAB应用
- 从壹开始 [vueAdmin后台] 之三 || 动态路由配置 项目快速开发
- elementUI之switch应用的坑
- 3青春痘长在哪里不害怕
- 常用公差配合表图_ER弹簧夹头配套BT刀柄常用规格型号表
- Cenos 7修改时区的方法
- linux5.5 里dns,linux red hat 5.5 dns 问题求解
- 渗透中Meterpreter基本操作和对应的windows上的排查或者现象
- Ancient Knight(打造Windows Mobile平台最专业的游戏修改器)
- windows安装telnet工具
- matlab 风机风速,【资料】组合风速与风力机功率的Matlab仿真分析
- ACCESS品牌管理集团为你甄选生活好物 VTN会员商城与品质的故事
- php 怎么使用sql server 2000,Linux下PHP支持MSSQL(SQL Server2000)
- 华为p20支持手机云闪付吗_华为哪些手机支持云闪付
- 2.5维电子地图关键技术研究与实现
- 70.爬楼梯(简单)
- Python字符串的索引与切片
热门文章
- Python 安装步骤(版本3.6.4)
- java开源项目及spring微服务架构
- Unity换脸插件OpenCVForUnity实现换脸
- 【132期】面试再被问到Spring容器IOC初始化过程,就拿这篇文章砸他~
- 使用Python批量下载无版权图片
- Java 基础 —— Java 中的值类型与引用类型
- 吉利星瑞噪音分贝测试软件,吉利星瑞性能测试:确实是最好的自主A级车
- FPGA-vivado仿真导出波形文件
- 【python+xpath】爬取股票数据(尝鲜版)(可多支股票一并查询)
- oracle分区名称能不能相同,Oracle分区介绍