本文转载自量子位

GPT-3有多厉害不用多说了吧?

现在,以色列特拉维夫一家AI公司——AI21 Labs表示要挑战一下这个巨星在NLP领域的主导地位。

他们计划发布一个比GPT-3还要大的模型,且目前不用排队苦苦申请,所有人都可以免费“调教”。

大多少呢?

GPT-3模型拥有1750亿个参数,而他们这个叫做Jurassic-1(侏罗纪-1)的模型有1780亿个。

GPT-3模型的词汇表有5万个token,而Jurassic-1使用的词汇表则有25万个!

对所有人开放,训练只需提供50-100个样本

Jurassic-1模型的训练数据包括3000亿个tokens,由维基百科、新闻出版物、StackExchange(问答网站)和OpenSubtitles(全球最大的多国语言开放字幕库)上的信息编译而来。

在云上经过数百个GPU的分布式训练而成,由于最终存储1780亿个参数需要超过350GB的内存,这就要求开发团队使用多种策略来尽可能提高流程的效率。

减少文本表示所需的token数就是一个好办法。

Jurassic-1使用的词汇表不仅包括了完整词和分词(word piece),还挖掘了一些不太常见的词或词组,比如“纽约洋基队”、“run of the mill(习语,平庸的)”、国家元首名字。

这也是Jurassic-1成为第一个使用包含多词汇 (muti-word) token的语言模型。

这就让模型的效率提上来了,比如“Once in a while I like to visit New York City”这句,GPT-3需要使用11个token来表示,而Jurassic-1只需4个

Jurassic-1模型的规模大了30亿参数,GPT-3能干的活它自然也“不甘示弱”:生成“人话”自不用说,文本转表格、话题分类、Python转JavaScript、从产品描述中生成简短的产品名称、写歌、算数等从简单到复杂的任务都能hold住。

 Jurassic-1重新解读商场“黑话”

 Jurassic-1写博客

性能如何呢?

实验显示,Jurassic-1模型在一系列任务中的表现与GPT-3相当或更好 (尤其是在回答学术和法律问题方面)。

下表说明了在几乎所有的语料库中,Jurassic-1模型的适用性都大幅领先对手GPT-3。

各种预料库中每个字节的平均对数概率(log-probabilities)

此外,与GPT-3相比,Jurassic-1在零样本学习中与之性能持平,但在少样本学习中略胜一筹,这也是因为它的tokenizer可以在相同的上下文长度中容纳更多的文本,因此可以在prompt中包含更多的示例。

零样本实验结果

少样本实验结果

现在,Jurassic-1模型的公测版本已通过AI21 Labs的Studio平台提供给开发人员使用,大家训练只需提供50-100个样本,就能搭建一些诸如聊天机器人的应用程序原型。

无论你是大中小企业、研究员、自由职业者还是什么身份,所有人都可以不用排队申请就能使用

如果有人希望上线自己搭出来的成果,获得生产规模流量,可申请访问定制模型并获得私有微调版本,在一个“按量付费” (pay-as-you-go )的云服务模式中使用。

ps.多少人申请的GPT-3 API一直是still waiting的状态?

不过,至于如何将模型定制到新任务上,AI21 Labs表示这是个秘密,但反正过程会比标准微调技术更具有鲁棒性。

因此,模型不太会容易“大面积失忆”,也就是在新任务上的继续微调不会丢失此前编进去的信息。

虽然自己骂自己,但它的语言偏见略低于GPT-3

可能你也会说,Jurassic-1在根本上也没啥大新奇之处。

但复刻了GPT-3的开源AI研究机构EleutherAI表示,这是一项工程壮举,而且他们毫不怀疑Jurassic-1能执行出与GPT-3相当的效果。

不过问题是此类服务能否在激烈的竞争中盈利,以及如何处理不可避免的安全问题,比如模型的语言偏见

Jurassic-1当然也没有解决模型输出潜在的性别、种族和宗教以及其他形式的偏见。

但团队表示非常重视这个问题,目前正在限制在公开测试版中可以生成的文本数量,并且将人工审查每个微调模型的请求以防止滥用。

不知道能解决多少问题,反正Jurassic-1连自己人都骂

就比如下面这个,Jurassic-1生成了歧视犹太人的文本:

最后团队只是“弱弱”地表示,通过StereoSet(语言系统中与性别、职业、种族和宗教相关的偏见评估基准)测试发现,Jurassic-1模型的偏见略低于GPT-3

关于AI21 Labs

以色列一家专注于自然语言处理的AI公司,2017年成立,目前从以色列最大的创投机构Pitango等公司获得了3450万美元资金。

创始人包括斯坦福大学名誉教授Yoav Shoham,CrowdX创始人和以色列辅助驾驶系统Mobileye的创始人Amnon Shashua ,目前有40多名员工。

挑战GPT-3以色列推出参数多30亿、词条多5倍的新语言模型相关推荐

  1. 放话挑战GPT-3!以色列推出参数多30亿、词条多5倍的新语言模型|公测不用排队...

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI GPT-3有多厉害不用多说了吧? 现在,以色列特拉维夫一家AI公司--AI21 Labs表示要挑战一下这个巨星在NLP领域的主导地位. 他们 ...

  2. Swin Transformer V2!MSRA原班人马提出了30亿参数版本的Swin Transformer!

    关注公众号,发现CV技术之美 [写在前面] 在本文中,作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练.通过扩大容量和分 ...

  3. 智源社区AI周刊No.105:谷歌FLAN-T5 30亿参数即超越GPT-3性能;Copilot推出语音编程新功能,但面临诉讼...

    社区周刊今日改版!汇聚每周AI热点,不错过重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 提示工程模拟人类思考模式,推理等任务迎来曙光 谷歌近日发布的新提示工程方法,再次说明了数据和训练方式对大模型 ...

  4. 30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式

    本文分享自华为云社区<HDC.Cloud 2021 | 华为云发布全球最大预训练模型,开启工业化AI开发新模式>,原文作者:技术火炬手 . 4月25日,华为云发布盘古系列超大规模预训练模型 ...

  5. 20亿参数+30亿张图像,刷新ImageNet最高分!谷歌大脑华人研究员领衔发布最强Transformer...

    来源:新智元本文约1300字,建议阅读5分钟 视觉Transformer进阶. 近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型, ...

  6. 大大刷新记录!Swin Transformer v2.0 来了,30亿参数!

    关注公众号,发现CV技术之美 本文转载自 微软研究院AI头条 编者按:2021年,获得 ICCV 最佳论文奖的 Swin Transformer,通过在广泛的视觉问题上证明 Transformer 架 ...

  7. Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务,微软亚研原班人马打造...

    视学算法报道 编辑:杜伟.陈萍 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪 ...

  8. Swin Transformer升级版来了!30亿参数,刷榜多项视觉任务

    ©作者 | 杜伟.陈萍 来源 | 机器之心 微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的 ...

  9. 《预训练周刊》第30期:谷歌首次展示新版语言模型BERT,参数达4810亿个

    关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及文本更正.模型适配.实体标记.视频理解.三维建模.行人识别.医学实体识别.分子分布和目标检测的探索.此外,在研究动态方面,我们选择了1篇预训练资 ...

最新文章

  1. Windows Azure Virtual Network (6) 设置Azure Virtual Machine固定公网IP (Virtual IP Address, VIP) (1)...
  2. python入门教程 官方-Python自学入门?
  3. python保存文件到指定文件夹_python实现指定文件夹下的指定文件移动到指定位置...
  4. 解决打开WORD错误报告问题
  5. 构造函数也可以进行方法重载_防蛀方法不止涂氟、窝沟封闭,还有一种方法在家就可以进行。...
  6. Alan Walker MV 合辑01 by defender
  7. Python 使用特性对属性进行访问
  8. ATK插件化开发:AtkPlug,AtkSocket
  9. ajax 弹框 示例,AJAX实现鼠标经过弹出详细介绍示例
  10. Android 高级面试-2:IPC 相关
  11. 百度云apkg手机文件怎么打开_ipad上用百度云和notability学习时的各种七七八八
  12. 深入探访支付宝双11十年路,技术凿穿焦虑与想象极限
  13. 推荐收藏 | 常用图片处理网站合集(8个网站)
  14. Discriminative Reasoning for Document-level Relation Extraction
  15. 解决conda install numpy 报错
  16. 逻辑漏洞之密码找回漏洞(semcms)
  17. 苹果手机密码设置在哪里_sim卡密码设置在哪里-sim卡密码设置介绍
  18. Centos7制作Openstack下win7 镜像
  19. 国际经济学 简答计算
  20. 聊聊小程序的登录逻辑

热门文章

  1. LeetCode 417. 太平洋大西洋水流问题--BFS
  2. 一个股市小白学习炒股的心得体会
  3. 跑深度模型的显卡_2020年人工智能深度学习 GPU 解决方案推荐
  4. 银行卡开户及交易项目--Oracle
  5. 周期性行业是什么意思_周期性股票都包括哪些行业?周期性股票什么意思
  6. 计算机专业方面主要有哪些证书
  7. 量化:通过ta-lib计算MA5指标
  8. 灵魂的拷问 怎么将代码写得让人无法维护?
  9. 继电器的过流过压保护(自恢复保险丝)
  10. 通过工业智能网关实现设备综合效率监测及远程维护上下载