GPT-3开源了?Eleuther AI推出的名为GPT-Neo的开源项目:公开发布的GPT-3同等复现预训练模型(1.3B & 2.7B),可在Colab上完成微调。

……当然此 GPT-3非彼 GPT-3。

近日,Eleuther AI在GitHub上推出了一个名为GPT-Neo的开源项目:GPT-3同等复现预训练模型(1.3B & 2.7B),并可在Colab上完成微调。

虽然GPT-Neo与真正的GPT-3比,参数量仍然很小(较大版本也只与GPT-3最小模型的参数量),但开源又免费,仍然得到了「同性好友们」的认可!

项目目前在GitHub上已经得到了近3k的star。

Eleuther AI也表示,未来会进一步开源10B版本和原始大小版本的GPT3模型参数。

「莆田版」GPT-3

在Eleuther AI官网上,他们对GPT-Neo的描述是,「一系列基于变换器的语言模型的代码名称,这些模型的风格松散地围绕着GPT架构,我们计划对其进行训练和开源。我们的主要目标是复制一个GPT-3大小的模型,并将其免费开源给公众。」

在这一过程中,我们将对替代架构和注意力类型进行实验,发布任何中间模型,并在我们的博客上写出任何发现。

GPT-Neo模型是在Tensorflow-mesh中构建的,这将使他们能够使用同步的模型和数据并行来扩展到GPT-3和更大的规模。

据Eleuther AI称,他们已经建立了大部分的模型,训练了GPT-2大小的模型,并实施了几个实验性的架构。

目前的代码库应该能够扩展到GPT-3规模的模型。

而他们接下来的步骤,将是正在努力完成GPT-2规模的模型复制。

「到目前为止,2 们得到的单步训练的最大模型是200B参数。」

GPT3: 一般人玩不起

6月,OpenAI发表了一篇论文,详细介绍了GPT-3,这是一个机器学习模型,在一些自然语言基准上取得了强大的效果。在1750亿个参数——模型从历史训练数据中学习的部分——它是同类模型中最大的模型之一,也是最复杂的模型之一,能够进行原始类比,以某种风格写作,甚至完成基本代码。

与GPT-3的前身GPT-2和GPT-1相比,OpenAI选择不将模型或训练数据集开源,而是选择通过商业API提供前者。该公司选择将GPT-3独家授权给微软,进一步缩减了访问权限,而OpenAI与微软有业务关系。

微软已经向OpenAI投资了10亿美元,并建立了一台Azure托管的超级计算机,旨在进一步推动OpenAI的研究。

来看下OpenAI的定价策略。

自由探索Explore版 (我等):可以免费使用3个月,或者10万token,哪个先到按哪个算,占着不用可不行。

Create版(普通用户): 100美元一个月,200万token每月,超出的部分1k token按8美分计算;

Build版(VIP): 400美元一个月,1000万token每月,超出的部分1k token按6美分计算;

Scale版(尊享版):如果你是也就是生产级的大规模用户,联系官方就好,有专人服务。

这个200万token,能有多少字呢?大约相当于3000页的文本。

这样说可能还是不直接,举个例子,莎士比亚全集是大约有90万个单词,折算到token的话大概能有120万。

贫穷使人进(fu)步(ke)。

现在,一些人开始在开源中重新创建GPT-3,但可能目前最值得期待的就是GPT-Neo了。

关于Eleuther AI

Eleuther AI是一个由研究人员组成的草根集合,致力于开源人工智能研究。

Connor Leahy,Leo Gao和Sid Black三人联合创立,于去年11月宣布推出GPT-Neo的开源项目,该项目基于GPT系列的设计原理,旨在复现GPT系列的各种项目。

其中Sid是目前世界上最牛的TPU黑客之一。

不过,也有人也认为这伙人炒作太多!

「据我所知,他们正在大肆宣传他们无法兑现的夸大其词。」

「例如,他们在OpenAI宣布几天后就运出了一个DALL-E repo,这是坏的,而且由于他们的架构不能扩展,他们已经把他们的GPT-3复制宣称走回了复制1.5B。」

项目地址:
https://github.com/EleutherAI/gpt-neo

莆田版GPT-3开源:同等复现预训练模型GPT Neo相关推荐

  1. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  2. 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型

    近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...

  3. ICML 2019:序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS | 技术头条...

    来源 | 微软研究院AI头条(id:MSRAsia) 责编 | Jane 编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向.借助于BERT和GPT等预训练模 ...

  4. 在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

    林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行语音交互时起到重要作用. △ 关键词识别 ...

  5. 深入理解深度学习——预训练模型

    分类目录:<深入理解深度学习>总目录 近些年基于深度学习的NLP技术的重大进展主要包括NNLM(2003).Word Embedding(2013).Seq2Seq(2014).Atten ...

  6. 百度万亿级图检索引擎发布!四大预训练模型开源,还“发糖”15亿元

    金磊 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 又一年520,又一年情-- Stop!不是这种打开方式. 瞧~同样是为了"过节",却吸引了五湖四海的开发者聚集在此 ...

  7. 中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 改进策略简单有效.收敛速度快,同时小数据效果出色. 这就是中文预训练模型ZEN. 在中文任务中,ZEN不仅性能优于BERT,也比之前中文预 ...

  8. 多项NLP任务新SOTA,Facebook提出预训练模型BART​

    2019-11-04 13:38:14 论文选自arXiv 作者:Mike Lewis等机器之心编译参与:魔王.一鸣 FaceBook 近日提出了一个名为BART的预训练语言模型.该模型结合双向和自回 ...

  9. 华为云苏嘉:如何整合预训练模型和知识图谱做医疗推理?

    本文约4100字,建议阅读8分钟 本文将讨论如何为AI+医疗提供一种行之有效的解决方案. [ 导读 ] 随着人工智能技术特别是深度学习的普及,医疗行业也迎来一波革命的热潮,本文将讨论如何利用AI技术将 ...

最新文章

  1. TCP 客户端程序开发
  2. 【BZOJ 1927】 [Sdoi2010]星际竞速
  3. Centos进入紧急模式解决方法
  4. 如何告别那些没卵用的线上告警!
  5. 鸿蒙系统第二款产品,鸿蒙OS第二款产品 “华为智慧屏”在Mate 30系列发布会上亮相...
  6. 485光纤转换器产品分类介绍
  7. 在 VC++ 中使用 内联汇编
  8. Spring经典面试题
  9. python queue函数_Python模块:queue
  10. ssas ssrs_如何使用SSAS表格模型数据库创建简单的SSRS报告
  11. SQOOP 导出Hive数据到MySQL
  12. [VNC] 远程连接 Xfce4 桌面 tab 键不能自动补全
  13. cmd 取消点击锁定功能
  14. 【动态规划 回文串13】LeetCode 647. Palindromic Substrings
  15. Linux Centos 常用命令整理
  16. 产业分析:2021抖音数据报告
  17. MBR分区表详解(SD卡)
  18. 一张图看晕人民的名义
  19. GPU-CUDA编程学习(四)-共享内存
  20. 字节跳动面试总结-3.18

热门文章

  1. linux下查看GPU版本和详情信息 CUDA版本信息 anaconda版本信息
  2. python -m spacy download en”究竟做了什么?(What does “python -m spacy download en” exactly do?
  3. 怎么证明正态分布积分结果为1?I^2是什么意思 (极坐标 分部积分法 雅可比行列式在积分坐标变换中 )
  4. 计算机如何用计算机语言显示汉字,计算机是如何执行程序的呢?什么是编程语言?中国怎么不用中文编程?...
  5. c语言课设代写一般多少钱_厕所疏通一般多少钱
  6. Stephen Wolfram专访Judea Pearl:从贝叶斯网络到元胞自动机
  7. 《强化学习周刊》第11期:强化学习应用之模拟到真实
  8. 「智源论坛Live报名」清华大学董胤蓬:深度学习对抗攻防平台
  9. 1.6 万字长文带你读懂 Java IO
  10. 图灵2010.08书讯