Meta (原Facebook)开放了一个“高达”1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3——

之前GPT-3虽然效果惊艳、示例众多,但其不够开放,只开放了API,还是收费的;源代码独家授权给了微软,连马斯克都对其呵呵,批评过OpenAI不够open。

虽然论文已经写的很详细,说明了GPT-3是怎么造出来的,但普通玩家想要复刻一个GPT-3出来,却是大大的困难,因为太烧钱。而这一次,Meta从完整模型到训练代码、部署代码全部开放。
有人甚至在官宣之前,就已经到GitHub仓库去蹲点了。还有人喊话OpenAI,让它学着点。

虽然Meta出品,当属精品,但国外公司的模型几乎都是用英语数据进行训练,其模型也天然地对英语的支持比较好,跨语言的效果较差,就更不要说对于世界上最难的中文的理解和生成了。

斯坦福大学副教授Percy Liang将大模型的开放程度总结成4个层次,更高层次的开放能让研究者专注于研究更深层面的问题。

第一层论文开放(纸面上的开放),证明一些设想的可行性,并提供思路和实现的路径方法。

第二层API开放(能力上的开放),允许研究人员试用、探索和评估现有模型的能力和限制。

第三层模型权重开放和训练数据开放(应用上的开放)。允许研究人员改进现有模型,让研究人员更好地理解数据在模型使用中发挥的作用。

第四层模型结构、权重、计算能力开放(创新上的开放),允许研究人员尝试新的体系结构、训练目标和过程、进行数据融合,并在不同的领域开发全新的模型。

其实,早在2021年中国的几个AI大模型的头部玩家就已开源了大模型的训练代码、推理代码、免费API甚至模型参数,已经是第三层和第四层的开放了。像浪潮源1.0模型,其参数规模高达2457亿,训练采用的中文数据集达5000GB,相比GPT-3模型1750亿参数量和570GB训练数据集,“源1.0”参数规模领先40%,训练数据集规模领先近10倍。“源1.0”在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军,测试结果显示,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。

目前开发者可以在源1.0”官网https://air.inspur.com提出申请,经审核授权后即可免费使用“源1.0”模型API,基于“源1.0”模型探索算法创新以及开发各类智能化应用。

Meta复刻GPT-3“背刺”OpenAI,千亿参数大模型权重及训练代码全公布,中文开发者可用吗?相关推荐

  1. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  2. 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...

  3. 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

    千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...

  4. 6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们

    6个月的时间为约定,他们就这样硬生生地打造了个全球领先--华为云盘古大模型: 业界首个千亿级生成与理解中文NLP大模型. 业界最大的CV大模型. 而在这场攻坚战中,华为云人工智能领域首席科学家田奇和团 ...

  5. 千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE

    机器之心专栏 作者:Joshua 今年以来,中文 NLP 圈陆续出现了百亿.千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」.但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型 ...

  6. 文心ERNIE 3.0 Zeus千亿参数大模型,一键生成“学术范儿”论文标题

    文章整理自哔哩哔哩科技区UP主"同济子豪兄"(张子豪)的主题分享「文心雕龙,一键生成学术灵感」. 文心ERNIE 3.0 Zeus作为基于知识增强的千亿模型,在各类真实场景的生成准 ...

  7. 训练千亿参数大模型,离不开四种GPU并行策略

    作者|Lilian Weng.Greg Brockman 翻译|董文文 AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步 ...

  8. 【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3

    01 行业大事件 谷歌.Meta如何给大模型瘦身?谷歌工程师亲述部署秘籍(免费书) 这是一本正在写作的新书,目前前四章已经放出了草稿. 过去几年,GPT-3 等几个大模型展示了大数据.大算力的力量,它 ...

  9. 重磅!Meta AI开源OPT-175B:1750亿参数大模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:机器之心 |  编辑:陈萍 OPT-175B,使人工智能更加开放和可复制. Meta AI 在昨 ...

最新文章

  1. 2022计算机行业技术策略报告
  2. 《Docker技术入门与实战》读书笔记
  3. switch……case里的case能不能同时定义多个值呢?
  4. mysql切换用户sql语句,MySQL用户管理及SQL语句详解
  5. Python 中的可执行对象 eval,exec 和 compile与其在深度学习训练中的应用实例
  6. 在Vmware下linux与ARM开发板的NFS系统搭建【ZT】
  7. oracle 静默 建库,静默安装Oracle 11gR2软件并且手动建库
  8. ANDROID 4.0 SDK R14 模拟器
  9. 《程序员自我修养》阅读笔记-可执行文件装载与进程
  10. PuttyPsftp命令行实现自动登录
  11. [人工智能-综述-3]:人工智能与硅基生命,人类终将成为造物主
  12. 每天读点故事产品体验报告
  13. 骁龙神经处理引擎(Snapdragon Neural Processing Engine)
  14. word方框中(□)打钩(√)、打叉(x)
  15. 查看计算机bios版本,如何查看电脑BIOS版本
  16. 005_软件安装之_常用办公软件
  17. 对比excel,轻松学习python数据分析(读书笔记1-3章)
  18. 创客(米思奇编程)-03-传感器
  19. 购买2019最佳性价比Android智能手表(smart watch)
  20. 修改jupyter notebook中的tensorflow版本

热门文章

  1. linux busybox tar,busybox tar 命令支持 tar.gz
  2. 企业租用网络大带宽具备哪些优势
  3. C++之CreateProcess
  4. android百度地图加载不出来,imobile 加载百度地图不显示
  5. 基础计算机知识代码,计算机基础知识(示例代码)
  6. python中花括号什么作用_Python3中小括号()、中括号[]、花括号{}的区别详解
  7. nextSibling和previousSibling
  8. 超强AI对话系统ChatGPT不完全案例指南
  9. perceptual loss(感知loss)介绍
  10. 7891:一元三次方程求解