GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍
GPT-4将会有高达10兆个参数?近日,有网友在分析了GPT-3和其他语言模型之后大胆预测,GPT-4将会达到GPT-3的57倍!而「开源版本」则会达到和GPT-3同等的规模。
对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。
一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一,有1750亿个参数。
那么,GPT-4会是什么样子的?
近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。
作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。
等下,如果是这样,程序员们还能不能在GPT-NeoX上愉快地调参了?
模型 |
发布时间 |
Tokens |
参数 |
占1.75T的百分比 |
训练文本 |
GPT-2 (OpenAI) |
Feb 2019 |
10B |
1.5B |
0.09% |
40GB |
GPT-J (EleutherAI) |
Jun 2021 |
400B |
6B |
0.34% |
800GB |
GPT-3 (OpenAI) |
May 2020 |
499B |
175B |
10.00% |
570GB |
PanGu (Chinese) |
Apr 2021 |
40B |
200B |
11.43% |
1.1TB |
HyperCLOVA (Korean) |
May 2021 |
560B |
204B |
11.66% |
1TB? |
Wudao 2.0 (Chinese) |
Jun 2021 |
500B? |
1.75T |
100.00% |
2.4TB |
LaMDA (Google) |
Jun 2021 |
1T? |
200B? |
11.43% |
1TB? |
GPT-4 (OpenAI) |
TBA |
20T? |
10T? |
571.43% |
5TB? |
GPT-NeoX (EleutherAI) |
TBA |
500B? |
175B? |
10.00% |
825GB? |
数据集分析
目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引,分类,过滤和加权,而且还针对重复的部分也做了大量的删减。
专门为Openai开发并由Microsoft Azure托管的世界最强超算之一完成了对GPT-3的训练 。超算系统有超过285,000个CPU核心,超过10,000个 GPU,并且以400Gbps的速度运行。
GPT-3
Wikipedia DataSet是来自于Wikipedia的英文内容。由于其质量,写作风格和广度,它是语言建模的高质量文本的标准来源。
WebText数据集(以及扩展版本WebText2)是来自从Reddit出站的大于4500万个网页的文本,其中相关的帖子会有两个以上的支持率(upvotess)。
由于具有大于4.3亿的月活用户,因此数据集中的内容可以被认为是最 「流行 」网站的观点。
Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括:
- BookCorpus,是由未发表的作者撰写的免费小说书籍的集合,包含了至少10,000本书。
- Library Genesis (Libgen),一个非常大的科学论文、小说和非小说类书籍的集合。
Common Crawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台:
- 八年来PB级的数据(数以千计的TB,数以百万计的GB)。
- 25B个网站。
- 数以万亿计的链接。
- 75%英语,3%中文,2.5%西班牙语,2.5%德语等。
- 排名前10域名的内容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。
GPT-3使用的数据集
GPT-Neo和GPT-J
今年3月,Eleuther AI在GitHub上推出了GPT-Neo开源项目,可以在Colab上进行微调。
虽然GPT-Neo与GPT-3比,参数量仍然很小(1.3B和2.7B),但开源又免费,仍然得到了「同性好友们」的认可。
今年6月Eleuther AI再次推出GPT-J-6B,它可以说是GPT-Neo的增强版本,顾名思义,模型的参数量增加到了6B。
GPT-J的训练也是基于The Pile数据库——一个825GB的多样化开源语言建模数据集,由22个较小的、高质量的数据集合组成。
The Pile除了专业论坛和知识库,如HackerNews、Github和Stack Exchange,论文预印本网站ArXiv以外,还包括如Youtube字幕,甚至安然邮件(Enron Emails)语料库。
GPT-Neo和GPT-J使用的数据集
在zero-shot任务上,GPT-J性能和67亿参数的GPT-3相当,也是目前公开可用的Transformer语言模型中,在各种下游zero-shot任务上表现最好的。
这么看来,确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。
网友评论
GPT-4怎么这么大?
「GPT-3已经接近理论上每个token的最大效率了。如果OpenAI模型的工作方式是正确的,更大的模型只是对算力的浪费。」
有网友解答说:「规模确实可以带来改善。因为本质上是一种关系隐喻模型,『了解更多的关系 』意味着能够对更多的事情或以更细微的方式做出反应。当然,这也同时是一个营销的方式。」
参考资料:
https://lifearchitect.com.au/ai/models/#contents
GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍相关推荐
- 音频带宽预测与动态参数调整优化报告【音频质量专题】
音频带宽预测与动态参数调整优化报告 目录 音频带宽预测与动态参数调整优化报告 优化背景与目的 优化内容与思路 测试结果汇总 A. 随机丢包网络 ...
- 高亮显示 html_友达10.1寸超低温高亮工业液晶屏G101STN01.C
郑州恒信达科技有限公司 G101STN01.C友达10.1寸高亮工控液晶屏基本参数 友达液晶模组G101STN01.C 应用详情 面板品牌:友达 面板型号:G101STN01.C 面板尺寸:10.1英 ...
- 让网速突破10兆下载速度的一个方法
更多详情可关注本人博客:Mr chang | 昶先生>>让网速突破10兆下载速度的一个方法 背景 前几天打算组个千兆内网,没想到内网组好后网速也翻了近三倍!甚妙,实在是意外之收获. 那么今 ...
- 电信10兆指的是多少Mbps
一般电信10兆(10Mbps)指的是:下载速度最大在1.25MB/s 1Mbps(兆位/秒) = 0.125MB/S(兆字节/秒) 8Mbps(兆位/秒) = 1MB/ ...
- G101EVN01.0友达10.1寸全视角液晶屏 LVDS接口液晶屏
一:友达10.1寸工业液晶屏G101EVN01.0基本信息 品 牌 友达(AUO) 面板型号 G101EVN01.0 工作温度 -20~60°C 存储温度 -30~70°C 作业湿度 10-90 ( ...
- 中国电信选择兼容支付标准 翼支付用户达10万
8月9日消息,中国电信相关人士透露,在RFID技术选择上,中国电信在兼顾当前2.45G的市场需求前提下,选择了兼容社会.行业应用的13.56M制式作为自己的发展方向,其推出的"翼机通&quo ...
- USB2.0 HUB的主控IC FE1.1S 省电不发烫 USB信号驱动强度可达10米
FE1.1是高性能,低功耗和高性价比等特点的USB2.04 port HUB chip,支援热插拔功能.FE1.1S是用于USB2.0 HUB的主控IC提供4TUSB Port貸高態~低功糕.低成本的 ...
- 美国经济危机日趋严重,科技行业裁员已达10万
美国经济危机爆发之后,各个行业都遭重创,包括IT 行业. 根据TechCrunch的统计, 目前科技行业裁员人数已达10万大关! 以下是统计列表, 来源: http://www.techcrunch. ...
- 暴雪吸金如土,魔兽年总收入达10亿美元
世界上最赚钱的在线游戏一般都在一些大型多玩家在线游戏(MMOGs)中产生,如"魔兽世界",其总收入在2009年在线游戏排行榜上位于榜首之位. 此次榜单中的数据斟于视频游戏研究公司D ...
最新文章
- python代码教程-(Python基础教程之三)Python代码中添加注释
- 用服务器控件在后台调用前台客户端JS方法
- osql sql2012_您可能不知道SQL Server实用程序-SQLdiag,osql和SqlLocalDB
- 网易游戏开发工程师笔试题
- 多线程JAVA篇(一)
- 关于淘宝出售的杀毒软件激活码
- 吴恩达:还没有人能完全理解人工智能,包括谷歌和百度
- VPS、云服务器(云主机)、虚拟主机有何异同?
- linux core文件截断,Coredump被截断了
- 图片浏览器java程序_图片浏览器用java实现
- 找领导签字,领导第一句话说“好久没有见到你了”,有深意吗?
- 杨氏不等式(控制中的应用)
- 批量转换灰度图并保存
- Your license has expired IDEA过期问题
- 基于SSH开发网上零食销售系统的设计与实现
- adobe pdf 阅读器提示“文档证书的有效性未知。无法验证作者”
- word填充、自动生成、添加水印
- Bounds(包围盒)概述与AABB包围盒应用
- 实现稿定功能的视频SDK- www.rdsdk.com
- 村级账户开立_“漫”解村级小微权力(四) | 银行账户开设和村级货币资金管理...
热门文章
- 怎么样在c#程序中放音乐
- android地址格式转换,Android(安卓)时间戳和日期之间的转化
- 2016河北省职称计算机考试试题及答案,2016年最新河北省职称计算机考试试题及答案概要.doc...
- firefox html5 canvas,html5 Canvas
- 综述|深度学习在SLAM定位与建图中的应用(近250篇参考文献)_3D视觉工坊的博客-CSDN博客
- json.dumps()函数解析
- Win10 Terminal + WSL 2 安装配置指南,精致开发体验 - 知乎 (zhihu.com)
- @Configuration与@Component区别
- 分词器 keras.preprocessing.text.Tokenizer
- tensorflow生产环境部署