用于 LLM 的公开的数值数据

这个存储库包含了用于训练 OpenAI 的大型语言模型的一部分公开的数值数据。这些数据已经被处理成符合 OpenAI 的数据管道格式。此外,我们还提供了一个 Python 脚本,用于将原始的表格数据转换成适合训练的格式。

数据来源

这些数据来自于以下公开的来源:

  • 美国劳工统计局 (BLS)
  • 美国国家公共放送电台 (NPR)
  • 美国国家航空航天局 (NASA)
  • 欧洲航天局 (ESA)
  • 美国国家档案管理局 (NARA)
  • 美国地质调查局 (USGS)
  • 美国国家气象局 (NWS)

数据格式

数据被存储为 JSON 文件,每个 JSON 文件包括一个名为 data 的数组。数组中的每个元素都是一个包含两个键的字典:

  • input: 用于训练模型的输入文本。输入文本通常包括一个问题或描述。
  • output: 模型的预期输出。这通常是一个简短的回答或数值。
{"data": [{"input": "What was the average price of a gallon of regular gasoline in the United States in 2019?","output": "2.60"},{"input": "What is the distance from Earth to Mars in kilometers?","output": "225,000,000"},...]
}

如何使用这些数据

要使用这些数据训练您的模型,您需要将它们处理成适合您的训练框架的格式。我们提供了一个 Python 脚本,用于将原始的表格数据转换成适合训练的格式。您可以参考这个脚本来了解如何处理数据,以及如何根据您的需求修改它。

LLM 开发者应知的数字

在谷歌,传奇工程师杰夫·迪恩(Jeff Dean)整理了一份名为“每位工程师都应该知道的数字”的文档。对于大型语言模型(LLM)开发者来说,拥有一套可用于粗略计算的类似数字非常有用。在这里,我们分享 Anyscale 使用的一些特定数字,说明这些数字的重要性以及如何将其用于您的优势。

内容列表

  • CPU 时钟周期
  • 内存访问延迟
  • 磁盘延迟
  • 网络延迟
  • FLOPs 和 AI 训练

CPU 时钟周期

  • 一个 CPU 时钟周期大约需要 0.4 纳秒(ns)。
    CPU 时钟周期是衡量 CPU 性能的关键指标。了解 CPU 时钟周期的长度有助于在设计和优化算法时更好地理解性能瓶颈。

内存访问延迟

  • 从 L1 缓存中读取数据大约需要 0.5 纳秒。
  • 从 L2 缓存中读取数据大约需要 7 纳秒。
  • 从 L3 缓存中读取数据大约需要 100 纳秒。
  • 从主内存中读取数据大约需要 100 纳秒。
    当 CPU 需要访问数据时,它首先检查各级缓存(L1、L2 和 L3)。如果所需数据不在缓存中,CPU 则需要访问主内存。了解访问各级缓存和主内存的延迟对于识别和优化算法性能至关重要。

磁盘延迟

  • 从固态硬盘(SSD)读取数据大约需要 20-100 微秒(µs)。
  • 从传统硬盘驱动器(HDD)读取数据大约需要 1-10 毫秒(ms)。
    磁盘延迟是指从磁盘中读取或写入数据所需的时间。了解磁盘延迟有助于在处理大量数据时了解存储系统的性能瓶颈。

网络延迟

  • 同一数据中心内的往返延迟(RTT)大约为 0.5 毫秒。
  • 跨洲际光缆的往返延迟大约为 150 毫秒。
    网络延迟是指数据在网络中传输所需的时间。了解网络延迟有助于在开发分布式系统和优化网络通信时预测性能。

FLOPs 和 AI 训练

  • 一个 NVIDIA A100 GPU(英伟达A100图形处理器)可以提供每秒约 312 万亿次浮点运算(TFLOPs)。
  • 训练 GPT-3 模型需要约 3.14 * 10^23 次浮点运算。
    FLOPs(每秒浮点运算次数)是衡量处理器性能的一个常用指标,特别是在 AI 训练和高性能计算领域。了解处理器的 FLOPs 数量和训练模型所需的 FLOPs 数量有助于评估训练时间和硬件需求。

许可

这些数据遵循 CC0 1.0 协议。您可以自由地复制、修改、发布和使用这些数据,无需获取许可或支付费用。然而,我们鼓励您在使用这些数据时,引用这个存储库以便其他人可以找到这些资源。

项目地址

https://github.com/ray-project/llm-numbers

用于 LLM 的公开的数值数据相关推荐

  1. 用于 LLM 应用开发的 LangChain 中文版

    用于 LLM 应用开发的 LangChain 中文版 1. 模型.提示词和输出解析器 1-1. 获取您的 OpenAI API 密钥 1-2. Chat API : OpenAI 1-3. Chat ...

  2. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要

    文|张俊林 源|知乎@张俊林 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样:惊醒是顿悟到我们对LLM的认 ...

  3. 由ChatGPT反思大语言模型(LLM)的技术精要

    人工智能与算法学习 作者:张俊林,   编辑:夕小瑶的卖萌屋 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这 ...

  4. 通向 AGI 之路:大型语言模型(LLM)技术精要

    来源:AI科技评论 作者:张俊林 本文经授权转载自知乎:https://zhuanlan.zhihu.com/p/597586623?utm_campaign=shareopn&utm_med ...

  5. 淘汰VBA,用InfoPath----InfoPath相关文章两三篇

    看了微软InfoPath,我开始为王志东担忧 关键词:           InfoPath,  SharePoint Server                                   ...

  6. 张俊林:万字长文讲述由ChatGPT反思大语言模型的技术精要

    每天给你送来NLP技术干货! 作者:张俊林 新浪微博 新技术研发负责人 来源:知乎@张俊林 排版:DataFunTalk 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(L ...

  7. 万字长文讲述由ChatGPT反思大语言模型的技术精要

    文|张俊林 源|知乎@张俊林 导读:ChatGPT出现后惊喜或惊醒了很多人.惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样:惊醒是顿悟到我们对LLM的认 ...

  8. 后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开

    转载自 | 机器之心 来源 | 知乎 作者 | 张俊林 洋洋洒洒近三万字,中国中文信息学会理事.中科院软件所博士.新浪微博机器学习团队新技术研发负责人的张俊林回顾了大型语言模型(LLM)的发展历程.技 ...

  9. A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对<A Survey of Large Language Models>的翻译. 大语言模型综述 摘要 1 引言 2 概述 2.1 LLM的背景 2.2 G ...

最新文章

  1. 如何免费(轻成本)在网上做推广宣传
  2. void *指针的加减运算
  3. MySQL innotop实时监测工具
  4. 201621123068 Week04-面向对象设计与继承
  5. IE6-IE9不支持table.innerHTML的解决方法分享
  6. javaweb学习总结(十八):JSP属性范围
  7. hadoop的安装与配置(伪分布式模式安装)
  8. oracle,如何查看视图结构,获得视图中的字段名称、字段类型、字段长度等。...
  9. java mongocollection_MongoDb完结笔记-与java结合
  10. 【HDOJ6986】Kanade Loves Maze Designing(暴力,dfs树)
  11. 34线性映射01——映射的概念和性质
  12. 好用的文件批量改名工具推荐
  13. ios html5 苹方字体,iOS中使用自定义字体-苹方字体
  14. 电信测试网速测试在线软件,宽带测速在线测网速(中国电信宽带测速官网)
  15. tcpudp测试工具的使用,串口转wifi模块udp测试
  16. android微信朋友圈图片查看器,iOS仿微信朋友圈图片查看器
  17. c语言表达式判断语法错误题,大连理工大学C语言模拟题机房题库单选、判断、填空(分章节_共十一章)...
  18. 图片怎么转换成png格式?
  19. 2021年中国网上办理车辆和驾驶证业务情况:网上办理车辆和驾驶证相关业务6769万次其中,网上发放临时号牌2043万副[
  20. oracle RAC asm管理

热门文章

  1. 真实地形处理——高程图导入UE4进行操作
  2. 适合新手:从零开发一个IM服务端(基于Netty,有完整源码)
  3. php初始教程,NodeJs菜鸟初始_PHP教程
  4. 众里寻他千百度,蓦然回首,招聘却在Console驻
  5. java 多表联合查询后的结果的结果放入list里 如何拿出来_java如何将多个查询出来的list集合的结果合并为一个list集合。...
  6. html案例:体育新闻
  7. 百度地图 - Android初步集成
  8. 箱子布局攻略 (HBox/VBox Layout)
  9. 适马18-50mm F2.8
  10. 一名优秀的HR需要具备哪些素质与能力?