开发四年只会写业务代码,分布式高并发都不会还做程序员?  

Uber 近日宣布开源 Petastorm,这是由 Uber ATG 开发的数据访问库,可直接基于数 TB 的 Apache Parquet 格式数据集进行单机或分布式训练和深度学习模型评估。Petastorm支持流行的基于Python的机器学习(ML)框架,如 Tensorflow、Pytorch 和 PySpark ,也可以直接用在 Python 代码中。

通常,我们通过连接来自多个数据源的记录来生成数据集。该数据集由 Apache Spark 的 Python 接口 PySpark 生成,稍后将被用在机器学习训练中。Petastorm 提供了一个简单的功能,可以使用 Petastorm 特定的元数据扩展标准的 Parquet ,从而使其与 Petastorm 兼容。

使用 Petastorm ,消耗数据就像在 HDFS 或文件系统路径创建和迭代读取对象一样简单。Petastorm 使用 PyArrow 库来读取 Parquet 文件。过程概述图如下:

Petastorm 结合了各种特性以支持自动驾驶算法的训练,包括行过滤、数据分片、shuffle、对字段子集的访问,以及对时间序列数据(n-gram)的支持。

对于其他上下文,典型数据集的结构包括:

  • 在自动驾驶汽车测试运行期间收集的传感器数据的多个列,包括摄像头、激光定位器和雷达。

  • 手动生成的标签作为行中的字段进行存储。

行数据按照行分组的时间顺序排列,行组大小通常在 30-100 范围内。

Petastorm 的设计目标包括:

  • 由单数据模式定义驱动数据的编码和解码。

  • 提供 ML 框架和纯 Python 代码可用的高数据加载带宽。

  • 将 Apache Spark 作为分布式集群计算框架来生成数据集。

  • 与纯 Python,ML 平台无关的核心 Petastorm 组件的实现。

  • 呈现给 Tensorflow 和 PyTorch 框架的界面原生接口。

更多详情可查看官方博客或项目文档。

Uber 开源深度学习分布训练库 Petastorm相关推荐

  1. 微软开源深度学习优化库 DeepSpeed 连登 GitHub 趋势榜!

    [编者按]近期,深度学习社区发生了一件大事:微软研究院发布了图灵自然语言生成模型T-NLG,据称这是史上最大的自然语言处理模型.T-NLG拥有170亿个参数,性能远胜于其他大型深度学习语言模型,例如B ...

  2. 阿里开源深度学习框架XDL,面向高维稀疏数据,支持千亿参数训练规模

    安妮 发自 阿里中心 量子位 出品 | 公众号 QbitAI 近日,阿里巴巴首次开源了面向高维稀疏数据的深度学习框架,叫作X-Deep Learning,简称XDL. 阿里表示,XDL基于大数据营销平 ...

  3. 利用多 GPU 加速深度学习模型训练

    01 - 前言 深度学习模型通常使用 GPU 训练,因为 GPU 具有相比 CPU 更高的计算能力,以 Tesla V100 为例,使用 Tensor Core 加速的半精度浮点计算能力达到 125 ...

  4. 程序如何在两个gpu卡上并行运行_深度学习分布式训练相关介绍 - Part 1 多GPU训练...

    本篇文章主要是对深度学习中运用多GPU进行训练的一些基本的知识点进行的一个梳理 文章中的内容都是经过认真地分析,并且尽量做到有所考证 抛砖引玉,希望可以给大家有更多的启发,并能有所收获 介绍 大多数时 ...

  5. 清华大学朱军详解珠算:贝叶斯深度学习的GPU库(附视频)

    5 月 27-28 日,机器之心在北京 898 创新空间顺利主办了第一届全球机器智能峰会(GMIS 2017).中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为大会做了开幕式致辞.大 ...

  6. 目前最好用的大规模强化学习算法训练库是什么?

    点击蓝字  关注我们 本文整理自知乎问答,仅用于学术分享,著作权归作者所有.如有侵权,请联系后台作删文处理. 本文精选知乎问题"目前最好用的大规模强化学习算法训练库是什么?"评论区 ...

  7. 专治“炼丹侠”各种不服:1分钟就能搞个AI应用 | 最新开源深度学习框架工具套件TinyMS问世...

    贾浩楠 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI "炼丹侠"们苦当前深度学习框架久矣. 本来,AI框架的初衷是简化.加速和优化开发流程.但是轮子这么多,有从学界走 ...

  8. 刚刚,旷视开源深度学习框架「天元」:Brain++内核,研发和落地都在用;孙剑:COCO三连冠背后的秘密武器...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 耗费资源打造优化6年,迭代到8.0版本,旷视技术体系的关键支柱,现在正式对外开源. 刚刚,深度学习驱动之下最早创业的中国AI独角兽旷视,宣 ...

  9. GitHub 上 57 款最流行的开源深度学习项目【转】

    GitHub 上 57 款最流行的开源深度学习项目[转] 2017-02-19 20:09 334人阅读 评论(0) 收藏 举报 分类: deeplearning(28) from: https:// ...

最新文章

  1. 液晶OCM12864,结构体,枚举,指针,规范化和模块化编程
  2. Ubuntu Server 14.04 下root无法ssh登陆
  3. 帝国cms 多个php,帝国cms多值字段数据显示方法
  4. 经典C语言程序100例之十九
  5. java8 Optional正确使用姿势
  6. 未使用调试信息生成二进制文件_Visual Studio IDE 编译,调试 保存 使用
  7. java代码着色_给java代码着色源码
  8. 视觉SLAM笔记(8) 齐次坐标
  9. 7-19 输出全排列 (20 分)
  10. 在水晶报表中插入子报表,并动态添加数据源
  11. Qt 实现控件抖动 动画窗口抖动 QQ抖动
  12. Intellij IDEA新导入项目运行出现 java: -source 1.5 中不支持 diamond 运算符7
  13. ESP32-C3 学习测试 蓝牙 篇(五、添加 characteristic)
  14. Java面试题——基础篇二
  15. JavaScript面试题大全之基础面试题(附答案)
  16. 立创EDA的元件库导入AD
  17. 论文阅读(21 AAAI)Mind-the-Gap Unsupervised Domain Adaptation for Text-Video Retrieval
  18. 2020“黄鹤杯”网络安全人才与创新峰会圆满成功
  19. Qt开发技术:Q3D图表开发笔记(二):Q3DBar三维柱状图介绍、Demo以及代码详解
  20. android 全局浮动球,Android仿360悬浮小球自定义view实现

热门文章

  1. html 音标显示乱码,网页显示音标/拼音显示乱码的解决办法(.net)
  2. java 试卷自动生成_基于JAVA的试题自动生成系统 - WEB源码|JSP源码/Java|源代码 - 源码中国...
  3. 强烈安利 uTools 我的生产力工具
  4. java 日志切面_自定义注解+面向切面整合的日志记录模块(一)
  5. 剑指offer面试题[9-1]-跳台阶
  6. Java21天打卡Day6-switch
  7. 软件测试必学之python+unittest+requests+HTMLRunner编写接口自动化测试集
  8. wincc7的常用c语言,wincc几个常用c语言编程-20210324073153.docx-原创力文档
  9. MATLAB 提取*.m 文件调用的所有函数
  10. 美国计算机科学公司的全球化发展历程,计算机科学导论第1章 概述.ppt