Ray︱高性能的分布式执行引擎起个头~

Ray是一个神奇的平台，可以做分布式训练，由于最近还不需要分布式去做一些模型，所以先Mark一下，等到有需求的时候在，再学习，只能说Ray，异常强大！

文档：http://ray.readthedocs.io/en/latest/index.html
github:https://github.com/ray-project/ray
作者博客：https://rise.cs.berkeley.edu/blog/pandas-on-ray/

还能做啥：

GPU训练、分布式训练，Using Ray with GPUs；
训练界面Web UI；
强化学习训练，有的模型：Proximal Policy Optimization (PPO)、The Asynchronous
Advantage Actor-Critic (A3C)、Deep Q Networks (DQN)、Ape-X Distributed
Prioritized Experience Replay等；
与tensorflow联合分布式训练；
Streaming MapReduce
…

一、Ray安装

来源：Installing Ray

pip install ray

好像也有一些依赖需要安装：

sudo apt-get update
sudo apt-get install -y cmake pkg-config build-essential autoconf curl libtool unzip flex bison python # we install python here because python2 is required to build the webui# If you are not using Anaconda, you need the following.
sudo apt-get install python-dev  # For Python 2.
sudo apt-get install python3-dev  # For Python 3.# If you are on Ubuntu 14.04, you need the following.
pip install cmakepip install cython

二、Pandas on Ray简单介绍

在一篇机器之心发表的文章中《资源 | Pandas on Ray：仅需改动一行代码，即可让Pandas加速四倍》，感觉很给力，但是笔者自己尝试的时候，发现好像并木有描述的那么faster…可能笔者还找到正确的打开方式。。
而且调用、使用方式跟文章里面不一样…不过！确实是一行代码就可以替换了。

import ray.dataframe as rd
import pandas as pd
import ray

直接导入ray之后，可以通过以下命令去设置调用CPU/GPU数量：

ray.init(num_cpus=20, num_gpus=2)

笔者用了自己的一个数据集对比：

%time dataframe_ray = ray.dataframe.dataframe.pd.read_csv('data.csv')
%time dataframe_rd = rd.dataframe.pd.read_csv('data.csv')
%time dataframe_pd = pd.read_csv('data.csv')# ray.dataframe
>>> CPU times: user 4.68 s, sys: 400 ms, total: 5.08 s
>>> Wall time: 5.08 s
# pandas
>>> CPU times: user 4.52 s, sys: 320 ms, total: 4.84 s
>>> Wall time: 4.83 s
# ray
>>> CPU times: user 5.31 s, sys: 468 ms, total: 5.78 s
>>> Wall time: 5.78 s

其中直接用ray，尼玛中间引用好多：ray.dataframe.dataframe.pd.read_csv

来看看查询效率：

%time result = dataframe_ray[dataframe_ray.keyword=='word1']
%time result = dataframe_rd[dataframe_rd.keyword=='word1']
%time result = dataframe_pd[dataframe_pd.keyword=='word1']>>> CPU times: user 104 ms, sys: 12 ms, total: 116 ms
>>> Wall time: 113 ms
>>> CPU times: user 84 ms, sys: 28 ms, total: 112 ms
>>> Wall time: 111 ms
>>> CPU times: user 88 ms, sys: 4 ms, total: 92 ms
>>> Wall time: 92.1 ms

Ray︱高性能的分布式执行引擎起个头~相关推荐

分布式执行框架——Ray简单使用
Ray是UC Berkeley RISELab新推出的高性能分布式执行框架,它使用了和传统分布式计算系统不一样的架构和对分布式计算的抽象方式,具有比Spark更优异的计算性能. Ray目前还处于实验室 ...
python高性能_Python高性能分布式执行框架-Ray
Ray是UC Berkeley RISELab新推出的高性能分布式执行框架,它使用了和传统分布式计算系统不一样的架构和对分布式计算的抽象方式,具有比Spark更优异的计算性能.Ray是一个基于Pyth ...
可自管理的分布式工作流引擎的设计与实现
<script type="text/javascript"></script> <script src="http://pagead2.g ...
工作流系列之可自管理的分布式工作流引擎的设计与实现
这篇文章是偶在清华读研究生时发表在国家核心期刊CIMS("Design and implementation of self-managed distributed workflow eng ...
python分布式框架_高性能分布式执行框架——Ray
Ray是UC Berkeley RISELab新推出的高性能分布式执行框架,它使用了和传统分布式计算系统不一样的架构和对分布式计算的抽象方式,具有比Spark更优异的计算性能. Ray目前还处于实验室 ...
SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件
导语:SuperSQL是腾讯数据平台部自研的跨数据源.跨数据中心.跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark.Hive等. 背景 SuperSQ ...
DRDS分布式SQL引擎—执行计划介绍
摘要: 本文着重介绍 DRDS 执行计划中各个操作符的含义,以便用户通过查询计划了解 SQL 执行流程,从而有针对性的调优 SQL. DRDS分布式SQL引擎 - 执行计划介绍前言数据库系统中,执 ...
Hologres揭秘：深度解析高效率分布式查询引擎
简介:从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列, ...
亿流量大考（4）：自研ES+HBase+纯内存的高性能毫秒级查询引擎
V-xin:ruyuanhadeng获得600+页原创精品文章汇总PDF 一.前情回顾上篇文章(<亿流量大考(3):不加机器,如何抗住每天百亿级高并发流量?>)聊了一下系统架构中,百亿流 ...

Ray︱高性能的分布式执行引擎起个头~

一、Ray安装

二、Pandas on Ray简单介绍

Ray︱高性能的分布式执行引擎起个头~相关推荐

最新文章

热门文章

Ray︱高性能的分布式执行引擎 起个头~

一、Ray安装

二、Pandas on Ray简单介绍

Ray︱高性能的分布式执行引擎 起个头~相关推荐

最新文章

热门文章

Ray︱高性能的分布式执行引擎起个头~

Ray︱高性能的分布式执行引擎起个头~相关推荐