kafka python框架_为什么选择R而不是Python做ETL
导读:
1. 打破R慢的印象,ETL效率显著优于Python,堪比spark,clickhouse
2. 对比python中的datatable、pandas、dask、cuDF、modin,R中data.table以及spark、clickhouse
3. 探讨R中的ETL体系
ETL在数据工作中起着至关重要的作用,主要用途有两个:(1)数据生产(2)为探索性数据分析与数据建模服务。
做过建模的小伙伴都知道,70%甚至80%的工作都是在做数据清洗;又如,探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此,ETL效率在整个项目中起着举足轻重的作用。
而日常数据生产中,有时会牵扯到模型计算,一般以R、python为主,且1~100G左右的数据是常态。基于此,于是想对比下R、Python中ETL的效率。
目前已有研究
H2O团队一直在运行这个测试项目, 其中:
- Python用到了:(py)datatable, pandas, dask, cuDF(moding.pandas在下文作者亲自测试了下);
- R: data.table, dplyr;
- julia: DataFrames.jl;
- clickhouse;
- spark
测试内容有groupby、join、sort等。测试数据长这样:
废话不多说,先看部分结果的截图吧。
详细报告见:https://url.cn/5qTWlNQ
上图截取的是复杂的groupby问题中对于5G与50G数据各ETL工具的用时情况,项目运行服务器的内存为128G,核数40。可以看到,无论是5G还是50G的数据,data.table的性能都在python之上,堪比spark、clickhouse。
modin.pandas vs data.table
modin.pandas与data.table测试结果如下,所用数据5G,数据格式如上。服务器为32G、8核,拉取Python3.6、R3.6.2两个docker分别测试。
1.读取
- data.table用时89秒,内存峰值消耗7G
- modin.pandas用时58秒,内存峰值消耗25G
本测试所用的是modin[ray],似乎modin.pandas一直有内存管理的问题,参考:
1.1 Fundamental memory leak in Modin:https://url.cn/5HlosKF
1.2 modin read big csv failed:https://url.cn/5cOdpVJ
2.分类汇总
测试内容:对于id3, id4两列分类汇总求v3的中位数与标准差
- data.table用时10.5秒
data[, .(median_v3 = median(v3), sd_v3 = sd(v3)), by = .(id4, id5)]
- modin用时174秒,由于modin暂不支持多列的groupby,实际上还是用的pandas的groupby
x.groupby([‘id4’,‘id5’]).agg({‘v3’: [‘median’,‘std’]})
UserWarning: DataFrame.groupby_on_multiple_columns defaulting to pandas implementation.
3.长宽表变换
测试内容:id1, id4不动,对id5横向展开,值为对v3求均值
- data.table用时3.3秒
dcast.data.table(ans, id1 + id4 ~ id5, value.var = “v3”, fun.aggregate = mean)
R ETL开发框架
开发环境为docker版的Rstudio-server,rstudio本身为最好用的IDE之一,开发效率高,debug方便。
并且,rstudio-server为线上版本的rstudio,后台就是linux环境,前端为rstudio的ui,因此无需为开发环境与生产环境不一致而苦恼,更不会因为某些包只能linux使用而无法在windows使用而苦恼。
目前本人工作中负责一个项目的数据生产,大致流程如下。首先,用presto从hive中读取数据,从ADB读取数据,数据量在5G左右。中间涉及到PCA以及其他计算,最后入库mysql,该任务每天跑一次 。
一个可行的实施方案为Rpresto、RMysql提供I/O支持,data.table提供主体ETL,crontab提供调度服务。
下图是个简易版R的ETL框架,可处理G以下数据,
##################################################
2020年1月14号更新:关于应用场景,再次说明下,
G级别数据或以下,频率低(如们每天跑一次),涉及到模型计算
- 调度请用crontab,airflow;
- 涉及到消息队列请用kafka;
- 实时性高但数据量又大请用flink流计算;
- 大量消息队列,且每个都实时性要求高,且数据量大,请用kafka+flink,如实时推荐系统。
标*的部分为还没有测试过。
##################################################
对R和数据科学感兴趣的小伙伴,欢迎关注公众号:R语言工程化
kafka python框架_为什么选择R而不是Python做ETL相关推荐
- python实现etl_为什么选择R而不是Python做ETL
导读:1. 打破R慢的印象,ETL效率显著优于Python,堪比spark,clickhouse 2. 对比python中的datatable.pandas.dask.cuDF.modin,R中dat ...
- 如何搭建python框架_从零开始:写一个简单的Python框架
原标题:从零开始:写一个简单的Python框架 Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 你为什么想搭建一个Web框架?我想有下面几个原因: 有一个 ...
- pycharm python部署_使用PyCharm配合部署Python的Django框架的配置纪实
安装软件安装 Python 2.7.PyCharm.pip(Python包管理工具).Django ( pip install Django) 部署PyCharm 新建Django工程 完成后,其目录 ...
- python后端学什么框架_【后端开发】python框架是什么?有哪些?
框架就是通过提供一个开发Web程序的基本架构,Python开发框架把PythonWeb程序开发摆到了流水线上.本篇文章将给大家介绍几款Python框架,有需要的朋友了解一下. Python开发框架有助 ...
- python gui测试框架_八款常用的 Python GUI 开发框架推荐
作为Python开发者,你迟早都会用到图形用户界面来开发应用.本文将推荐一些 Python GUI 框架,希望对你有所帮助,如果你有其他更好的选择,欢迎在评论区留言. Python 的 UI 开发工具 ...
- ruby和python比较_为什么说Ruby比Python容易阅读
这是一篇充满偏见的语言战争文章,是一场无意义的锤子和锤子的比拼.语言的复杂性可以通过选择语言回避,而问题本身的复杂性是选择哪个语言都无法回避的. 不屑语言战争的人可以轻松无视此文. 1.字符串格式化 ...
- 人生苦短python作伴_人生苦短,我用python
本文框架: 一.为什么要学习Python 不管使用哪种编程语言,使用的目的都是通过编程语言与计算机交流,让计算机干活,以此实现使用者的需求. 由于大数据.人工智能的出现,使得数据分析的需求非常紧俏,这 ...
- python 创业_如何在下午使用python和破折号创业
python 创业 成为企业家(Become an Entrepreneur) A few years back, I started exploring ways to make extra mon ...
- 零基础学python 视频_零基础入门学习PYTHON(第2版)(微课视频版)
小甲鱼畅销图书重磅升级,针对Python 3.7,通过生动的实例,让读者在实践中理解概念,在轻松.愉快中学会Python! 本书提倡理解为主,应用为王.因此,只要有可能,小甲鱼(注:作者)都会通过生动 ...
最新文章
- ajax提交不能进入后台_Ajax跨域问题
- thinkphp 3.2跟3.1 区别
- Java中的简单浮点数类型float和double不能够进行精确运算
- python中 是什么类型_浅谈python中的变量默认是什么类型
- python写音乐播放器_python 模拟(简易)音乐播放器
- C#中实现文件重命名的方式
- HTML5 Audio/标签Api整理(二)
- 获取屏幕,浏览器,网页高度宽度
- HeadFirstJava 10数字与静态
- lcd12864资料
- html分辨手机电脑,html自动识别手机或者pc端
- python3命令不识别_python3不是内部命令
- Windows Server 2008 终端服务授权激活-离线
- android语言包,安卓系统添加多国语言包
- 把系统桌面设置到D盘
- MVC+Echarts绘制统计图表
- 头条号想过新手,但指数却一直达不到650,该怎么过新手?
- Mac下的终端(terminal)常用命令
- IOS下载并解压zip文件
- Java实现酒店管理系统(可运行可实现)