EMPS:个人做数据分析处理的4重境界
导读
自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。
个人数据分析与处理经历的4重境界
对照这4种数据处理工具,计划开展系列学习与对比推文,本期做为开篇之作,仅做以概要介绍。
4种工具严格来讲其实并无实质性联系,除了它们都可用于基本的数据分析与处理。相对而言:
Excel,几乎零学习门槛,应该是所有职场人都掌握的通用办公软件,但对于一名数据从业者而言,它可以占据一席之地(曾经数据分析师的入门套餐就是ESP,即Excel+SQL+Python)。个人对Excel的比较喜欢的一点是内置了常用的数据处理函数、支持数据透视表以及方便制作可视化图表等,但也仅适用于小量数据,基本上上万条以上记录用Excel就难免有些捉襟见肘了;
MySQL,作为最流行的关系型数据库之一(当前关系型数据库行业生态可概括为2+2+1,即2付费Oracle+SQL Server,2开源MySQL+PostgreSQL,以及多平台内置的Sqlite),MySQL常常是众多高校开设数据库课程的首选(地位就好像编程语言中的C一般)。个人曾经一度刷SQL题几百道(参考一名数据分析师的SQL学习历程),对于写SQL方面也算悟得精华,但对于诸如索引、事务、引擎等进阶要求仍有欠缺,不过最近用SQL也是越来越少了;
Pandas,作为个人入门Python之后学习的最重要的库,潘大师曾经一度是我数据分析的主力,也着实解决了我实际工作中的不少问题,还整理了很多数据分析的小技巧(详见这一年,我总结了这些Pandas小技巧……)。一直认为,在千万级以下数据量的场景中,Pandas是最好的数据分析工具,没有之一……
Spark,当数据量超过千万数量级时,Pandas的处理效率就会肉眼可见的变慢不少,此时Spark这款分布式计算处理框架堪称是最佳替代品。当然,Spark的舞台绝不止于Pandas所擅长的离线批处理场景,机器学习、流处理以及图计算等都是Spark的独门绝技。为了用好Spark,个人不仅系统学习了相关入门课,还专门大费周章的学习Scala语言(Scala入门系列终章:类与对象),只因Spark与Scala才是绝配。
就像世界上没有最好的编程语言一般(当然,PHP除外 :D),数据分析也不存在最好的处理工具,所以这4种工具也并无高下之别,灵活运用合理搭配方能最大化其效用。也正是基于此朴素思想,后续将推出各工具对比学习系列推文,以Pandas与Spark.sql对比为主,MySQL和Excel也会视情加入。
相关阅读:
写在1024:一名数据分析师的修炼之路
数据科学系列:seaborn入门详细教程
数据科学系列:pandas入门详细教程
数据科学系列:matplotlib入门详细教程
数据科学系列:numpy入门详细教程
EMPS:个人做数据分析处理的4重境界相关推荐
- 创业公司如何做数据分析(四)ELK日志系统
作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志.这些 ...
- 未明学院:“我是女生,能做数据分析吗?”
"我是女生,能做数据分析吗?"这样的提问,小明听过不少.但这个问题本身似乎比它的答案更值得深思:难道女性就不适合数据分析吗? 所有渴望入门甚至想把数据分析当做职业,却深陷迷茫和自我 ...
- 新手做数据分析的5大误区,一定要避开!
不论是数分.产品.运营.市场,在做数据分析时,都会不免踏入一些"误区". 轻则影响工作效率,重则延误项目进展,甚至还会连累到自己的职业生涯. 以下几点错误,都是我从身边的真实案例总 ...
- 一文看懂怎么用 Python 做数据分析
作者 | 蓝鲸网站分析博客 来源 | http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html 常遇到 ...
- 听说你立志要做数据分析,不如先听听老司机的建议?
(点击上方公众号,可快速关注) 作者:黄进然 每年总有很多人,怀揣着对世界的一知半解.满腔似火的热情.还有对美好生活的向往,走出象牙塔,投身社会. 世界很大,诱惑很多.对于未来,甚至在工作多年后,他们 ...
- 做数据分析为什么梳理标签体系很重要?
做数据分析为什么梳理标签体系很重要?在提升能力是要先会打一个标签再掌握整个体系.围绕某个业务实现业务闭环操作的若干个标签组合,称为标签体系,单一的标签没办法满足闭环操作的需求,因此需要标签体系. 一. ...
- python爬取前程无忧招聘网站数据搭建Hadoop、Flume、Kafka、Spark用Hive做数据分析Sqoop存储到Mysql并实现可视化
文章目录 一.项目总体要求 二.环境搭建 1.安装包准备 2.安装jdk (1)查询是否安装java (2)卸载jdk (3)安装jdk (4)配置jdk环境变量 3.配置ssh免密登录 (1)进入到 ...
- Excel+Access做数据分析和报表分析
目录 前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 深入解剖 三分之Access基本操作 Access操作之创建数据库 操 ...
- 创业公司做数据分析(四)ELK日志系统
作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志. ...
最新文章
- 前端基础面试题大全-极乐科技(一)-JS部分
- 分享一个异步发送邮件的类
- python入门买什么书-关于 Python 的经典入门书籍有哪些?
- IDC:第一季度全球服务器市场收入下滑4.6% 市场为重大升级做准备
- HTML5新增的表单类型
- Java I/O系统之转换流
- 孙鑫VC学习笔记:第十一讲 (四) 图形重绘方法三 利用兼容DC
- foreach(表达式中的类型标识符) 内含语句
- 2018.8.29牛客OI测试赛A-斐波那契题解(找规律)
- windows nginx 停止和启动_Nginx安装过程详解
- 如何卸载mysql2008让_怎么才能把sql2008卸载干净
- erp系统在会计岗位中起到哪些作用?
- 分集阶数(diversity order)
- JAVA旅游信息管理平台SSM【数据库设计、毕业设计、源码、开题报告】
- LCD 液晶显示器 ---------- LTDC 控制器
- oracle 主键、唯一键值、唯一索引关系
- linux 文件打包下载到 Windows
- CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等
- Knativa 基于流量的灰度发布和自动弹性实践
- 用vue写了个瀑布流布局,看着还可以