导读

自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。

个人数据分析与处理经历的4重境界

对照这4种数据处理工具,计划开展系列学习与对比推文,本期做为开篇之作,仅做以概要介绍。

4种工具严格来讲其实并无实质性联系,除了它们都可用于基本的数据分析与处理。相对而言:

  • Excel,几乎零学习门槛,应该是所有职场人都掌握的通用办公软件,但对于一名数据从业者而言,它可以占据一席之地(曾经数据分析师的入门套餐就是ESP,即Excel+SQL+Python)。个人对Excel的比较喜欢的一点是内置了常用的数据处理函数、支持数据透视表以及方便制作可视化图表等,但也仅适用于小量数据,基本上上万条以上记录用Excel就难免有些捉襟见肘了;

  • MySQL,作为最流行的关系型数据库之一(当前关系型数据库行业生态可概括为2+2+1,即2付费Oracle+SQL Server,2开源MySQL+PostgreSQL,以及多平台内置的Sqlite),MySQL常常是众多高校开设数据库课程的首选(地位就好像编程语言中的C一般)。个人曾经一度刷SQL题几百道(参考一名数据分析师的SQL学习历程),对于写SQL方面也算悟得精华,但对于诸如索引、事务、引擎等进阶要求仍有欠缺,不过最近用SQL也是越来越少了;

  • Pandas,作为个人入门Python之后学习的最重要的库,潘大师曾经一度是我数据分析的主力,也着实解决了我实际工作中的不少问题,还整理了很多数据分析的小技巧(详见这一年,我总结了这些Pandas小技巧……)。一直认为,在千万级以下数据量的场景中,Pandas是最好的数据分析工具,没有之一……

  • Spark,当数据量超过千万数量级时,Pandas的处理效率就会肉眼可见的变慢不少,此时Spark这款分布式计算处理框架堪称是最佳替代品。当然,Spark的舞台绝不止于Pandas所擅长的离线批处理场景,机器学习、流处理以及图计算等都是Spark的独门绝技。为了用好Spark,个人不仅系统学习了相关入门课,还专门大费周章的学习Scala语言(Scala入门系列终章:类与对象),只因Spark与Scala才是绝配。

就像世界上没有最好的编程语言一般(当然,PHP除外 :D),数据分析也不存在最好的处理工具,所以这4种工具也并无高下之别,灵活运用合理搭配方能最大化其效用。也正是基于此朴素思想,后续将推出各工具对比学习系列推文,以Pandas与Spark.sql对比为主,MySQL和Excel也会视情加入。

相关阅读:

  • 写在1024:一名数据分析师的修炼之路

  • 数据科学系列:sklearn库主要模块简介

  • 数据科学系列:seaborn入门详细教程

  • 数据科学系列:pandas入门详细教程

  • 数据科学系列:matplotlib入门详细教程

  • 数据科学系列:numpy入门详细教程

EMPS:个人做数据分析处理的4重境界相关推荐

  1. 创业公司如何做数据分析(四)ELK日志系统

    作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志.这些 ...

  2. 未明学院:“我是女生,能做数据分析吗?”

    "我是女生,能做数据分析吗?"这样的提问,小明听过不少.但这个问题本身似乎比它的答案更值得深思:难道女性就不适合数据分析吗? 所有渴望入门甚至想把数据分析当做职业,却深陷迷茫和自我 ...

  3. 新手做数据分析的5大误区,一定要避开!

    不论是数分.产品.运营.市场,在做数据分析时,都会不免踏入一些"误区". 轻则影响工作效率,重则延误项目进展,甚至还会连累到自己的职业生涯. 以下几点错误,都是我从身边的真实案例总 ...

  4. 一文看懂怎么用 Python 做数据分析

    作者 | 蓝鲸网站分析博客 来源 | http://bluewhale.cc/2017-04-21/use-python-for-data-analysis-like-excel-3.html 常遇到 ...

  5. 听说你立志要做数据分析,不如先听听老司机的建议?

    (点击上方公众号,可快速关注) 作者:黄进然 每年总有很多人,怀揣着对世界的一知半解.满腔似火的热情.还有对美好生活的向往,走出象牙塔,投身社会. 世界很大,诱惑很多.对于未来,甚至在工作多年后,他们 ...

  6. 做数据分析为什么梳理标签体系很重要?

    做数据分析为什么梳理标签体系很重要?在提升能力是要先会打一个标签再掌握整个体系.围绕某个业务实现业务闭环操作的若干个标签组合,称为标签体系,单一的标签没办法满足闭环操作的需求,因此需要标签体系. 一. ...

  7. python爬取前程无忧招聘网站数据搭建Hadoop、Flume、Kafka、Spark用Hive做数据分析Sqoop存储到Mysql并实现可视化

    文章目录 一.项目总体要求 二.环境搭建 1.安装包准备 2.安装jdk (1)查询是否安装java (2)卸载jdk (3)安装jdk (4)配置jdk环境变量 3.配置ssh免密登录 (1)进入到 ...

  8. Excel+Access做数据分析和报表分析

    目录 前言 设计思路 一切从简单开始 深入解剖 三分之Excel引用外部数据源 使用外部数据创建透视表透视图 使用外部数据创建图 深入解剖 三分之Access基本操作 Access操作之创建数据库 操 ...

  9. 创业公司做数据分析(四)ELK日志系统

      作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志. ...

最新文章

  1. 前端基础面试题大全-极乐科技(一)-JS部分
  2. 分享一个异步发送邮件的类
  3. python入门买什么书-关于 Python 的经典入门书籍有哪些?
  4. IDC:第一季度全球服务器市场收入下滑4.6% 市场为重大升级做准备
  5. HTML5新增的表单类型
  6. Java I/O系统之转换流
  7. 孙鑫VC学习笔记:第十一讲 (四) 图形重绘方法三 利用兼容DC
  8. foreach(表达式中的类型标识符) 内含语句
  9. 2018.8.29牛客OI测试赛A-斐波那契题解(找规律)
  10. windows nginx 停止和启动_Nginx安装过程详解
  11. 如何卸载mysql2008让_怎么才能把sql2008卸载干净
  12. erp系统在会计岗位中起到哪些作用?
  13. 分集阶数(diversity order)
  14. JAVA旅游信息管理平台SSM【数据库设计、毕业设计、源码、开题报告】
  15. LCD 液晶显示器 ---------- LTDC 控制器
  16. oracle 主键、唯一键值、唯一索引关系
  17. linux 文件打包下载到 Windows
  18. CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等
  19. Knativa 基于流量的灰度发布和自动弹性实践
  20. 用vue写了个瀑布流布局,看着还可以

热门文章

  1. TeamViewer远程工具使用安装方法图解
  2. oracle 02315,02315 血眼
  3. spring-rabbit的使用
  4. 小白安装linux系统-u盘安装lubuntu
  5. 简单字符驱动笔记(朱有鹏)
  6. WebRTC[53] - WebRTC回声问题定位的一般方法
  7. 中国国内采购平台大全
  8. Struts2.0.11升级到2.5.30
  9. js 拖曳功能--代码解析
  10. AdvanCell完成由晨兴创投领投的1,800万澳元B轮融资