大数据分析师 - 技术体系 - 了解篇
下面是网上的一些技术资料,以供参考-------------------------------------------------------------------------------------------
大数据技术初探
从前几年到现在所谓的大数据时代,移动互联网、物联网、云计算、人工智能、机器人、大数据等前沿信息技术领域,逐个火了一遍,什么是大数据,大数据的技术范畴包括那些,估计很多人都是根据自己所熟悉的领域在盲人摸象。
数据分析师的能力体系
如下图:
- 数学知识
数学知识是数据分析师的基础知识。
对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。
对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。
而对于数据挖掘工程师,除了统计学以外,各类算法也需要熟练使用,对数学的要求是最高的。
- 分析工具
对于初级数据分析师,玩转Excel是必须的,数据透视表和公式使用必须熟练,VBA是加分。另外,还要学会一个统计分析工具,SPSS作为入门是比较好的。
对于高级数据分析师,使用分析工具是核心能力,VBA基本必备,SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。
对于数据挖掘工程师……嗯,会用用Excel就行了,主要工作要靠写代码来解决呢。
- 编程语言
对于初级数据分析师,会写SQL查询,有需要的话写写Hadoop和Hive查询,基本就OK了。
对于高级数据分析师,除了SQL以外,学习Python是很有必要的,用来获取和处理数据都是事半功倍。当然其他编程语言也是可以的。
对于数据挖掘工程师,Hadoop得熟悉,Python/Java/C++至少得熟悉一门,Shell得会用……总之编程语言绝对是数据挖掘工程师的最核心能力了。
- 业务理解
业务理解说是数据分析师所有工作的基础也不为过,数据的获取方案、指标的选取、乃至最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。
对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。
对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
- 逻辑思维
这项能力在我之前的文章中提的比较少,这次单独拿出来说一下。
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。
对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。
对于数据挖掘工程师,逻辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
- 数据可视化
数据可视化说起来很高大上,其实包括的范围很广,做个PPT里边放上数据图表也可以算是数据可视化,所以我认为这是一项普遍需要的能力。
对于初级数据分析师,能用Excel和PPT做出基本的图表和报告,能清楚的展示数据,就达到目标了。
对于高级数据分析师,需要探寻更好的数据可视化方法,使用更有效的数据可视化工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
对于数据挖掘工程师,了解一些数据可视化工具是有必要的,也要根据需求做一些复杂的可视化图表,但通常不需要考虑太多美化的问题。
- 协调沟通
对于初级数据分析师,了解业务、寻找数据、讲解报告,都需要和不同部门的人打交道,因此沟通能力很重要。
对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
对于数据挖掘工程师,和人沟通技术方面内容偏多,业务方面相对少一些,对沟通协调的要求也相对低一些。
- 快速学习
无论做数据分析的哪个方向,初级还是高级,都需要有快速学习的能力,学业务逻辑、学行业知识、学技术工具、学分析框架……数据分析领域中有学不完的内容,需要大家有一颗时刻不忘学习的心。
以上,就是我对数据分析师能力的总结。
数据分析师的工具体系
一图说明问题
可以从图上看到,Python在数据分析中的泛用性相当之高,流程中的各个阶段都可以使用Python。所以作为数据分析师的你如果需要学习一门编程语言,那么强力推荐Python~
以上,本期内容就讲完了。
作者:陈丹奕
链接:知乎专栏
来源:知乎
HADOOP家族产品技术介绍:
- Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
- Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
- Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
- Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
- Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
- Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
- Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
- Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身
- Apache Avro: 是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制
- Apache Ambari: 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。
- Apache Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。
- Apache Hama: 是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
- Apache Flume: 是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。
- Apache Giraph: 是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
- Apache Oozie: 是一个工作流引擎服务器, 用于管理和协调运行在Hadoop平台上(HDFS、Pig和MapReduce)的任务。
- Apache Crunch: 是基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库
- Apache Whirr: 是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr学支持Amazon EC2和Rackspace的服务。
- Apache Bigtop: 是一个对Hadoop及其周边生态进行打包,分发和测试的工具。
- Apache HCatalog: 是基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。
- Cloudera Hue: 是一个基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
大数据技术资源推介
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
大数据资源推荐:The Big-Data Ecosystem 2015-点金大数据,专业的大数据应用咨询服务网站
机器学习&深度学习资源列表
大数据分析师 - 技术体系 - 了解篇相关推荐
- 张新波 | 十面埋伏 - 论大数据风控技术体系的构建
2017.3.11,中生代技术嘉年华在上海盛大召开,6大主题.20话题,600多位小伙伴点燃现场,我们将会陆续将各话题整理发布,让大家共享这场技术盛筵. - 中生代技术嘉年华 - 张新波,同盾联合创始 ...
- 大数据OLAP技术体系学习框架
文章目录 大数据OLAP技术体系学习框架 前言 一.Apache Druid分布式数据存储 二.ClickHouse列式数据库 三.Presto分布式查询引擎 四.Kudu分布式存储库 五.Kylin ...
- 企业大数据平台技术体系架构
2015年国务院向社会公布的<促进大数据发展行动纲要>明确提出了大数据的基本概念:大数据是以容量大.类型多.存取速度快.应用价值高位为主要特征的数据集合,正快速发展为对数量巨大.来源分散. ...
- 数据分析师 知识体系 业务篇
目录 分析框架 事件分析 漏斗分析 AARRR模型 获取用户 激发活跃 提高留存 增加收入 病毒传播 三大增长引擎 1.粘着式增长引擎 2. 付费式增长引擎 3.爆发式增长引擎 指标异常分析 问题定位 ...
- SuperMap大数据GIS技术白皮书 v2.1
近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.新版本自8月初计划编写,成稿后经数次删改及审定,最终形成包含7大 ...
- 《企业大数据系统构建实战:技术、架构、实施与应用》——2.2 大数据职位构建体系...
本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第2章,第2.2节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...
- 大数据分析师·人才培养·高薪起航
一.大数据分析师时代背景 随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长.动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现 ...
- 2017年全球大数据产业报告之海外篇(第六集)
本文作者│吴极 微信号│wujiwuji1023 本文转载自公众号星河融快(rongkuai888) ,作者吴极(微信ID:wujiwuji1023) 中国软件网获授权转载. " 在& ...
- 2017年全球大数据产业报告之海外篇(第八集)
本文作者│吴极 微信号│wujiwuji1023 本文转载自公众号星河融快(rongkuai888) ,作者吴极(微信ID:wujiwuji1023) 中国软件网获授权转载. " 在上 ...
最新文章
- Axis2 webservice入门--Webservice的发布与调用
- Photoshop剪切板故障修复
- EL之GB(GBC):利用GB对多分类问题进行建模(分层抽样+调1参)并评估
- 【Redis系列】深入浅出Redis主从复制之哨兵模式【实践】
- Qt Creator设置3D组件属性
- 修改ubuntu系统默认语言(linux中文乱码)
- SAP Spartacus category navigation按钮的差异
- python输出矩阵的转置_Python 矩阵转置的几种方法小结
- 每日面试之Java集合
- 遇见未来 | 超融合如何兼顾企业的“敏态”和“稳态”的业务需求
- torch.backends.cudnn.enabled = False会引起CUDA out of memory和CUDA error: an illegal memory access was
- Linux 正在吞噬 Windows 和 Chrome OS!
- 【机器学习系列】隐马尔科夫模型第三讲:EM算法求解HMM参数
- c4dr20怎么安装oc渲染器怎么安装_[C4D插件] OTOY正式发布OC渲染器OctaneRender4 For C4D 支持R16-R20 Demo版已开放下载(Win)...
- 众测、专属、渗透测试捡破烂小tips
- 单片机c语言延时30s程序,单片机C语言的延时程序
- 洞见趋势系列(二)特征工程
- Windows系统盘瘦身指南
- 鸿蒙系统有没有方舟编译器,华为鸿蒙系统终于来了! 首款方舟编译器应用正式上架: 鸿蒙OS可用...
- 转:优秀的人,往往都具备这5种视角
热门文章
- Raphael成图中的一点注意
- 汕大计算机科学与技术学院,我的选择:汕头大学
- 【北邮国院大三上】互联网协议_Internet Protocol_PART B
- #C51 IIC通讯(底层配置时序)
- 在C++里边定义一个宏,最多可以包含几层?
- 拼多多,为老妈打开了“新世界”的大门
- [ STK ](九)改变 3D 视图的背景颜色,设置卫星轨道的颜色,导出 3D 视图
- 用友Java面试汇总
- android mac 照片恢复,相片恢复?误删的手机照片简单的找回方法来了!
- RNIDS PC端驱动RNDIS USB kit