大数据方向的工作目前分为三个主要方向:

01.大数据工程师 
02.数据分析师 
03.大数据科学家 
04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

一、大数据工程师的技能要求 
二、大数据学习路径 
三、学习资源推荐(书籍、博客、网站)

一、大数据工程师的技能要求

总结如下:

必须技能10条: 
01.Java高级编程(虚拟机、并发) 
02.Linux 基本操作 
03.Hadoop(此处指HDFS+MapReduce+Yarn ) 
04.HBase(JavaAPI操作+Phoenix ) 
05.Hive 
06.Kafka 
07.Storm 
08.Scala 
09.Python 
10.Spark (Core+sparksql+Spark streaming )

进阶技能6条: 
11.机器学习算法以及mahout库加MLlib 
12.R语言 
13.Lambda 架构 
14.Kappa架构 
15.Kylin 
16.Aluxio

二、学习路径

第一阶段: 
01.Linux学习(跟鸟哥学就ok了) 
02.Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)

第二阶段:

03.Hadoop (董西成的书) 
04.HBase(《HBase权威指南》) 
05.Hive(《Hive开发指南》) 
06.Scala(《快学Scala》) 
07.Spark (《Spark 快速大数据分析》) 
08.Python (跟着廖雪峰的博客学习就ok了)

第三阶段: 
对应技能需求,到网上多搜集一些资料就ok了, 
我把最重要的事情(要学什么告诉你了), 
剩下的就是你去搜集对应的资料学习就ok了

当然如果你觉得自己看书效率太慢,你可以网上搜集一些课程,跟着课程走也OK 。这个完全根据自己情况决定,如果看书效率不高就上网课,相反的话就自己看书。

三,学习资源推荐:

01.Apache 官网 
02.Stackoverflow 
04.github 
03.Cloudra官网 
04.Databrick官网 
05.过往的记忆(技术博客) 
06.CSDN,51CTO 
07.至于书籍当当、京东一搜会有很多,其实内容都差不多                                                                                          那么如何从零开始规划大数据学习之路!                                                                                        大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。

如何开始学习大数据?

人们想开始学习大数据的时候,最常问我的问题是,“我应该学Hadoop(hadoop是一款开源软件,主要用于分布式存储和计算,他由HDFS和MapReduce计算框架组成的,他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量数据处理框架。), 分布式计算,Kafka(Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统),NoSQL(泛指非关系型的数据库)还是Spark(Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处)?”

而我通常只有一个答案:“这取决于你究竟想做什么。”

与大数据相关的工作?

(1)大数据系统研发工程师:负责大数据系统研发工作,包括大规模非结构化数据业务模型构建、大数据存储、数据库架构设计以及数据库详细设计、优化数据库构架、解决数据库中心建设设计问题。他们还负责集群的日常运作、系统的监测和配置、Hadoop与其他系统的集成。

(2)大数据应用开发工程师:负责搭建大数据应用平台、开发分析应用程序。他们熟悉工具或算法、编程、包装、优化或者部署不同的MapReduce事务。他们以大数据技术为核心,研发各种基于大数据技术的应用程序及行业解决方案。

(3)大数据分析师:运用算法来解决分析问题,并且从事数据挖掘工作。他们最大的本事就是能够让数据道出真相;此外,他们还拥有某个领域的专长,帮助开发数据产品,推动数据解决方案的不断更新。

(4)数据可视化工程师:具备良好的沟通能力与团队精神,责任心强,拥有优秀的解决问题的能力。他们负责在收集到的高质量数据中,利用图形化的工具及手段的应用,一目了然地揭示数据中的复杂信息,帮助企业更好的进行大数据应用开发,发现大数据背后的巨大财富。

你适合大数据什么方向呢?

现在我们已经了解了行业中可供选择的职业种类,让我们想办法来确定哪个领域适合你。这样,我们才能确定你在这个行业中的位置。通常来说,基于你的教育背景和行业经验可以进行分类。

例1:“我是一名计算机科学毕业生,不过没有坚实的数学技巧。”

你对计算机科学或者数学有兴趣,但是之前没有相关经验,你将被定义为一个新人。

例2:“我是一个计算机科学毕业生,目前正从事数据库开发工作。”

你的兴趣在计算机科学方向,你适合计算机工程师(数据相关工程)的角色。

大数据学习之路

核心是,大部分大数据技术都是用Java或Scala编写的。但是别担心,如果你不想用这些语言编写代码,那么你可以选择Python或者R,因为大部分的大数据技术现在都支持Python和R。

因此,你可以从上述任何一种语言开始。 我建议选择Python或Java。

接下来,你需要熟悉云端工作。 这是因为如果你没有在云端处理大数据,没有人会认真对待。 请尝试在AWS,softlayer或任何其他云端供应商上练习小型数据集。 他们大多数都有一个免费的层次,让学生练习。如果你想的话,你可以暂时跳过此步骤,但请务必在进行任何面试之前在云端工作。

接下来,你需要了解一个分布式文件系统。最流行的分布式文件系统就是Hadoop分布式文件系统。在这个阶段你还可以学习一些你发现与你所在领域相关的NoSQL数据库。

那么我们一起来看看大数据经典学习路线(及供参考)

学习路线

Linux(shell,高并发架构,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

机器学习(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

云计算平台(docker,kvm,openstack)

大数据学习资料分享群199427210

名词解释

一、Linux

lucene: 全文检索引擎的架构

solr: 基于lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。

二、Hadoop

hadoop common

HDFS: 分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。

yarn: 可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager NodeManager。

MapReduce: 软件框架,编写程序。

Hive: 数据仓库 可以用SQL查询,可以运行Map/Reduce程序。用来计算趋势或者网站日志,不应用于实时查询,需要很长时间返回结果。

HBase: 数据库。非常适合用来做大数据的实时查询。Facebook用Hbase存储消息数据并进行消息实时的分析

ZooKeeper: 针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active standby切换。

Sqoop: 数据库相互转移,关系型数据库和HDFS相互转移

Mahout: 可扩展的机器学习和数据挖掘库。用来做推荐挖掘,聚集,分类,频繁项集挖掘。

Chukwa: 开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。

Ambari: 用于配置、管理和监视Hadoop集群,基于Web,界面友好。

二、Cloudera

Cloudera Manager: 管理 监控 诊断 集成

Cloudera CDH:(Cloudera’s Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改变,发行版本称为CDH。

Cloudera Flume: 日志收集系统,支持在日志系统中定制各类数据发送方,用来收集数据。

Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH组件的shell界面的接口,可以在hue编写mr。

三、机器学习/R

R: 用于统计分析、绘图的语言和操作环境,目前有Hadoop-R

mahout: 提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。

四、storm

Storm: 分布式,容错的实时流式计算系统,可以用作实时分析,在线机器学习,信息流处理,连续性计算,分布式RPC,实时处理消息并更新数据库。

Kafka: 高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据(浏览,搜索等)。相对Hadoop的日志数据和离线分析,可以实现实时处理。目前通过Hadoop的并行加载机制来统一线上和离线的消息处理

Redis: 由c语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。

五、Spark

Scala: 一种类似java的完全面向对象的编程语言。

Spark: Spark是在Scala语言中实现的类似于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的优点,但不同于MapReduce的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce算法。可以和Hadoop文件系统并行运作,用过Mesos的第三方集群框架可以支持此行为。

Spark SQL:

Spark Streaming: 一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。

Spark MLlib: MLlib是Spark是常用的机器学习算法的实现库,目前(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包括一个底层的梯度下降优化基础算法。MLlib以来jblas线性代数库,jblas本身以来远程的Fortran程序。

Spark GraphX: GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。

jblas: 一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计算实际的行业标准,并使用先进的基础设施等所有的计算程序的ATLAS艺术的实现,使其非常快。

Fortran: 最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。

BLAS: 基础线性代数子程序库,拥有大量已经编写好的关于线性代数运算的程序。

LAPACK: 著名的公开软件,包含了求解科学与工程计算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇异值问题等。

ATLAS: BLAS线性算法库的优化版本。

Spark Python: Spark是由scala语言编写的,但是为了推广和兼容,提供了java和python接口。

六、Python

Python: 一种面向对象的、解释型计算机程序设计语言。

七、云计算平台

Docker: 开源的应用容器引擎 
kvm: (Keyboard Video Mouse) 
openstack: 开源的云计算管理平台项目

查看更多文章:

没有基础想学大数据难吗?

大数据入门学习,你要掌握这些技能

大数据领域三个大的技术方向

自学大数据从哪入手

大数据专业未来就业前景如何?

教你大数据必修三大技能 ,快快记录下来

大数据学习入门规划?和学习路线相关推荐

  1. 什么是大数据?零基础如何学习大数据?(附学习路线)

    其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策. 大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测.比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同 ...

  2. 有java基础学习大数据该如何规划

    大数据开发对于Java语言的依赖程度比较高,如果想尝试大数据开发,学习过Java语言就很容易上手 Java是目前使用广泛的编程语言之一,具有的众多特性,特别适合作为大数据应用的开发语言. 目前很多大数 ...

  3. 大数据新手的0基础学习路线,从菜鸟到高手的成长之路

    大数据作为一个新兴的热门行业,吸引了很多人,但是对于大数据新手来说,按照什么路线去学习,才能够学习好大数据,实现从大数据菜鸟到高手的转变.这是很多想要学习大数据的朋友们想要了解的. 今天我们就来和大家 ...

  4. 什么是java的元数据_学习大数据,为什么要先学习Java?

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...

  5. 大数据工程师的海量数据存储学习清单!

    大数据和AI的能力在企业应用中发挥着越来越重要的价值,企业在提升数字化转型带来的数字到知识萃取助力于业务的同时,离不开数据在不同场景的进行存储.与数据引擎进行交付,而这些贯穿在数据生命的整个周期,流转 ...

  6. 大数据工程师技能要求的学习路线图

    一.大数据相关工作介绍 大数据方向的工作目前主要分为三个主要方向: 1. 大数据工程师 2. 数据分析师 3. 大数据科学家 4. 其他(数据挖掘等) 二.大数据工程师的技能要求 附上大数据工程师技能 ...

  7. 2016年大数据Spark“蘑菇云”行动代码学习之AdClickedStreamingStats模块分析

    2016年大数据Spark"蘑菇云"行动代码学习之AdClickedStreamingStats模块分析     系统背景:用户使用终端设备(IPAD.手机.浏览器)等登录系统,系 ...

  8. 大数据第二阶段Python基础编程学习笔记(待完善)

    大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...

  9. 深度学习入门之PyTorch学习笔记:深度学习介绍

    深度学习入门之PyTorch学习笔记:深度学习介绍 绪论 1 深度学习介绍 1.1 人工智能 1.2 数据挖掘.机器学习.深度学习 1.2.1 数据挖掘 1.2.2 机器学习 1.2.3 深度学习 第 ...

最新文章

  1. HDU2032(杨辉三角)
  2. matlab中欠定方程组超定方程组_七年级下册第10章:解二元一次方程组(12课时)...
  3. 各种类型Android源代码
  4. 使用Stream流的方式,遍历集合,对集合中的数据进行过滤
  5. 【转】求一个类的sizeof应考虑的问题
  6. SAP UI5和Angular的函数防抖(Debounce)和函数节流(Throttle)实现原理介绍
  7. 如何在 ASP.NET Core 中实现全局异常拦截
  8. Linux Makefile
  9. C语言:计算1*2*3*....*100,即求100!。
  10. 如何保证缓存与数据库双写时的数据一致性?
  11. 原生 遍历_ECMAScript 6 入门教程—异步遍历器
  12. HTML5基础网页设计(加代码CSS)
  13. html+css+js 实现鼠标拖尾效果(源码)
  14. MyEclipse破解 CI-2018.9.0版本
  15. 360监测显示:cookie没有httponly标志解决方法
  16. python结果四舍五入保留两位小数_python中四舍五入的正确打开方式
  17. OpenSSL Cipher 加密解密 Ruby on Rails
  18. 查询彩票中奖号码小程序
  19. [转] 懒惰、急躁和傲慢 (Laziness, Impatience and hubris)
  20. CVS 常用操作命令

热门文章

  1. 电脑桌面宠物-开机自启
  2. 百度推出清风算法,SEO的标题该如何优化?
  3. 4个最好的在线漫画生成器,轻松创作漫画
  4. 谢慧敏清晰版. 数学分析习题课讲义.下. 2004
  5. Android 简易QQ登录页面
  6. tiny4412 裸机程序 八、重定位到DRAM及LCD实验
  7. 2019年DigitalOcean最新优惠券赠送100美元
  8. 数组循环向左移动k位的算法
  9. win11剪贴板数据如何删除 Windows清空剪贴板数据的步骤方法
  10. find_package()快速理解