大数据学习指南从入门到精通
目录
大数据学习指南从入门到精通
前言
一、大数据基础
二、大数据必学Java基础
三、ZooKeeper
四、大数据环境搭建
五、Hadoop
六、Hive
七、HBase
八、Kafka
九、Scala
十、Spark
十一、Flink
十二、新版Flink进阶学习
十三、核心面试题
最后要重塑认知
穷困一生的五个毛病
大数据学习指南从入门到精通
前言
利用框架的力量,看懂游戏规则,才是入行的前提
大多数人不懂,不会,不做,才是你的机会,你得行动,不能畏首畏尾
选择才是拉差距关键,风向,比你流的汗水重要一万倍,逆风划船要累死人的
为什么选择学习大数据开发,不选择Java开发?
借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。
不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此,能让你的职业生涯走得更远,少走弯路。
还有一点就是现在大数据等于趋势,一个向上趋势的行业会让你赚得比其他行业多。
上面这些看似没用,但又至关重要,这里我就不在强调作用,有兴趣的同学可以看看我的大数据学习探讨话题:
学习框架的重要性
我是怎么坚持学习的
怎么确定学习目标
这个栏目为初学者全面整理入门的大数据必学知识,内容是按照体系划分的,集合190多篇高质量文章带你认识大数据,掌握入门的规则。
只要跟着顺序去学,把里面的体系知识掌握了,你才能真正的入门大数据,前提得自律加坚持,赶快行动吧。
一、大数据基础
1、大数据概念
2、大数据的特点(5v)
3、大数据应用场景
4、大数据业务分析基本步骤
5、分布式技术
二、大数据必学Java基础
注意:这是另外的付费栏目,一般学习大数据的,默认你都是有Java和Python等语言的基础,需要你提前学好基础语言的知识。这里Java语言基础最为重要,所以单独写了一个Java的基础知识栏目给没有Java基础的同学优先学习,如果你本身就有独立Java开发能力,可以跳过这一块内容。
栏目地址:https://blog.csdn.net/xiaoweite1/category_11894631.html
三、ZooKeeper
1、ZooKeeper基本知识
2、ZooKeeper集群搭建
3、Zookeeper数据模型和节点类型
4、ZooKeeper的shell操作
5、ZooKeeper Java API操作
6、ZooKeeper选举机制
四、大数据环境搭建
1、Hadoop编译
2、分布式环境搭建
五、Hadoop
1、Hadoop介绍
2、Hadoop发展简史和特性优点
3、Hadoop国内外应用
4、Hadoop发行版公司
5、Hadoop架构
6、Hadoop集群搭建
7、HDFS分布式文件系统简介
8、HDFS的Shell命令行使用
9、HDFS的高级使用命令
10、HDFS的数据读写流程
11、HDFS的元数据辅助管理
12、HDFS的API操作
13、HDFS其他功能
14、HDFS的高可用机制
15、Hadoop的联邦机制 Federation
16、MapReduce计算模型介绍
17、MapReduce编程规范及示例编写
18、MapReduce程序运行模式和深入解析
19、MapReduce分区
20、MapReduce的排序和序列化
21、MapReuce的Combineer
22、MapReduce的自定义分组
23、MapReduce的运行机制详解
24、MapReduce高阶训练
25、YARN通俗介绍和基本架构
26、YARN三大组件介绍
27、YARN运行流程
28、YARN的调度器Scheduler
29、关于YARN常用参数设置
30、Hadoop3.x的介绍
六、Hive
1、Hive基本概念
2、Hive的三种安装模式和MySQL搭配使用
3、Hive数据库和表操作
4、Hive查询语法
5、Hive的内置函数
6、Hive的表生成函数
7、Hive的开窗函数
8、Hive自定义函数
9、Hive的数据压缩
10、Hive的数据存储格式
11、Hive调优
12、Hive综合案例
13、手撕这十道HiveSQL题吊打面试官
七、HBase
1、HBase基本简介
2、HBase集群安装操作
3、HBase数据模型
4、HBase的相关操作-客户端命令式
5、HBase的相关操作JavaAPI方式
6、HBase的高可用
7、Hbase的架构
8、Apache Phoenix的基本介绍
9、Apache Phoenix的安装
10、Apache Phoenix的基本入门操作
11、Apache Phoenix的视图操作
12、Apache Phoenix 二级索引
13、HBase读取和存储数据的流程
14、HBase的原理及其相关的工作机制
15、HBase的Bulk Load批量加载操作
16、HBase的协处理器(Coprocessor)
17、HBase全面调优
18、使用HBase的陌陌案例
八、Kafka
1、消息队列和Kafka的基本介绍
2、Kafka特点总结和架构
3、Kafka的集群搭建以及shell启动命令脚本编写
4、kafka的shell命令使用
5、Kafka的java API编写
6、安装Kafka-Eagle
7、Kafka的分片和副本机制
8、Kafka如何保证数据不丢失
9、kafka消息存储及查询机制原理
10、kafka生产者数据分发策略
11、Kafka的消费者负载均衡机制和数据积压问题
12、Kafka配额限速机制
九、Scala
注意:这是另外的付费栏目,工作上如果需要用到可以学一下。
栏目地址:大数据必学语言Scala
十、Spark
1、框架概述
2、四大特点
3、框架模块初步了解
4、三种常见的运行模式
5、环境搭建本地模式 Local
6、环境搭建集群模式 Standalone
7、应用架构基本了解
8、环境搭建集群模式 Standalone HA
9、Spark On Yarn两种模式总结
10、环境搭建集群模式 Spark on YARN
11、应用开发基于IDEA集成环境
12、Spark Core的RDD详解
13、Spark Core的RDD创建
14、Spark Core的RDD操作
15、Spark Core的RDD常用算子
16、Spark Core的RDD算子练习
17、Spark Core的RDD持久化
18、Spark Core的RDD Checkpoint
19、Spark Core的共享变量
20、Spark Core外部数据源引入
21、Spark Core案例-SogouQ日志分析
22、内核原理
23、SparkSQL 概述
24、SparkSQL数据抽象
25、SparkSQL的RDD、DF、DS相关操作
26、SparkSQL数据处理分析
27、SparkSQL案例花式查询和WordCount
28、SparkSQL案例三电影评分数据分析
29、SparkSQL案例四开窗函数
30、SparkSQL自定义UDF函数
31、Spark On Hive
32、SparkSQL的External DataSource
33、SparkSQL分布式SQL引擎
34、Spark Streaming概述
35、SparkStreaming数据抽象 DStream
36、SparkStreaming实战案例一 WordCount
37、SparkStreaming实战案例二 UpdateStateByKey
38、SparkStreaming实战案例三 状态恢复 扩展
39、SparkStreaming实战案例四 窗口函数
40、SparkStreaming实战案例五 TopN-transform
41、SparkStreaming实战案例六 自定义输出 foreachRDD
42、SparkStreaming的Kafka快速回顾与整合说明
43、SparkStreaming整合Kafka 0.10 开发使用
44、Structured Streaming概述
45、Structured Streaming Sources 输入源
46、Structured Streaming Operations 操作
47、Structured Streaming Sink 输出
48、Structured Streaming 输出终端/位置
49、Structured Streaming 整合 Kafka
50、Structured Streaming 案例一实时数据ETL架构
51、Structured Streaming 物联网设备数据分析
52、Structured Streaming 事件时间窗口分析
53、Structured Streaming Deduplication
54、扩展阅读 SparkSQL底层如何执行
55、Spark的关键技术回顾
十一、Flink
1、乘风破浪的Flink-Flink概述
2、Flink用武之地
3、Flink安装部署 Local本地模式
4、Standalone独立集群模式
5、Standalone-HA高可用集群模式
6、Flink On Yarn模式
7、参数总结
8、Flink入门案例
9、Flink原理初探
10、流处理相关概念
11、流批一体API Source
12、流批一体API Transformation
13、流批一体API Sink
14、流批一体API Connectors JDBC
15、流批一体API Connectors Kafka
16、流批一体API Connectors Redis
17、Flink四大基石
18、Flink Window操作
19、案例一 基于时间的滚动和滑动窗口
20、案例二 基于数量的滚动和滑动窗口
21、案例三 会话窗口
22、Time与Watermaker
23、Watermaker案例演示
24、Allowed Lateness案例演示
25、Flink 状态管理
26、State代码示例
27、Flink 容错机制 Checkpoint
28、Flink 容错机制 自动重启策略和恢复
29、Flink 容错机制 Savepoint
30、Flink Table API & SQL 介绍
31、Table与SQL案例准备 依赖和程序结构
32、Table与SQL案例准备 API
33、Table与SQL相关概念
34、Table与SQL 案例一
35、Table与SQL 案例二
36、Table与SQL 案例三
37、Table与SQL 案例四
38、Table与SQL 案例五 FlinkSQL整合Hive
39、Table与SQL 总结 Flink-SQL常用算子
40、Flink模拟双十一实时大屏统计
41、Flink实现订单自动好评
42、BroadcastState
43、扩展阅读 关于并行度
44、扩展阅读 End-to-End Exactly-Once
45、扩展阅读 双流Join
46、扩展阅读 异步IO
47、扩展阅读 File Sink
48、扩展阅读 Streaming File Sink
十二、新版Flink进阶学习
1、Apache Flink是什么
2、数据架构的演变
3、Flink核心特性
4、Flink应用场景以及其他实时计算框架对比
十三、核心面试题
1、HDFS核心高频面试题
2、Hadoop的联邦机制核心高频面试题
3、MapReduce核心高频面试题
4、Yarn核心高频面试题
5、Hadoop优化核心高频面试题
6、ZooKeeper核心高频面试题
7、Flume核心高频面试题
8、Hive优化措施
最后要重塑认知
穷困一生的五个毛病
第一个毛病,急功近利
经常有人问看哪几本书可以改变人生,答案是看哪几本都不行,人生不是由几本书决定的,也不是由几个人决定的,它是几十本书甚至几百本构建出来的一个体系,是需要逐渐地尝试、逐渐地摸索、逐渐地碰壁,最后总结出一套适合自己的方法论。
第二个毛病,线性规划
很多人的人生是线性的,他们特别喜欢规划,恨不得一直规划到85岁。
但凡你多了解这个世界,就知道任何细致末节的规划都是没有用的。因为真实的世界是充满变数的,有的是十年磨一剑,而九年却看不到任何变化。有的是你拼尽全力准备,却根本等不来决战的机会。有的是你费尽心机算对每一个细节,一抬头,却错过了未来的风口。
规划源于确定,确定源于习惯,习惯源于读书时候的潜移默化。
60年前还没有家用电脑,50年前还没有网络,40年前还没有Java语言,30年前还没有智能手机,20年前还没有大数据,哪一个在你的规划之内呢?
第三个毛病,自我视角
所有的角度都是自己:我怎么怎么样,我做了什么什么,我学这个为什么还是没掌握,主语永远都是我。他们从来不会切换视角,从来不研究学这到底要做什么,这个知识最为主要的是什么,满脑子都想着怎么提高技能。
你得换位思考,学这个知识为了就业,那你就有应付面试官的能力,掌握高频的面试知识点。
进入公司得做项目,所以你需要提高自己的项目实战能力,基于不同的业务场景做练习。而不是对各种知识细致末节的都要学,最终都没掌握好。
第四个毛病,追求免费
真正的知识一定是很贵很贵的,绝对不是你买一本书就能学得到的,也绝对不是你看一些免费的东西就可以到手的。
任何一本数据库架构的书,都不超过100块钱,为什么一个顶级的架构工程师,可以年薪千万?
这其中的原因是真正的知识才是拉开距离的关键。能让你花钱买到,就已经很不错了。
世界是要等价交换的,你想得到一个最珍贵的东西,就得拿自己最珍贵的东西去换,绝对不是交9.9块钱的费用学了半个月就能成顶级架构师,幻想财务自由。
这个世界上最贵的东西就是“免费”,那些能拿钱去计算的,明码标价让你觉得贵的,才是信息成本最低、最便宜的方式。
第五个毛病,不懂放弃
有些人这个也想要,那个也想要,这个也舍不得,那个也舍不得,永远处在犹豫的状态当中。
找一个公司,既想待遇高,又想福利好、加班少、还要专业对口,还得有发展前景,能再给点期权就更好,这样的结果就是永远找不到合适的行业。
世界上没有完美,就算你考到700分,清华和北大也只能选一个,永远要为了一个更重要的,放弃不那么重要的。
成功很难,但是失败很容易,五个毛病,照做就行。
-
大数据学习指南从入门到精通相关推荐
- 2018大数据学习路线从入门到精通
最近很多人问小编现在学习大数据这么多,他们都是如何学习的呢.很多初学者在萌生向大数据方向发展的想法之后,不免产生一些疑问,应该怎样入门?应该学习哪些技术?学习路线又是什么?今天小编特意为大家整理了一份 ...
- Inventor 二次开发学习指南(入门到精通)
作者:梁晓冬 – Autodesk开发技术顾问 Inventor作为Autodesk公司制造业旗舰产品,已经在三维领域得到了广泛的应用.许多国内开发者迫切想学习InventorAPI,学习如何应用到专 ...
- 大数据学习之HBase入门笔记
文章目录 一.HBase简介 1.1.HBase定义 1.2.HBase数据模型 1.2.1.HBase逻辑结构 1.2.2.物理存储结构 1.2.3.数据模型 1.3.HBase基础架构(入门版) ...
- java互联网架构,大数据学习笔记1--------Python入门个人笔记,仅记录个人觉得需要记得东西)
目录 一.基础概念 二.流程控制 三.列表.字典.元组.集合.字符串 四.函数 五.异常 六.类和对象 七.封装,继承,多态 八.模块和包 九.文件读写 一.基础概念 print输出函数 # 将数据输 ...
- 【大数据】Spark从入门到精通
一.参考资料 1. 视频教学 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备
- 大数据学习路线2019版(附全套视频教程及网盘下载)
什么是大数据? 大数据(BIG DATA)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的 ...
- 【大数据】大数据学习路线
职位选择 首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师.数据治理工程师. ...
- 大数据学习规划(新手入门)
前言: 一.背景介绍 二.大数据介绍 正文: 一.大数据相关的工作介绍 二.大数据工程师的技能要求 三.大数据学习规划 四.持续学习资源推荐(书籍,博客,网站) 五.项目案例分析(批处理+实时处理) ...
- 大数据学习入门规划?和学习路线
大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 一.大数 ...
最新文章
- mysql 5.7 Stage Tracking DDL进度跟踪
- @EnableAutoConfiguration原理简单分析
- java h5在线音频_[语音技术]java+H5的录音类实例(1)
- Ubuntu开启FTP服务方法(Ubuntu和Windows之间互传文件需要开启——服务器端)
- 9th week blog
- CEF新版发布 添加多项激动人心的新特性
- 福建省计算机应用考试成绩,福建省高校学生计算机应用水平考试成绩查询
- java 6 linux_CentOS 6.5 安装java
- 【转】oracle回闪操作
- 【Maven】log4j-slf4j-impl cannot be present with log4j-to-slf4j
- Random Forest
- 最全的响应式设计资源库
- $.getjson遇到的几个问题-json返回数据中带有html标签的输出
- optisystem中器件的学习(4-Test Sets/Passives Library/Optical Switches)
- 快递鸟接口国内常用快递公司编码表
- 从k-\epsilon到k-\omega
- 软件设计架构中各模块breakdown
- Float浮动与清除浮动
- 苹果x屏幕失灵乱跳_苹果手机屏幕失灵怎么办?成都苹果维修点教你轻松处理!...
- sequencer和driver
热门文章
- 基带 频带 基带信号 频带信号 基带传输 频带传输 宽带传输
- csv出力Java_CSV 出力测试
- Android 实现JNI动态注册
- 梦龙_C语言作业12
- 视频怎么转音频?详细的转换步骤
- Linux下如何播放CSF格式视频
- 在人脸识别的“统治”阴影之下……
- CodeForces 348D Turtles(LGV引理)
- 【实战系列】B360主板+Intel 8代i5 8400 CPU+核显完美重装WIN7系统
- lisp全部文本改宋体字型_[推荐]修改任何文字(包括属性块、有名无名块)
- 2018大数据学习路线从入门到精通