给大家推荐一本比较系统的Hadoop大数据书籍,方便大家快速入门

图书简介:

本书以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,第1章讲解了VMware中CentOS 7操作系统的安装;第2章讲解了大数据开发之前对操作系统集群环境的配置;第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过实际案例加深对各个框架的理解与应用。通过阅读本书,读者即使没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发。

本书适合大数据开发初学者、大数据运维人员以及大数据分析与挖掘的从业者阅读,也可作为培训机构与高校相关专业的教学参考书。

作者简介:

张伟洋:

资深大数据及Java工程师,先后就职于互联网公司百度、慧聪网等,任高级Java软件工程师及技术经理。现就职于英谷教育科技股份有限公司,任大数据项目讲师,曾多次为高等院校举行大数据专题讲座,对Hadoop及周边大数据框架等有深入研究。百度文库、百度阅读签约作者,高校教材《云计算与大数据概论》主要作者。

购书网站:当当,京东,天猫均已上架,需要的自行搜索购买。

前 言

当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从B、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数据技术的人才,而大数据相关人才却出现了供不应求的状况。

Hadoop作为大数据生态系统中的核心框架,专为离线和大规模数据处理而设计。Hadoop的核心组成HDFS为海量数据提供了分布式存储;MapReduce则为海量数据提供了分布式计算。很多互联网公司都使用Hadoop来实现公司的核心业务,例如华为的云计算平台、淘宝的推荐系统等,只要和海量数据相关的领域都有Hadoop的身影。

本书从实战角度出发,介绍了Hadoop及其周边框架,涉及知识面比较广,几乎涵盖了当前整个Hadoop生态系统主流的大数据开发技术,如HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、_如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣群:458数字345数字782获取学习资源,_架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过实际案例加深对各个框架的理解与应用。

本书的特色是内容全面,代码可读性强,以实操为主,理论为辅,一步一步手把手对常用的离线计算以及实时计算等系统进行了深入讲解。

本书推荐的阅读方式是按照章节顺序从头到尾完成阅读,因为后面的很多章节是以前面的章节为基础,而且这种一步一个脚印、由浅入深的方式将使你更加顺利地掌握大数据的开发技能。

学习本书时,首先根据第1、2章搭建好开发环境,然后依次学习第3~16章,学习每一章时先了解该章的基础知识和框架的架构原理,然后再进行集群环境搭建、Shell命令操作等实操练习,这样学习效果会更好。当书中的理论和实操知识都掌握后,可以进行举一反三,自己开发一个大数据程序,或者将所学知识运用到自己的编程项目上,也可以到各种在线论坛与其他大数据爱好者进行讨论,互帮互助。

本书可作为Hadoop新手入门的指导书籍或者大数据开发人员的参考用书,要求读者具备一定的Java语言基础和Linux系统基础,对于没有任何大数据基础的读者,本书非常适合,你完全可以对照书中的步骤成功搭建属于自己的大数据集群。通过对本书的学习,读者能够对大数据相关框架迅速理解并掌握,可以熟练使用Hadoop集成环境进行大数据项目的开发。

由于时间原因,书中难免出现一些错误或不准确的地方,恳请读者批评指正。

著者

2019年5月于青岛

II | 再也不踩坑的Kubernetes实战指南

目 录

第1章 VMware中安装CentOS 7

1.1 下载CentOS 7镜像文件

1.2 新建虚拟机

1.3 安装操作系统

第2章 CentOS 7集群环境配置

2.1 系统环境配置

2.1.1 新建用户

2.1.2 修改用户权限

2.1.3 关闭防火墙

2.1.4 设置固定IP

2.1.5 修改主机名

2.1.6 新建资源目录

2.2 安装JDK

2.3 克隆虚拟机

2.4 配置主机IP映射

第3章 Hadoop

3.1 Hadoop简介

3.1.1 Hadoop生态系统架构

3.1.2 Hadoop 1.x与2.x的架构对比

3.2 YARN基本架构及组件

3.3 YARN工作流程

3.4 配置集群各节点SSH无密钥登录

3.4.1 无密钥登录原理

3.4.2 无密钥登录操作步骤

3.5 搭建Hadoop 2.x分布式集群

第4章 HDFS

4.1 HDFS简介

4.1.1 设计目标

4.1.2 总体架构

4.1.3 主要组件

4.1.4 文件读写

4.2 HDFS命令行操作

4.3 HDFS Web界面操作

4.4 HDFS Java API操作

4.4.1 读取数据

4.4.2 创建目录

4.4.3 创建文件

4.4.4 删除文件

4.4.5 遍历文件和目录

4.4.6 获取文件或目录的元数据

4.4.7 上传本地文件

4.4.8 下载文件到本地

第5章 MapReduce

5.1 MapReduce简介

5.1.1 设计思想

5.1.2 任务流程

5.1.3 工作原理

5.2 MapReduce程序编写步骤

5.3 案例分析:单词计数

5.4 案例分析:数据去重

5.5 案例分析:求平均分

5.6 案例分析:二次排序

5.7 使用MRUnit测试MapReduce程序

第6章 ZooKeeper

6.1 ZooKeeper简介

6.1.1 应用场景

6.1.2 架构原理

6.1.3 数据模型

6.1.4 节点类型

6.1.5 Watcher机制

6.1.6 分布式锁

6.2 ZooKeeper安装配置

6.2.1 单机模式

6.2.2 伪分布模式

6.2.3 集群模式

6.3 ZooKeeper命令行操作

6.4 ZooKeeper Java API操作

6.4.1 创建Java工程

6.4.2 创建节点

6.4.3 修改数据

6.4.4 获取数据

6.4.5 删除节点

6.5 案例分析:监听服务器动态上下线

第7章 HDFS与YARN HA

7.1 HDFS HA搭建

7.1.1 架构原理

7.1.2 搭建步骤

7.1.3 结合ZooKeeper进行HDFS自动故障转移

7.2 YARN HA搭建

7.2.1 架构原理

7.2.2 搭建步骤

第8章 HBase

8.1 什么是HBase

8.2 HBase基本结构

8.3 HBase数据模型

8.4 HBase集群架构

8.5 HBase安装配置

8.5.1 单机模式

8.5.2 伪分布模式

8.5.3 集群模式

8.6 HBase Shell命令操作

8.7 HBase Java API操作

8.7.1 创建Java工程

8.7.2 创建表

8.7.3 添加数据

8.7.4 查询数据

8.7.5 删除数据

8.8 HBase过滤器

8.9 案例分析:HBase MapReduce数据转移

8.9.1 HBase不同表间数据转移

8.9.2 HDFS数据转移至HBase

8.10 案例分析:HBase数据备份与恢复

第9章 Hive

9.1 什么是Hive

9.1.1 数据单元

9.1.2 数据类型

9.2 Hive架构体系

9.3 Hive三种运行模式

9.4 Hive安装配置

9.4.1 内嵌模式

9.4.2 本地模式

9.4.3 远程模式

9.5 Hive常见属性配置

9.6 Beeline CLI的使用

9.7 Hive数据库操作

9.8 Hive表操作

9.8.1 内部表

9.8.2 外部表

9.8.3 分区表

9.8.4 分桶表

9.9 Hive查询

9.9.1 SELECT子句查询

9.9.2 JOIN连接查询

9.10 其他Hive命令

9.11 Hive元数据表结构分析

9.12 Hive自定义函数

9.13 Hive JDBC操作

9.14 案例分析:Hive与HBase整合

9.15 案例分析:Hive分析搜狗用户搜索日志

第10章 Sqoop

10.1 什么是Sqoop

10.1.1 Sqoop基本架构

10.1.2 Sqoop开发流程

10.2 使用Sqoop253

10.3 数据导入工具

10.4 数据导出工具

10.5 Sqoop安装与配置

10.6 案例分析:将MySQL表数据导入到HDFS中

10.7 案例分析:将HDFS中的数据导出到MySQL中

10.8 案例分析:将MySQL表数据导入到HBase中

第11章 Kafka267

11.1 什么是Kafka

11.2 Kafka架构

11.3 主题与分区

11.4 分区副本

11.5 消费者组

11.6 数据存储机制

11.7 集群环境搭建

11.8 命令行操作

11.8.1 创建主题

11.8.2 查询主题

11.8.3 创建生产者

11.8.4 创建消费者

11.9 Java API操作

11.9.1 创建Java工程

11.9.2 创建生产者

11.9.3 创建消费者

11.9.4 运行程序

11.10 案例分析:Kafka生产者拦截器

第12章 Flume

12.1 什么是Flume

12.2 架构原理

12.2.1 单节点架构

12.2.2 组件介绍

12.2.3 多节点架构

12.3 安装与简单使用

12.4 案例分析:日志监控(一)

12.5 案例分析:日志监控(二)

12.6 拦截器306

12.6.1 内置拦截器

12.6.2 自定义拦截器

12.7 选择器

12.8 案例分析:拦截器和选择器的应用

12.9 案例分析:Flume与Kafka整合

第13章 Storm

13.1 什么是Storm

13.2 Storm Topology

13.3 Storm集群架构

13.4 Storm流分组

13.5 Storm集群环境搭建

13.6 案例分析:单词计数

13.6.1 设计思路

13.6.2 代码编写

13.6.3 程序运行

13.7 案例分析:Storm与Kafka整合

第14章 Elasticsearch

14.1 什么是Elasticsearch

14.2 基本概念

14.2.1 索引、类型和文档

14.2.2 分片和副本

14.2.3 路由

14.3 集群架构

14.4 集群环境搭建

14.5 Kibana安装

14.6 REST API

14.6.1 集群状态API

14.6.2 索引API

14.6.3 文档API

14.6.4 搜索API

14.6.5 Query DSL

14.7 Head插件安装

14.8 Java API操作:员工信息

第15章 Scala

15.1 什么是Scala

15.2 安装Scala

15.2.1 Windows中安装Scala

15.2.2 CentOS 7中安装Scala

15.3 Scala基础

15.3.1 变量声明

15.3.2 数据类型

15.3.3 表达式

15.3.4 循环

15.3.5 方法与函数

15.4 集合

15.4.1 数组

15.4.2 List

15.4.3 Map映射

15.4.4 元组

15.4.5 Set

15.5 类和对象

15.5.1 类的定义

15.5.2 单例对象

15.5.3 伴生对象

15.5.4 get和set方法

15.5.5 构造器

15.6 抽象类和特质

15.6.1 抽象类

15.6.2 特质

15.7 使用Eclipse创建Scala项目

15.7.1 安装Scala for Eclipse IDE

15.7.2 创建Scala项目

15.8 使用IntelliJ IDEA创建Scala项目

15.8.1 IDEA中安装Scala插件

15.8.2 创建Scala项目

第16章 Spark

16.1 Spark概述

16.2 Spark主要组件

16.3 Spark运行时架构

16.3.1 Spark Standalone模式

16.3.2 Spark On YARN模式

16.4 Spark集群环境搭建

16.4.1 Spark Standalone模式

16.4.2 Spark On YARN模式

16.5 Spark HA搭建

16.6 Spark应用程序的提交

16.7 Spark Shell的使用

16.8 Spark RDD

16.8.1 创建RDD

16.8.2 RDD算子

16.9 案例分析:使用Spark RDD实现单词计数

16.10 Spark SQL

16.10.1 DataFrame和Dataset

16.10.2 Spark SQL基本使用

16.11 案例分析:使用Spark SQL实现单词计数

16.12 案例分析:Spark SQL与Hive整合

16.13 案例分析:Spark SQL读写MySQL

java如何快速入门Hadoop大数据技术?相关推荐

  1. 猿创征文|Hadoop大数据技术

    Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...

  2. Hadoop大数据技术复习资料

    Hadoop大数据技术复习资料 ​ 钟兴宇 1.选择题15空,共30分. Hadoop以HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)和MapR ...

  3. 1.初始Hadoop大数据技术

    1.1 大数据技术概要 1.1.1 大数据产生的背景 2001年后,互联网迅速发展,数据量成倍递增.进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生 ...

  4. Hadoop大数据技术栈详解

    一.大数据概述 1.大数据简介 大数据(Big Data)∶指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  5. hadoop 单机单间_零基础入门hadoop大数据四——Hadoop框架前奏,JDK环境配置

    ~~~~~~~~~一天更新两篇~~~~~~ 一.本章节完成的内容 1.使用secureCRT工具连接linux主机(配置非常方便,方便粘贴) 2.上传安装包到linux上(用filezilla) 3. ...

  6. 大数据技术之Hadoop(十一)——网站流量日志数据分析系统

    目录 素材: 一.模块开发--数据预处理 1.分析预处理的数据 2.实现数据的预处理 (1)创建Maven项目,添加相关依赖 (2)创建JavaBean对象,封装日志记录 (3)创建MapReduce ...

  7. 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】

    视频地址:尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01[大数据概论] 尚硅谷大数据技术Hadoop教程-笔记02[Hadoop-入 ...

  8. Hadoop大数据零基础高端实战培训

    Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标) 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:330课时 用到技术:部署Hadoop集群 涉及项目:京东商城 ...

  9. 数据蒋堂 | 大数据技术的4个E

    作者:蒋步星 来源:数据蒋堂 本文共1100字,建议阅读8分钟. 本文将大数据特点总结成4个E,可作为选择大数据技术解决方案的参考. 大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征.现 ...

  10. 基于大数据技术的手机用户画像与征信研究

    内容提要:手机用户画像是电信运营商实现"数据驱动业务与运营"的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通 ...

最新文章

  1. Spring Security 进阶干货:自定义配置类入口WebSecurityConfigurerAdapter
  2. 菜鸟学自动化测试(四)----selenium 命令之验证页面元素
  3. Qt Creator在设计模式下编辑3D资产
  4. 正则表达式--密码复杂度验证--必须包含大写、小写、数字、特殊字符中的至少三项
  5. 在Tomcat下http协议转https协议
  6. LI标签在Ul中居中显示
  7. Sentinel(二十四)之Sentinel Dashboard中修改规则同步到ZooKeeper
  8. lnmp修改mysql上传大小限制_安装Linux+Nginx+MySQL+PHP(LNMP)集成环境,解除上传文件大小限制...
  9. 吴恩达深度学习 ——4.4 为什么使用深层表示
  10. 广西谋建面向东盟金融开放门户
  11. 2019-07-22
  12. c语言编程工程师基础,c语言工程师的工作是什么
  13. 2017《面向对象程序设计》课程作业五
  14. 51单片机如何跳出wile循环_基于proteus的51单片机开发实例(1)
  15. 修复Linux系统内核TCP漏洞,Linux 内核中TCP SACK机制远程Dos漏洞处理方法(CVE-2019-11477) | 聂扬帆博客...
  16. 【转载】SAP Smartform A5 针式打印机 打印格式横向问题
  17. Java PDF生成方案介绍及问题汇总
  18. CSU 2166: 卖萌表情(2018湖南省赛)
  19. RN-Flex Box---基础
  20. vs添加监视快捷键_询问操作方法:监视Android移动设备使用情况,Windows键盘快捷键和修复损坏的照片...

热门文章

  1. Google Earth Engine(GEE)——哨兵数据中隐藏的秘密(卫星影像拍到的如来神掌)
  2. 听完了61课的IT播吧,这是我整理的学习笔记。
  3. 机器人机构学的数学基础——绪论
  4. 老弟教你用CSS和JS实现曾经风靡一时的微信打飞机游戏
  5. 数据库 表设计案例+经验 [vaynexiao]
  6. 天空机器人 联动存档_Wood R4 V1.38内核下载,自选存档大小,修正天空机器人美版等反烧录...
  7. Win32 Console Application、Win32 Application、MFC三者之间的联系和区别
  8. 学生成绩管理系统——JAVA
  9. 新版淘宝宽屏轮播代码带缩略图
  10. 免费网站监控服务器,服务Web应用!10款免费服务器监控软件