大数据技术介绍:01大数据概述
大数据技术框架:

Hadoop生态系统(1)

Hadoop生态系统(2)

Hadoop构成:Flume(非结构化数据收集):
Cloudera开源的日志收集系统
用于非结构化数据收集
Flume特点
分布式
高可靠性
高容错性
易于定制与扩展

日志收集工具:flume

Hadoop构成:Sqoop(结构化数据收集)


Sqoop:SQL-to-Hadoop
连接传统关系型数据库和Hadoop 的桥梁
把关系型数据库的数据导入到Hadoop 系统( 如HDFS,HBase 和Hive) 中;
把数据从Hadoop 系统里抽取并导出到关系型数据库里。
利用MapReduce加快数据传输速度
批处理方式进行数据传输

Hadoop构成:HDFS(分布式文件系统)
源自于Google的GFS论文,发表于2003年10月
HDFS是GFS克隆版

HDFS特点:
良好的扩展性。
高容错性。
适合PB级以上海量数据的存储。

基本原理:
将文件切分成等大的数据块,存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将HDFS看成一个容量巨大、具有高容错性的磁盘

应用场景:
海量数据的可靠性存储
数据归档

Hadoop构成:YARN(资源管理系统)
YARN是什么
Hadoop 2.0新增系统
负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
YARN的特点
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种多用户调度器,适合共享集群环境

如下图:图1,图2

Hadoop构成:MapReduce(分布式计算框架)
源自于Google的MapReduce论文
发表于2004年12月
Hadoop MapReduce是Google MapReduce克隆版
MapReduce特点
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理

Hadoop构成:Hive(基于MR的数据仓库)
由facebook开源,最初用于解决海量结构化的日志数据统计问题;
ETL(Extraction-Transformation-Loading)工具
构建在Hadoop之上的数据仓库;
数据计算使用MR,数据存储使用HDFS
Hive 定义了一种类SQL 查询语言——HQL;
类似SQL,但不完全相同
通常用于进行离线数据处理(采用MapReduce);
可认为是一个HQL <—>MR的语言翻译器。
日志分析
统计网站一个时间段内的pv、uv
多维度数据分析
大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等
其他场景
海量结构化数据离线分析
低成本进行数据分析(不直接编写MR)

Spark生态系统:
spark主要是面向计算的生态系统,而hadoop则是涉及数据收集、存储、
资源管理和计算等的综合大数据解决方案。

Flink生态系统:

典型企业级大数据架构:

Hadoop发行版介绍(开源版)
Apache Hadoop
推荐使用最新的2.x.x版本,比如2.7.3
下载地址:http://hadoop.apache.org/releases.html
SVN:http://svn.apache.org/repos/asf/hadoop/common/branches/

CDH(Cloudera Distributed Hadoop)
推荐使用最新的CDH5版本,比如CDH5.8.0
下载地址: http://archive.cloudera.com/cdh5/cdh/

HDP(Hortonworks Data Platform
推荐使用最新的HDP 2.x版本,比如HDP 2.6版本
下载地址:http://zh.hortonworks.com/hdp/downloads/

Hadoop版本选择
不同发行版兼容性
架构、部署和使用方法一致,不同之处仅在若干内部实现。
建议选择公司发行版,比如CDH或HDP
类比原生linux与Ubuntu/Red Hat关系
更易维护和升级
经过集成测试,不会面临版本兼容问题

Hadoop集群搭建
全人工搭建
自动化安装软件:Cloudera Manager,Ambari

Hadoop发行版CDH:如下图:

Hadoop发行版HDP:如下图

Hadoop全人工模式安装:常见错误
1.防火墙未关闭(所有节点都要关系)
Connection Refused…
2.配置文件抄错
core-site.xml
yarn-site.xml
hdfs-site.xml
以及mapredsite.xml

3.多次格式化HDFS
每次格式化后,均会导致HDFS启动失败,
解决方案:清空HDFS的各个数据目录,然后重启HDFS
格式化HDFS是非常危险的,会导致所有数据丢失!!!

Hadoop运行模式
本地模式:
一个节点,不会启动任何服务
伪分布式模式:
一个节点,所有服务均运行在该节点上
分布式模式:
多于一个节点

自动化安装:Ambari,如下图

自动化安装:Cloudera Manager
Coudera提供的Hadoop管理系统
软件免费,但代码不开源
迄今为止最好用的Hadoop管理系统
Hadoop自动化安装、部署和配置
Hadoop管理(一站式管理各种服务)
Hadoop监控与报警
Hadoop问题诊断

自动化安装:Cloudera Manager(主界面),如下图:

自动化安装:Cloudera Manager(节点管理),如下图:

自动化安装:Cloudera Manager(配置管理),如下图:

自动化安装:Cloudera Manager(搭建集群),如下图:

自动化安装:Cloudera Manager(审计),如下图:

学习大数据技术栈:
Linux虚拟机
Linux教程
http://www.92csz.com/study/linux/

集成开发环境:
Eclipse,intellij IDEA

【项目构建(包管理、编译、发布),maven】
maven教程:
https://yq.aliyun.com/articles/28591
http://www.yiibai.com/maven/
http://wenku.baidu.com/link?url=cceOGhtpf7xHs_KFbI2f_uh0B7uo915pSZhqbO2ymD2ouJ7qhcOZmlc1W9xB6VxHnqu9VPD_M9HloZ_Pt-wuL3uTJ6cfKCxuJm0Z_FSxCm

【Hadoop与Spark版本】
Scala 2.11.X(不能是2.10或2.12),Java 1.8

Hadoop 2.7.3
http://hadoop.apache.org/releases.html

Hive 2.1.1
http://hive.apache.org/downloads.html

Hbase 1.2.4
http://www.apache.org/dyn/closer.cgi/hbase/

Flume 1.7.0
http://flume.apache.org/download.html

Sqoop1.99.7
http://mirror.cc.columbia.edu/pub/software/apache/sqoop/1.99.7/sqoop-1.99.7-binhadoop200.tar.gz

Presto 0.166
https://prestodb.io/docs/current/installation/deployment.html

Spark 2.1.0
http://spark.apache.org/downloads.html

Kafka 0.9.0
http://kafka.apache.org/downloads

Zookeeper 3.4.9
http://zookeeper.apache.org/releases.html#download

====================================
【End:2019-02-02 10:21】

大数据技术介绍:01大数据概述相关推荐

  1. mongodb 导出指定数据库文件大小_大数据技术之将mongodb 数据指定字段导出,然后指定字段导入mysql 实例 及相关问题解决...

    本篇文章探讨了大数据技术之将mongodb 数据指定字段导出,然后指定字段导入mysql 实例 及相关问题解决,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入. 需求:将mongo ...

  2. 大数据技术怎么自学?大数据开发如何自学?

    大数据技术怎么自学?大数据开发如何自学? 我们在学习大数据开发前需要先找到适合自己的方式方法,首先需要审视一下自身的情况,是否是以兴趣为出发点,对大数据是不是自己是真的感兴趣吗,目前对大数据的了解有多 ...

  3. 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

    大数据技术之_20_Elasticsearch学习_01 一 概述 1.1 什么是搜索? 1.2 如果用数据库做搜索会怎么样? 1.3 什么是全文检索和 Lucene? 1.4 什么是 Elastic ...

  4. 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作...

    一 概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 ...

  5. 关于大数据技术的演讲_大数据核心技术介绍:大数据处理技术

    大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求.那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数 ...

  6. 大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度

    大数据技术之_17_Storm学习 一 Storm 概述 1.1 离线计算是什么? 1.2 流式计算是什么? 1.3 Storm 是什么? 1.4 Storm 与 Hadoop 的区别 1.5 Sto ...

  7. 大表与大表join数据倾斜_技术分享|大数据技术初探之Spark数据倾斜调优

    侯亚南 数据技术处 支宸啸 数据技术处 在大数据计算中,我们可能会遇到一个很棘手的问题--数据倾斜,此时spark任务的性能会比预期要差很多:绝大多数task都很快执行完成,但个别task执行极慢或者 ...

  8. 大数据计算的6大关键技术与4大应用场景探索!

    | 转载自:DataFun | 编辑:钱英宇 | 设计:张千禧 大数据和AI的能力在企业应用中发挥着越来越重要的价值,企业在提升数字化转型带来的数字到知识萃取助力于业务的同时,面对海量数据的增长,离不 ...

  9. 数据可视化系列-01大数据可视化基础

    文章目录 1.概述 2.大数据可视化基础 2.1 数据可视化基础知识 1.数据可视化简史: 2.数据可视化是什么: 3.数据可视化的分类: 4.数据可视化流程: 5.数据可视化的意义: 2.2 认识B ...

最新文章

  1. 文本框字符串长度实时统计jQuery插件,兼容IE6+
  2. 如何探测浏览器是否开启js功能
  3. java md5加密32位小写_Java生成MD5的方法,简单封装并转为32位小写
  4. VC获取父进程PID
  5. 使用ImpromptuInterface反射方便的创建自定义DfaGraphWriter
  6. java mapstring_ object 遍历_ListMapString,Object使用Java代码遍历以获取String,Object的值...
  7. vue绑定自定义属性(属性值:false),DOM不显示问题
  8. C#LeetCode刷题之#202-快乐数(Happy Number)
  9. LVS--NAT模型
  10. java连接远程带有密码的mongodb数据库
  11. java导出excel 图片_请教java导出多张图片到Excel问题!
  12. c语言中char与static
  13. 07-android-基站定位
  14. 本题要求编写程序,先将输入的一系列整数中的最小值与第一个数交换,然后将最大值与最后一个数交换,最后输出交换后的序列
  15. FireFox下无法打开12306的用户登陆界面
  16. JavaScript事件解析
  17. 智慧消防物联网落地案例(云南、福建、陕西) java 物联网智慧消防
  18. 网站经常出现502错误怎么办
  19. 证书透明度(Certificate Transparency)
  20. 通向架构师的道路(第九天)之weblogic的集群与配置

热门文章

  1. ChatGPT聊天app(基于autojs)
  2. 服务器未能启动w3svc,win10,iis10无法启动,w3svc服务无法启动
  3. [CDQ分治与整体二分]个人对CDQ分治与整体二分的理解
  4. modprobe命令介绍
  5. 通过拼音模糊搜索汉字的功能实现
  6. 路径衰耗和阴影衰落及其相关的模型
  7. python在Scikit-learn中用决策树和随机森林预测NBA获胜者
  8. linux下rename用法--批量重命名
  9. Advances in Financial Machine Learning 导言 (附pdf下载链接)
  10. java中getchars是什么意思_java中的getChars()方法