大数据概况以及Hadoop生态系统

一，什么是大数据？

大数据是一个描述大量高速，复杂和可变数据的术语，需要先进的技术来实现信息的捕获，存储，分发，管理和分析。大数据包含四个特性(4v)，体量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Variety)。

体量(Volume)：数据每天源源不断地从不同的数据源产出，比如社交平台、用户日志、运营商日志等数据。
速度(Velocity)：数据生成，分析，移动的速度。
多样性(Variety)：数据来自于不同的数据源的多种格式，通过组合的方式让数据形成有意义的输出。
真实性(Variety)：真实性定义了数据的输入和输出正确性，数据的输入保证数据尽可能的完整，也可以是一个可接受的误差精度的输入，数据输出，通过对数据进行加工处理，分析得到的高精度的估算结果，而非100%正确的值。

二、什么是Hadoop？

Apache Hadoop 是一个可靠的，可伸缩的，开源的分布式计算软件。
Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。
它被设计成从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。
本身的设计目的是在应用层检测和处理故障，而不是依赖硬件来提供高可用性，因此在计算机集群之上提供高可用性服务。

三、OLAP和OLTP的区别

联机分析处理 OLAP(On-LineAnalytical Processing)：是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。
联机事务处理 OLTP(（on-line transaction processing)：P是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。

四、Hadoop Architecture(hadoop架构)

Hadoop Common: (Hadoop公共框架)：

Common Utilities that supports all other modules. (支持所有其他模块的Common Utilities)

Hadoop Distributed File System (HDFS):

File system that spans all the nodes in a Hadoop cluster for data storage. – Links the file systems on local nodes to make them into one big file system. (跨越Hadoop集群中所有节点以进行数据存储的文件系统,链接本地节点上的文件系统，使它们成为一个大文件系统)

Hadoop MapReduce:

Core computing framework available since Hadoop 1.x (自Hadoop 1.x以来可用的核心计算框架)
1.x版本的mapreudce需要负责处理业务逻辑，还要负责资源管理和任务调度

Hadoop YARN: (资源管理器)：

New distributed processing framework on Hadoop 2.x. (Hadoop 2.x上的新分布式处理框架)
Addresses multiple limitations of MR 1.0 (解决了MR 1.0的多种限制)
2.x资源管理和任务调度由YARN来管理
hadoop2.x版本出现了新的应用模型Tez

Hadoop Ecosystem: (hadoop生态圈)：

Open-source Apache projects (开源的Apache项目集合)

纠错码技术

纠删码技术（Erasure coding）简称EC，是一种编码容错技术。最早用于通信行业，数据传输中的数据恢复。它通过对数据进行分块，然后计算出校验数据，使得各个部分的数据产生关联性。当一部分数据块丢失时，可以通过剩余R的数据块和校验块计算出丢失的数据块。

五、HDFS

NameNode (NN)

Manages the File System's namespace/meta-data/file blocks (管理文件系统命名空间/元数据/文件块)
Runs on 1 machine to several machines (在一台机器上运行到几台机器)

Secondary NameNode (SNN)（了解）

Performs house keeping work so NameNode doesn’t (执行备份工作，因此NameNode不会)
Requires similar hardware as NameNode machine (需要与NameNode机器类似的硬件)
Not used for high-availability – not a backup for NameNode (不用于高可用性 - 不是NameNode的备份)

DataNode (DN)

Stores and retrieves data blocks (存储和处理数据)
Reports to NameNode (报告给NameNode)
Runs on many machines (在许多机器上运行)

六、HDFS组件（Hadoop (HDFS) Components 组件）

Client

User/App interface to interact with cluster, DN (用户/应用程序界面与群集，DN进行交互)

Namespace

Files/Directories - Same to the regular file systems split into blocks (文件/目录 - 与拆分为块的常规文件系统相同)

Blocks

Default: 64M (v1); 128M (v2)
Blocks meta data kept in NN – Small files issue (阻止在NN中保存的元数据 - 小文件问题)

Block Storage:

Replications
- Default 3 and rebalanced for new added nodes (默认值为3，并为新添加的节点重新平衡)
- 1st replica on the local. 2nd on the local but different node. 3rd on the different rack(当地的第一个复制品。在本地但不同的节点上排名第二。第三个在不同的机架上)

七、Hadoop High Availability 高可用性

HDFS联合通过在多个分隔的NameNode上对文件系统命名空间进行分区。

Active and Standby NNs share the storage for edit logs; (共享存储以进行编辑日志）

大数据概况以及Hadoop生态系统相关推荐

大数据概况及Hadoop生态系统总结
觉得有帮助的,请多多支持博主,点赞关注哦~ 文章目录大数据概况及Hadoop生态系统 1.大数据概念理解 1.1.什么是大数据? 1.2.大数据特征(4V)? 1.3.大数据应用场景? 1.4.大数 ...
大数据入门（Hadoop生态系统）
Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门学习,介绍其中分布式文件系统HDFS.分布式资源调度YARN.分布式计算框架MapRe ...
ASP.NET + SqlSever 大数据解决方案 PK HADOOP
ASP.NET + SqlSever 大数据解决方案 PK HADOOP 参考文章: (1)ASP.NET + SqlSever 大数据解决方案 PK HADOOP (2)https://www.cn ...
《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...
1.2 大数据科学以及Hadoop和Spark在其中承担的角色数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...
hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop
点击蓝字关注我 1 什么是大数据 1.Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2.主要解决,海量数据的存储和海量数据的分析计算问题. 3.广义上来说,HADOOP通常是指一个 ...
大数据第一季--Hadoop（day5)-徐培成-专题视频课程
大数据第一季--Hadoop(day5)-1777人已学习课程介绍大数据第一季--Hadoop(day5) 课程收益大数据第一季--Hadoop(day5) 讲师介绍 ...
大数据技术之Hadoop（MapReduce）
大数据技术之Hadoop(MapReduce) (作者:大数据研发部) 版本:V1.4 第1章MapReduce入门 map 计算 reduce 规约 1.1 MapReduce定义 Mapreduc ...
大数据_07 【hadoop HDFS的shell命令操作】
大数据_07 [hadoop HDFS的shell命令操作] 01 基本语法 02 常用普通命令实操 03 HDFS常用高级命令 04 HDFS适用场景 05 HDFS不适用场景 06 hdfs的安全 ...
大数据基础之Hadoop（三）—— MapReduce
作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 本篇文章源码参看:https://github.com/duktig666/b ...