大数据入门简介（一）

首先我们先想想为什么会大数据，或者说它能干什么？

与常规数据比较，大数据体现在什么地方？大数据大数据，关键是什么，大！！！就是这么浅显，大，什么大，数据大呗。下面我们就围绕这个大好好谈谈这个大数据。

一、概念（三无、俩海）

1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合（三无）。

2、大数据主要解决（俩海）：海量的数据存储和海量的数据计算问题。

二、特性（四V俩固）

四大特性(4V)：

Volume：大数据量。大多是过去俩年产生的数据

Velocity：速度快。数据增长速度快，时效性比较高

Variety：多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。

Value：价值密度低。需要深入挖掘数据信息。

固有特性：

时效性

不可变性

三、Hadoop

1、介绍

Hadoop是一个开源的分布式系统架构。

我们可以看看他的发展及版本。

（1）、Hadoop起源于搜索引擎Apache Nutch

创始人：Doug Cutting

2004年：最初版本

2008年：成为Apache顶级项目

（2）、Hadoop发行的版本

社区版：Apache Hadoop版本。开源，免费，你懂的，国内大多数公司都在用。

Cloudera发行版：CDH。这个现在好像需要money了，不过适合小公司使用，兼容性高。

Hortonworks发行版：HDP。这个就不多介绍了，感兴趣的可以查查。

（3）、那为什么我们要使用Hadoop呢？（三高+三优）

首先我们先说说三高吧：

高扩展性：在集群件分配任务数据，可方便的扩展数以千计的节点。

高可靠性：Hadoop底层维护了多个数据副本。

高容错性：Hadoop阔加能够自动将失败的任务重新分配。

听了这三高是不是就已经觉得他已经很牛了？别急，还有呢。。。

我们再说说它的三个优吧：

低成本：Hadoop架构可以允许部署在不同机器上，哪怕你这个机器再垃圾都可以噢，老省钱了。

灵活：Hadoop可以存储在任意类型的数据。

开源：它是开放式的，社区活跃，有很多大神再社区活动，你们懂的，还不赶紧抱大腿，嘿嘿嘿。。。

（4）、Hadoop和RDBMs数据库对比

我们既然说到了数据库，不妨把俩者做个比较吧。

为了大家能够清晰的明白它们之间的不同和优异，我给它做了个表格(在此声明，绝对不是我懒，主要是最近一直敲字，快吐了。。。。)

	Hadoop	RDBMS
格式	读数据时要求	写数据时要求
速度	写数据速度快	读数据速度快
数据监管	任意的数据结构	标准结构化
数据处理	处理能力绝对牛	处理能力有限
数据类型	结构化、半结构化、非结构化	只能是结构化数据
应用场景	OLAP 处理非结构化数据海量的数据存储计算	交互式OLTP ACID事务处理企务系统

在这里可以额外提一个知识点：OLAP和OLTP

OLTP(On-line Transaction Processing)：联机事务处理。一般针对具体的业务在数据库中的操作。

OLAP(On-line Analytical Processing)：联机分析处理。一般针对某些主题的历史数据进行处理，支持管理类型的决策。

概览类型的估计大家也不想看，那咱们就是上图，简单明了，将俩者进行一个对比。

2、功能

解决海量数据存储、海量数据计算的问题。

3、优势

1、处理海量数据的架构首选。

2、非常快的完成大数据的计算任务。

3、至今为止，这种架构已经发展成一种Hadoop生态圈。

如下图所示：

针对这个庞大的Hadoop架构，咱们可以先来简单的看看他们。

乍一看这么多，龟龟，其实，咱们主要可以先看看这几个最重要的。

下面给大家一一列举：

HDFS：分布式文件系统。解决分布式存储。

MapReduce：分布式计算框架。

对这个庞大的Hadoop架构，咱们可以先来简单的看看他们。

乍一看这么多，龟龟，其实，咱们主要可以先看看这几个最重要的。

下面给大家一一列举：

HDFS：分布式文件系统。解决分布式存储。

MapReduce：分布式计算框架。

YARN：分布式资源管理系统，直白的说，也可以说式集群资源管理系统。