MapReduce优劣，理解MapReduce与Hadoop

MapReduce是一种计算模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce的优缺点：

优点：

1.易于编程；
2.良好的扩展性；
3.高容错性；
4.适合PB级别以上的大数据的分布式离线批处理。

尽管MapReduce极大的简化了大数据分析，但是随着大数据需求和使用模式的扩大，用户的需求也越来越多：
1 更复杂的多重处理需求（比如迭代计算, ML, Graph）；
2 低延迟的交互式查询需求（比如ad-hoc query）
而MapReduce计算模型的架构导致上述两类应用先天缓慢

缺点：

1.难以实时计算（MapReduce处理的是存储在本地磁盘上的离线数据）
2.不能流式计算（MapReduce设计处理的数据源是静态的）
3.难以DAG计算（有向无环图计算，由于多个任务存在依赖关系，后一个应用的输入是前一个应用的输出。解决这一问题的方式有Apache的Tez计算框架，它是基于hadoop Yarn之上的DAG计算框架，它将MapReduce任务分解为多个子任务同时可以把多个Map/ Reduce任务合并成一个大的DAG任务，这样当前一个任务完成之后，直接将结果输出给下一个任务，不用将结果写到磁盘之上，减少了Map/Reduce之间的文件存储。同时合理的组合其子过程，减少了任务的运行时间。）

MapReduce的代替产物：Spark

Spark弥补了MapReduce的不足，优势：
1.每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。
2.所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。
3.spark提供了更丰富的算子，让操作更方便。
4.更容易的API：支持Python，Scala和Java

MapReduce不会被完全替代

MapReduce是Hadoop1.0的核心，Spark出现慢慢替代Mapreduce。那么为什么Mapreduce还在被使用呢？因为有很多现有的应用还依赖于它，它不是一个独立的存在，已经成为其他生态不可替代的部分，比如pig，hive等。

Hadoop 、Hive、Mapreduce之间的关系

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。
Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

这个写的挺好的：教你理解MapReduce与Hadoop

Hive是Hadoop的一个组件，作为数据厂库，Hive的数据是存储在Hadoop的文件系统中的，Hive为Hadoop提供SQL语句，使Hadoop可以通过SQL语句操作文件系统中的数据。Hive是依赖Hadoop而存在的。