MapReduce概述、优缺点及其典型应用场景

1.概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。Apache对其做了开源实现，整合在hadoop中实现通用分布式数据计算。MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。大大简化了分布式并发处理程序的开发。

2.优缺点

1）MapReduce 易于编程
如果要编写分布式程序，只需实现一些简单接口，与编写普通程序类似，避免了复杂过程。这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。

2）良好的扩展性
当计算资源不能得到满足的时候，可以通过简单的增加机器来扩展它的计算能力。

3）高容错性
MapReduce设计的初衷就是使程序能够部署在廉价的 PC 机器上，廉价的 PC 机器坏的概率相对较高，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。

4）适合 PB 级以上海量数据的离线处理
这里的“离线”可以理解为存在本地，非实时处理，离线计算往往需要一段时间，比如几分钟或几个小时。可以实现上干台服务器集群并发工作，提供数据处理能力。

1）不擅长实时计算
MapReduce 不适合在毫秒或者秒级内返回结果。

2）不擅长流式计算
流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。

3）不擅长 DAG（有向图）计算
多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下。