第七章 MapReduce · Hadoop

MapReduce概述：参考文献：https://blog.csdn.net/markcheney/article/details/53998796 前言： MapReduce是一个高性能的批处理分布式计算框架，用于对海量数据进行并行分析和处理。与传统方法相比较，MapReduce更倾向于蛮力去解决问题，通过简单、粗暴、有效的方式去处理海量的数据。通过对数据的输入、拆分与组合（核心），将任务分配到多个节点服务器上，进行分布式计算，这样可以有效地提高数据管理的安全性，同时也能够很好地范围被管理的数据。 mapreduce概念+实例 ![](https://box.kancloud.cn/9f108208b93a5e84cc9b47c5cf5e1abb_735x301.jpg) mapreduce核心就是map+shuffle+reducer，首先通过读取文件，进行分片，通过map获取文件的key-value映射关系，用作reducer的输入，在作为reducer输入之前，要先对map的key进行一个shuffle，也就是排个序，然后将排完序的key-value作为reducer的输入进行reduce操作，当然一个mapreduce任务可以不要有reduce，只用一个map，接下来就来讲解一个mapreduce界的“hello world”。