ThinkChat🤖让你学习和工作更高效,注册即送10W Token,即刻开启你的AI之旅 广告
![](https://img.kancloud.cn/dc/fd/dcfd0270f369f487a66f56acd56e0b53_195x99.png) MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过Shuffle来获取数据。 从Map输出到Reduce输入的整个过程可以广义地称为Shuffle copy:Reduce开始之前把对应的数据从每个map输出的中间结果中拷贝过来, Sort:拷贝中间结果过来之后,会经过合并、排序等操作最终会产生一个排序的输入文件, Copy和sort两个过程合起来一般也称为shuffle过程。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduce端包括copy和sort过程。 ![](https://img.kancloud.cn/95/4a/954a577a9773b3b9d0e163e553f1012c_529x441.png)