多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
**1. 为什么需要Shuffle** 因为需要将具有某种共同特征的一类数据汇聚到一个节点上进行计算。 <br/> **2. 什么是Shuffle** 与 MapReduce 的 Shuffle 类似,即在分区之间重新分配数据,将数据打乱重新汇聚到不同节点的过程。 <br/> map、flatMap等窄依赖算子不需要在分区之间,或节点之间进行数据传输,所以没有产生Shuffle过程;而向reduceByKey这样的宽依赖算子,需要将所有相同的key进行聚合,所以是需要在各个分区,或节点之间传输数据的,所以会产生Shuffle过程。