多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
**17、聊聊MapReduce** 离线计算框架,过程分为split map shuffle reduce四个过程 架构节点有:Jobtracker TaskTracker Split将文件分割,传输到mapper,mapper接收KV形式的数据,经过处理,再传到shuffle过程。 Shuffle先进行HashPartition或者自定义的partition,会有数据倾斜和reduce的负载均衡问题;再进行排序,默认按字典排序; 为减少mapper输出数据,再根据key进行合并,相同key的数据value会被合并; 最后分组形成(key,value{})形式的数据,输出到下一阶段,Reduce输入的数据就变成了,key+迭代器形式的数据,再进行处理。