企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## spark中groupByKey 、aggregateByKey、reduceByKey 有什么区别? (1)groupByKey()是对RDD中的所有数据做shuffle,根据不同的Key映射到不同的partition中再进行aggregate。 (2)aggregateByKey()是先对每个partition中的数据根据不同的Key进行aggregate,然后将结果进行shuffle,完成各个partition之间的aggregate。因此,和groupByKey()相比,运算量小了很多。 (3) distinct()也是对RDD中的所有数据做shuffle进行aggregate后再去重。 (4)reduceByKey()也是先在单台机器中计算,再将结果进行shuffle,减小运算量