企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## (3)数据倾斜的可能   1、数据分区太少,导致个别分区数据过大,此时增加分区数即可解决;   2、某个Key特别多,增大分区也无效。   3、解决数据倾斜的方法    1)key对计算的结果不重要,直接过滤    2)broadcast小数据表,转reduce join为map join    3)对Key加前缀,打散key的分布,shuffle之后还原Key,再全局聚合。 ## (4)如何定位数据倾斜的代码   数据倾斜只会发生在shuffle过程中。列举一些常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时 ![](https://img.kancloud.cn/b6/0e/b60ef23cf9d849c5a9291dd7ac817647_452x273.png)