数据倾斜原因 · Hadoop2.x

数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节点的 reduce 阶段任务执行完成，但是这种节点的数据处理任务还没有执行完成。 单一 reduce 的记录数与平均记录数差异过大，通常可能达到 3 倍甚至更多，最长时长远大于平均时长。 当我们在执行 HiveQL或者运行 MapReduce 作业时候，如果遇到一直卡在 map100%, reduce99% 一般就是遇到了数据倾斜的问题。 在 hive 中产生数据倾斜的原因： * key 分布不均匀； * 业务数据本身的特性； * 建表时考虑不周； * 某些 SQL 语句本身就有数据倾斜；