💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
数据倾斜其实是进行分布式计算的时候,<mark>某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的 reduce 阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成。</mark> <br/> 单一 reduce 的记录数与平均记录数差异过大,通常可能达到 3 倍甚至更多, 最长时长远大于平均时长。 <br/> 当我们在执行 HiveQL或者运行 MapReduce 作业时候,如果遇到一直卡在 map100%, reduce99% 一般就是遇到了数据倾斜的问题。 <br/> 在 hive 中产生数据倾斜的原因: * key 分布不均匀; * 业务数据本身的特性; * 建表时考虑不周; * 某些 SQL 语句本身就有数据倾斜;