🔥码云GVP开源项目 12k star Uniapp+ElementUI 功能强大 支持多语言、二开方便! 广告
数据量小的时候无所谓,数据量大的情况下,由于count distinct操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成. 一般count distinct使用先group by再count的方式替换: 原本sql ~~~ select count(distinct id) from bigtable; ~~~ 采用group by 去重id ~~~ select count(id) from (select id from bigtable group by id) a; ~~~ 虽然时间变长,但是reduce节点负载差不多了