（2）代码优化 · 要努力

# 2）代码优化：　　### 1、RDD的优化：避免重复创建RDD即避免创建多个从文件读取而成的RDD，尽量复用RDD，对于多次使用的RDD需要cache；　　### 2、算子的优化： - 1）尽量使用shuffle算子　　　　a、能避免则尽量避免使用reduceByKey，join，distinct，repartition等会进行shuffle的算子　　　　b、Broadcast小数据与map数据join，避免shuffle - 2）使用高性能算子　　　　a、使用reduceByKey代替groupByKey（reduceByKey在map端聚合数据）　　　　b、使用mappartitions代替map（减少重复函数调用的计算开销）　　　　c、使用treeReduce代替reduce（treeReduce的计算更多在executor而不是driver） d、使用foreachPartitions代替foreach（原理同mapPartitions）　　　　e、使用filter之后使用coalesce操作（目的减少分区数，减少task启动开销）　　　　f、使用Broadcast广播变量