（1）参数优化 · 要努力

## spark的性能优化 ### （1）参数优化　　1、计算资源的优化：调整--executor-memory和--executor-cores的大小；core表示executor同时计算的task数，memory表示执行的内存，这两个参数过大过小都不合适，内存调大会出现内存瓶颈，内存过小会出现作业失败；core太小导致并行计算度小，计算慢，太大会引起磁盘IO瓶颈。　　2、并行度优化：并行度增大，数据能分配到更多的分区，减少数据倾斜，默认值为200，可以设置spark.sql.shuffle.partitions值来设置并行度。　　3、大小表join：对于两表join，若一张表是另外一张表的2个数量级倍数大，可以考虑将小表broadcast到每一个executor，来达到降低网络传输开销优化目标；进而完全规避掉shuffle类的操作，彻底避免数据倾斜。