企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## spark的性能优化 ### (1)参数优化   1、计算资源的优化:调整--executor-memory和--executor-cores的大小;core表示executor同时计算的task数,memory表示执行的内存,这两个参数过大过小都不合适,内存调大会出现内存瓶颈,内存过小会出现作业失败;core太小导致并行计算度小,计算慢,太大会引起磁盘IO瓶颈。   2、并行度优化:并行度增大,数据能分配到更多的分区,减少数据倾斜,默认值为200,可以设置spark.sql.shuffle.partitions值来设置并行度。   3、大小表join:对于两表join,若一张表是另外一张表的2个数量级倍数大,可以考虑将小表broadcast到每一个executor,来达到降低网络传输开销优化目标;进而完全规避掉shuffle类的操作,彻底避免数据倾斜。