客户端配置
客户端的参数配置主要在spark-defaults.conf中,具体的路径为“/usr/hdp/current/spark2-client/conf”。
参数名 |
推荐值 |
修改原因 |
---|---|---|
spark.shuffle.compress |
True |
设置Shuffle过程中对Shuffle数据进行压缩,以此来减少网络IO。 |
spark.rdd.compress |
True |
减小RDD过程中Cache数据的尺寸。 |
spark.io.compression.codec |
Snappy |
RDD、Shuffle输出等内部数据的编码解码器,Snappy在速度上较快且内存/CPU占用小。 |
spark.shuffle.spill.compress |
True |
中间结果在spill到本地硬盘时都会进行压缩,节省耗时。 |
spark.locality.wait |
10s |
数据本地化,减少网络传输。 |
父主题: Spark2x优化