鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

Bayesian–CPU密集型

目的

Bayesian是CPU密集型场景,可以对IO参数和spark执行参数进行调整。

方法

  • 该场景可以使用以下分片设置:
    1
    2
    spark.sql.shuffle.partitions 1000
    spark.default.parallelism 2500
    
  • 打开HiBench工具的“conf/spark.conf”文件,增加以下Executor参数:
    1
    2
    3
    4
    yarn.executor.num 9
    yarn.executor.cores 25
    spark.executor.memory 73G
    spark.driver.memory 36G
    
  • 该场景使用以下内核参数:
    1
    2
    3
    4
    5
    6
    echo mq-deadline > /sys/block/sd$i/queue/scheduler
    echo 0 > /sys/module/scsi_mod/parameters/use_blk_mq
    echo 50 > /proc/sys/vm/dirty_background_ratio
    echo 80 > /proc/sys/vm/dirty_ratio
    echo 500 > /proc/sys/vm/dirty_expire_centisecs
    echo 100 > /proc/sys/vm/dirty_writeback_centisecs
    
  • 调整JDK参数,以下配置添加到spark.conf文件中:
    1
    spark.executor.extraJavaOptions -XX:+UseNUMA -Xms60g -Xmn25g -XX:+UseParallelOldGC -XX:ParallelGCThreads=24 -XX:+AlwaysPreTouch -XX:-UseAdaptiveSizePolicy