算法参数调优
参数 |
说明 |
建议 |
---|---|---|
numPartitions |
Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。 |
在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。 |
LPA算法调优
配置文件默认目录是“$KAL_TEST/conf/graph/lpa”,$KAL_TEST/conf/是kal-test测试工具部署路径。简单介绍LPA算法Spark作业参数对性能的影响。
参数 |
说明 |
建议 |
---|---|---|
numPartitions |
Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。 |
在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。 |
spark.boostkit.graph.lpa.convergence |
使用LPA算法内置runConvergence分支,该分支在震荡图模型上可保证收敛,用户可以通过Spark参数的传入进行调用。设置为true时,算法将会调用到该分支。默认值为false,按参数maxSteps进行迭代。 |
- |
Betweenness算法调优
$KAL_TEST/conf/graph/betweenness
简单介绍Betweenness算法Spark作业参数对性能的影响。
参数 |
说明 |
建议 |
---|---|---|
spark.boostkit.graph.betweenness.partnum |
任务执行时的分区数。 |
建议为计算节点总核数的3到12倍。 |
spark.boostkit.graph.betweenness.threadnum |
任务执行时,每个分区内部的线程数。 |
建议值为2。 |