算法参数调优

一般情况下，图分析算法影响性能的参数主要是Spark分区数量（numPartitions），如果有比较特殊的算法，如LPA算法，请参见LPA算法调优。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

配置文件默认目录是“$KAL_TEST/conf/graph/lpa”，$KAL_TEST/conf/是kal-test测试工具部署路径。简单介绍LPA算法Spark作业参数对性能的影响。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。
spark.boostkit.graph.lpa.convergence	使用LPA算法内置runConvergence分支，该分支在震荡图模型上可保证收敛，用户可以通过Spark参数的传入进行调用。设置为true时，算法将会调用到该分支。默认值为false，按参数maxSteps进行迭代。	-

$KAL_TEST/conf/graph/betweenness

简单介绍Betweenness算法Spark作业参数对性能的影响。

参数	说明	建议
spark.boostkit.graph.betweenness.partnum	任务执行时的分区数。	建议为计算节点总核数的3到12倍。
spark.boostkit.graph.betweenness.threadnum	任务执行时，每个分区内部的线程数。	建议值为2。

父主题： 优化过程