算法调优

一般情况下，图分析算法影响性能的参数主要是Spark分区数量（numPartitions），如果有比较特殊的算法，如LPA算法，请参见LPA算法调优。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

简单介绍LPA算法Spark作业参数对性能的影响。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。
spark.sophon.graph.lpa.convergence	使用LPA算法内置runConvergence分支，该分支在震荡图模型上可保证收敛，用户可以通过spark参数的传入进行调用。设置为true时，算法将会调用到该分支。默认值为false，按参数maxSteps进行迭代	-

参数

说明

建议

numPartitions

Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。

在0.5~1.5倍的总核数

（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

spark.sophon.graph.lpa.convergence

使用LPA算法内置runConvergence分支，该分支在震荡图模型上可保证收敛，用户可以通过spark参数的传入进行调用。设置为true时，算法将会调用到该分支。默认值为false，按参数maxSteps进行迭代

父主题： 算法性能调优指南