EN
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

算法调优

一般情况下,图分析算法影响性能的参数主要是Spark分区数量(numPartitions),如果有比较特殊的算法,如LPA算法,请参见LPA算法调优

参数

说明

建议

numPartitions

Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。

在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。

LPA算法调优

简单介绍LPA算法Spark作业参数对性能的影响。

参数

说明

建议

numPartitions

Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。

在0.5~1.5倍的总核数

(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。

spark.sophon.graph.lpa.convergence

使用LPA算法内置runConvergence分支,该分支在震荡图模型上可保证收敛,用户可以通过spark参数的传入进行调用。设置为true时,算法将会调用到该分支。默认值为false,按参数maxSteps进行迭代

-