文档评分

获取效率

正确性

完整性

易理解

在线提单

论坛求助

特征工程

PCA算法调优

简单介绍PCA算法各个参数对模型的性能影响。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

SVD算法调优

简单介绍SVD算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

Covariance算法调优

简单介绍Covariance算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

Pearson算法调优

简单介绍Pearson算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

Spearman算法调优

简单介绍Spearman算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

DTB算法调优

简单介绍DTB算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

Word2Vec算法调优

简单介绍Word2Vec算法各个参数对模型的性能影响

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

父主题： 算法参数调优