特征工程
DTB算法调优
简单介绍DTB算法各个参数对模型的性能影响。配置文件默认目录是“$KAL_TEST/conf/ml/dtb”,“$KAL_TEST/conf/”是kal-test测试工具部署路径。
参数 |
说明 |
建议 |
---|---|---|
numPartitions |
Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。 |
在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。 |
Word2Vec算法调优
简单介绍Word2Vec算法各个参数对模型的性能影响。配置文件默认目录是“$KAL_TEST/conf/ml/word2vec”,“$KAL_TEST/conf/”是kal-test测试工具部署路径。
参数 |
说明 |
建议 |
---|---|---|
numPartitions |
Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。 |
在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。 |
父主题: 算法参数调优