分类回归
SVM算法调优
简单介绍SVM算法各个参数对模型的性能影响。配置文件默认目录是“$KAL_TEST/conf/ml/svm”,“$KAL_TEST/conf/”是kal-test测试工具部署路径。
| 参数 | 说明 | 建议 | 
|---|---|---|
| numPartitions | Spark分区数量,分区越多意味着任务数太多,每次调度耗时会增加,分区太少,会导致一些节点没有分配到任务,并且会使每个分区处理的数据量增大,从而使每个agent节点内存提高。 | 在0.5~1.5倍的总核数(executor_cores与num_executor乘积)进行网格搜索,建议使用1倍总核数。 | 
| maxIter | 最大迭代次数,控制模型的收敛精度,设置太大,训练时间过长,并且容易使模型过拟合,造成精度下降,设置太小,模型未收敛到最优值,造成精度不高。 | 在50~150范围内进行搜参,建议使用缺省值100。对于features数量较少的数据集可适当减小迭代值。 | 
| inertiaCoefficient | 历史方向信息在动量计算中的权重,优化算法新增参数,正实数双精度类型,用于对精确度进行调优,通过spark.boostkit.LinearSVC.inertiaCoefficient参数设置。 | 缺省值为0.5。 | 
父主题: 算法参数调优