聚类
DBSCAN算法调优
简单介绍DBSCAN算法各个参数对模型的性能影响。配置文件默认目录是“$KAL_TEST/conf/ml/dbscan”,“$KAL_TEST/conf/”是kal-test测试工具部署路径。
参数 |
说明 |
建议 |
---|---|---|
numPartitions |
Spark分区数量。 |
numPartitions建议与executor的个数保持一致(可适当减少executor个数,增大单个executor资源配置,实测有性能收益)。 |
epsilon |
DBSCAN算法的近邻距离参数。 |
取值范围大于0.0。 |
minPoints |
DBSCAN算法定义核心点的近邻点个数阈值参数。 |
正整数。 |
sampleRate |
sampleRate为对输入数据的采样率,基于采样数据用来对全量输入数据进行空间划分。 |
取值范围为(0.0, 1.0],缺省值为1.0,代表默认使用全量输入数据。 |
父主题: 算法参数调优