鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

聚类

DBSCAN算法调优

简单介绍DBSCAN算法各个参数对模型的性能影响。配置文件默认目录是“$KAL_TEST/conf/ml/dbscan”“$KAL_TEST/conf/”是kal-test测试工具部署路径。

参数

说明

建议

numPartitions

Spark分区数量。

numPartitions建议与executor的个数保持一致(可适当减少executor个数,增大单个executor资源配置,实测有性能收益)。

epsilon

DBSCAN算法的近邻距离参数。

取值范围大于0.0。

minPoints

DBSCAN算法定义核心点的近邻点个数阈值参数。

正整数。

sampleRate

sampleRate为对输入数据的采样率,基于采样数据用来对全量输入数据进行空间划分。

取值范围为(0.0, 1.0],缺省值为1.0,代表默认使用全量输入数据。