PrefixSpan
PrefixSpan为MLlib API类模型接口。
模型接口类别 |
函数接口 |
---|---|
MLlib API |
def run[Item, Itemset <: Iterable[Item], Sequence <: Iterable[Itemset]](data: JavaRDD[Sequence]): PrefixSpanModel[Item] def run[Item](data: RDD[Array[Array[Item]]])(implicit arg0: ClassTag[Item]): PrefixSpanModel[Item] |
- 输入输出
- 包名:package org.apache.spark.mllib.fpm
- 类名:PrefixSpan
- 方法名:run
- 输入:JavaRDD[Sequence] / RDD[Array[Array[Item]]],全量的序列数据
- 基于原生算法优化的参数
MaxLocalProjDBSize //Prefix本地求解所允许的最大投影数据量 MaxPatternLength //频繁序列模式的最大长度 MinSupport //频繁序列模式的最小支持度
- 新增算法参数
参数名称
取值类型
描述
spark conf参数名
localTimeout
Int,缺省值为300,必须大于等于0。
本地求解的超时时间,单位是秒。
spark.boostkit.ml.ps.localTimeout
filterCandidates
Boolean,缺省值为false。
是否过滤prefix候选集。
spark.boostkit.ml.ps.filterCandidates
projDBStep
Double,缺省值为10。
进阶参数,通常保持缺省值即可;投影数据量的调整步调。
spark.boostkit.ml.ps.projDBStep
参数及run代码接口示例:
1 2 3 4 5
val prefixSpan = new PrefixSpan() .setMinSupport(params.minSupport) .setMaxPatternLength(params.maxPatternLength) .setMaxLocalProjDBSize(params.maxLocalProjDBSize) val model = prefixSpan.run(sequences)
- 输出:PrefixSpanModel[Item],频繁序列模型
- 使用样例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
import org.apache.spark.mllib.fpm.PrefixSpan val sequences = sc.parallelize(Seq( Array(Array(1, 2), Array(3)), Array(Array(1), Array(3, 2), Array(1, 2)), Array(Array(1, 2), Array(5)), Array(Array(6)) ), 2).cache() val prefixSpan = new PrefixSpan() .setMinSupport(0.5) .setMaxPatternLength(5) val model = prefixSpan.run(sequences) model.freqSequences.collect().foreach { freqSequence => println( s"${freqSequence.sequence.map(_.mkString("[", ", ", "]")).mkString("[", ", ", "]")}," + s" ${freqSequence.freq}") }
- 结果样例
1 2 3 4 5
[[2]], 3 [[3]], 2 [[1]], 3 [[2, 1]], 3 [[1], [3]], 2
父主题: 推荐和模式挖掘