PrefixSpan

PrefixSpan为MLlib API类模型接口。

模型接口类别	函数接口
MLlib API	def run[Item, Itemset <: Iterable[Item], Sequence <: Iterable[Itemset]](data: JavaRDD[Sequence]): PrefixSpanModel[Item] def run[Item](data: RDD[Array[Array[Item]]])(implicit arg0: ClassTag[Item]): PrefixSpanModel[Item]

模型接口类别

函数接口

MLlib API

def run[Item, Itemset <: Iterable[Item], Sequence <: Iterable[Itemset]](data: JavaRDD[Sequence]): PrefixSpanModel[Item]

def run[Item](data: RDD[Array[Array[Item]]])(implicit arg0: ClassTag[Item]): PrefixSpanModel[Item]

MLlib API

功能描述
 传入RDD格式的序列数据，设置最小支持度和最大模式长度，调用run接口，输出满足条件的全部频繁序列。

输入输出

包名：package org.apache.spark.mllib.fpm
类名：PrefixSpan
方法名：run
输入：JavaRDD[Sequence] / RDD[Array[Array[Item]]]，全量的序列数据

基于原生算法优化的参数

MaxLocalProjDBSize //Prefix本地求解所允许的最大投影数据量
MaxPatternLength //频繁序列模式的最大长度
MinSupport //频繁序列模式的最小支持度

新增算法参数

参数名称	取值类型	描述	spark conf参数名
localTimeout	Int，缺省值为300，必须大于等于0。	本地求解的超时时间，单位是秒。	spark.boostkit.ml.ps.localTimeout
filterCandidates	Boolean，缺省值为false。	是否过滤prefix候选集。	spark.boostkit.ml.ps.filterCandidates
projDBStep	Double，缺省值为10。	进阶参数，通常保持缺省值即可；投影数据量的调整步调。	spark.boostkit.ml.ps.projDBStep

参数及run代码接口示例：

val prefixSpan = new PrefixSpan()
        .setMinSupport(params.minSupport)
        .setMaxPatternLength(params.maxPatternLength)
        .setMaxLocalProjDBSize(params.maxLocalProjDBSize)
val model = prefixSpan.run(sequences)

输出：PrefixSpanModel[Item]，频繁序列模型

使用样例

import org.apache.spark.mllib.fpm.PrefixSpan
 
val sequences = sc.parallelize(Seq(
  Array(Array(1, 2), Array(3)),
  Array(Array(1), Array(3, 2), Array(1, 2)),
  Array(Array(1, 2), Array(5)),
  Array(Array(6))
), 2).cache()
val prefixSpan = new PrefixSpan()
  .setMinSupport(0.5)
  .setMaxPatternLength(5)
val model = prefixSpan.run(sequences)
model.freqSequences.collect().foreach { freqSequence =>
  println(
    s"${freqSequence.sequence.map(_.mkString("[", ", ", "]")).mkString("[", ", ", "]")}," +
      s" ${freqSequence.freq}")
}

结果样例

[[2]], 3
[[3]], 2
[[1]], 3
[[2, 1]], 3
[[1], [3]], 2

父主题： 推荐和模式挖掘