Word2Vec

Word2Vec提供ML API、MLlib API两套接口。

模型接口类别	函数接口
ML Word2Vec API	def fit(dataset: Dataset[_]): Word2VecModel
	def fit(dataset: Dataset[_], paramMaps: Array[ParamMap]): Seq[Word2VecModel]
	def fit(dataset: Dataset[_], paramMap: ParamMap): Word2VecModel
	def fit(dataset: Dataset[_], firstParamPair: ParamPair[_], otherParamPairs: ParamPair[_]*): Word2VecModel
MLlib Word2Vec API	def fit[S <: Iterable[String]](dataset: JavaRDD[S]): Word2VecModel
MLlib Word2Vec API	def fit[S<: Iterable[String]](dataset: RDD[S]): Word2VecModel

输入输出

参数名	取值类型	缺省值	描述
inputCol	Seq[String]	inputCol	句子

基于原生算法优化的参数

新增算法参数

参数名称	取值类型	缺省值	取值范围	描述	spark conf参数名称
setRegularization	Float	0.05	≥0	正则系数	spark.boostkit.mllib.feature.word2vec.regularization
setRepetition	Int	3	≥0	数据在单个分区内的重复次数	spark.boostkit.mllib.feature.word2vec.repetition

参数名称	取值类型	描述
wordIndex	Map[String, Int]	词与词ID之间的对应关系
wordVectors	Array[Float]	所有词向量，打平为一维数组

使用样例

val model = new Word2Vec()
.setInputCol(“sentences”)
.setVectorSize(3)
.setWindowSize(2)
.setMaxIter(3)
.setNumPartitions(10)
.fit(data)

输入输出

基于原生算法优化的参数

新增算法参数

参数名称	取值类型	缺省值	取值范围	描述	spark conf参数名称
setRegularization	Float	0.05	≥0	正则系数	spark.boostkit.mllib.feature.word2vec.regularization
setRepetition	Int	3	≥0	数据在单个分区内的重复次数	spark.boostkit.mllib.feature.word2vec.repetition

参数名称	取值类型	描述
wordIndex	Map[String, Int]	词与词ID之间的对应关系
wordVectors	Array[Float]	所有词向量，打平为一维数组

使用样例

val model = new Word2Vec()
.setVectorSize(3)
.setWindowSize(2)
.setNumIterations (3)
.setNumPartitions(10)
.fit(data)

父主题： 特征工程