原理描述

描述涉及算法原理。

SVM算法
 SVM（Support Vector Machines，支持向量机）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。Spark中的LinearSVC算法主要引入了两个优化策略：通过算法原理优化减少对f函数（分布式计算目标函数损失和梯度）的调用次数；增加动量参数更新加速收敛。
DBSCAN算法
 DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法，该算法要求聚类空间中一定区域内所包含对象的数目不小于某一给定阈值，该算法能够有效处理噪声点，并发现任意形状的空间聚类。
DTB算法
 DTB（Decision Tree Bucket，决策树分箱）是一种基于决策树模型的数据离散化方法，是业界常见的有监督分箱方法。数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间，离散化过程也被表述成分箱的过程。离散化数值型特征，是将无限空间中有限的个体，映射到有限的空间中，有效减小后续算法的时间和空间开销。
Word2Vec算法
 Word2Vec（词向量）算法目的是将词转换为稠密向量表示（Distributed Representation），这样词之间的关系就可以用向量之间的距离来表示。除文本外，也可以用于编码类别变量，即“万物皆可Embedding”。相较于One Hot等特征编码方式，Word2Vec可以提取固定长度的稠密特征，富含更多的上下文信息，能提升下游算法的精度和性能。Spark开源Word2Vec算法不能处理词表过大的数据，迭代到收敛非常耗时，因此基于Spark的高效分布式Word2Vec算法很有意义。

父主题： 特性描述