算法说明

算法原理

GBDT算法
 GBDT（Gradient Boosting Decision Tree，梯度提升决策树）算法是一种十分流行的决策树集成算法，不仅可以适用于分类任务，也可用于回归任务。GBDT通过迭代地训练多棵树来达到最小化损失函数的目的。Spark中的GBDT算法支持二分类和回归，支持连续性特征和类别型特征，通过分布式计算来处理大数据场景下的训练和推理。
RF算法
 RF（Random Forest，随机森林）算法实现如下功能：给定一份样本数据，包含特征向量和标签值，同时训练多棵决策树，得到一个分类模型或回归模型。使用输出的模型，传入特征向量，可预测出概率最大的标签值。
SVM算法
 SVM（Support Vector Machines，支持向量机）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。Spark中的LinearSVC算法主要引入了两个优化策略：通过算法原理优化减少对f函数（分布式计算目标函数损失和梯度）的调用次数；增加动量参数更新加速收敛。
Kmeans算法
 Kmeans（K-means Clustering，K-平均算法）源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。
DecisionTree算法
 DecisionTree，决策树算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法，它不仅可以用来做分类，也可用来做回归。决策树（DecisionTree）算法实现如下功能：给定一份样本数据，包含特征向量和标签值，训练一棵二叉树，得到一个分类模型或回归模型。使用输出的模型，传入特征向量，可预测出概率最大的标签值。
LinearRegression算法
 回归算法是一种有监督学习算法，用来建立自变量X和观测变量Y之间的映射关系。如果观测变量是连续的，则称其为回归（Regression）。机器学习中，线性回归（LinearRegression）利用线性模型来建模自变量X和观测变量Y之间的映射关系，其未知的模型参数是从训练数据中估计。
LogisticRegression算法
 Logistic Regression，逻辑回归算法虽然名字里带“回归”，但是它实际上是一种分类方法。逻辑回归是利用线性模型来建模自变量X和观测变量Y之间的映射关系，其未知的模型参数是从训练数据中估计的。
PCA算法
 PCA（Principal Component Analysis，主成分分析）是一种应用广泛的数据分析方法，它主要用于降维、特征提取、异常检测等方面。对矩阵A_m×n进行PCA，是指找到它的前k个主成分向量[v_1,v_2,…,v_k]，以及它对应的权重[s_1,s_2,…,s_k]。
SVD算法
 SVD（Singular Value Decomposition，奇异值分解）算法是线性代数中一种重要的矩阵分解，在生物信息学、信号处理、金融学、统计学等领域，SVD都是提取信息的常用工具。在机器学习领域，它不光可以用于数据压缩、降维，还可以用于推荐系统，自然语言处理等。对矩阵A_m×n进行SVD，是指将其分解为A=USV^T，其中U_m×k叫左奇异矩阵；V_n×k是右奇异矩阵；S_k×k是奇异值矩阵，是对角矩阵，对角线上的元素称为奇异值，奇异值从大到小排列。U和V都是酉矩阵。
LDA算法
 LDA（Latent Dirichlet Allocation，潜在狄利克雷分布）算法是一种文档主题生成模型，也被称为三层贝叶斯概率模型，包含文档、主题和词三层。LDA是一种非监督机器学习技术，通过分布式计算来处理大数据场景下的训练和推理。
PrefixSpan算法
 PrefixSpan（Prefix-Projected Pattern Growth，前缀投影的模式挖掘）算法是频繁模式挖掘中的典型算法，用于挖掘满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列，且投影数据库缩小的很快，内存消耗比较稳定，作频繁序列模式挖掘的时候效果很高。
ALS算法
 ALS（Alternating Least Squares，交替最小二乘法）特指使用交替最小二乘求解的一个协同推荐算法。
KNN算法
 KNN（K-Nearest Neighbors，K最近邻算法）是一种机器学习领域中的非参数统计法，用于找到距离给定样本最近的k个样本。可以用于分类、回归、信息检索等领域。
Covariance算法
 Covariance（协方差算法）在概率论和统计学中用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况，即变量与自身的协方差。
DBSCAN算法
 DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法，该算法要求聚类空间中一定区域内所包含对象的数目不小于某一给定阈值，该算法能够有效处理噪声点，并发现任意形状的空间聚类。
Pearson算法
 Pearson（皮尔逊相关系数）在统计学中用于度量两个变量X和Y之间的相关程度（线性相关），其值介于-1与1之间；在自然科学领域中，该系数广泛用于度量两个变量之间的线性相关程度，+1表示完全正相关，0表示完全不相关，-1表示完全负相关。
Spearman算法
 Spearman（斯皮尔曼等级相关系数）在统计学中经常用希腊字母ρ表示，是衡量两个变量的依赖性的非参数指标，利用单调方程评价两个统计变量的相关性。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为+1或−1。
XGBoost算法
 XGBoost（极端梯度提升算法）是一个深度优化的分布式梯度提升算法库，拥有高效、灵活和可移植的特性。该库在梯度提升的框架下实现机器学习算法，提供了一个并行树提升算法，可以快速而准确地解决许多数据科学问题。

使用场景

算法分类	算法名称	应用行业
运营商	金融	交通
机器学习算法库	GBDT	异网高价值客户识别全网通、终端违规销售	客户信用评估信贷风险评估债务风险评级和预警贷后风险评级客户金融画像保险客户风险分析保险客户流失分析保险企业营销策略模型	交通事件检测车辆检查
RF	高价值客户细分终端生命周期分析用户换机场景分析	保险欺诈识别线上交易欺诈侦测信贷风险评估债务风险评级和预警	飙车分析模型黄牛党分析信号配时优化
SVM	价值客户识别拉新升档客户识别提升	国际碳金融市场价格预测企业破产预测汽车保险定价	套牌/假牌车辆识别路网交通流量预测交通流量预测飙车分析模型
Kmeans	沉默用户激活定向资费设计用户套餐适配	金融IC卡城市推广规划事实汇率制度分类保险客户信用分析消费者互联网保险购买意愿	车辆出现OD分析卡口数据治理高风险区域识别
DecisionTree	带宽离网预警用户预警带宽到期客户预警	互联网金融精准营销客户分类商业银行电话营销分类模型量化投资策略模型信用卡审批模型贷后风险评级	飙车分析模型黄牛党分析交通事件检测
LogisticRegression	欺诈预警风险评估智能能耗预测	互联网金融P2P业务信用风险分析贷后风险分析企业大额外汇资金交易识别客户信用评估上市公司信用评级金融市场极端风险预警	路网交通流量预测行车安全指数模型道路通行能力评估套牌/假牌车辆识别交通流量预测飙车分析模型
LinearRegression	国际长途、漫游业务分析信用评级	上市公司财务报告舞弊识别商业银行财务风险预警客户信用风险因素评估中小企业信用风险评估供应链金融风险评估	道路通行能力评估套牌/假牌车辆识别路网交通流量预测交通态势分析
PCA	用户关键特征提取用户标识用户征信特征推荐模型数据工程风险评估模型数据工程	机动车辆保险欺诈识别-数据工程供应链金融信用风险评估模型-数据工程借贷企业逾期还款预警	交通标志图像识别道路安全性预测交通事故成因分析和关联分析城市交通路口相关性分析
SVD	异常订单流量检测网络毒害攻击检测与定位网络云传输数据压缩供应商选择供应商评价方法	战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程量化投资选股因子降维股票投资组合推荐	交通数据预处理车辆出行行为特征提取交通流量数据压缩周期流量特征提取
LDA	不良信息治理内容推荐	面向金融知识服务的股票聚类金融科技媒体情绪与网贷市场关系分析金融决策支持知识获取公司年报文本知识发现金融时间信息抽取	交通热点区域识别交通执法案件数字化
PrefixSpan	携号客户细分携出客户预测智能运维-故障检测与预测智能能耗管理-基站/服务器能耗预测	债务风险评级和预警用户消费行为预测和风险分析基金收益率方向预测基金重仓股预测保险客户风险分析保险客户流失分析保险企业营销策略模型	交通拥堵分析信号配时优化出行方式推荐人物画像/全息档案（研判职住地、年龄层次、性别、消费水平、职业等）
ALS	携入客户产品适配校园/返乡营销一级电渠精确营销旅游服务升档客户识别提升业务推荐内容推荐	智能APP推荐分红寿险定价人寿保险需求结构性差异分析投资人情绪测度美式期权定价模拟	危险驾驶人员发现相似路线推荐
KNN	终端APP洞察校园营销客户常驻小区识别	金融数据异常监测医保审核	交通异常场景分析同行分析
Covariance	用户忠诚度分析用户偏好分析用户流失分析有价卡违规销售渠道养卡	股票相关性分析投资组合分析资产配置分析资产风险价值模型分析	道路路况预测拥堵传播性分析动向匹配分析智能派单交通异常动向检测
DBSCAN	客户家庭群组识别校园客户识别拉新异网客户识别反挖客户群体分布	商业银行客户价值细分银行贷款风险管理保险欺诈监测中小银行同业业务风险识别保险业CRM客户细分模型	轨道交通站点热力分析轨交客群热力分析常走(通勤)线路分析落脚点分析
Pearson	移动站定位同行分析异常订单流量检测迁徙客户识别拉新用户匹配策略	市场风险管理资产风险价值模型分析保险赔付分析	路段通行时间预测车辆多传感器信息融合智能派单交通异常动向检测
Spearman	用户匹配策略权益偏好用户用户流失分析以固带移用户	信用卡开卡推荐客户权益推荐欺诈团伙分析保险业客户画像	客流预测分析城市拥堵区域挖掘交通异常动向检测智能派单
XGBoost	携号客户细分携出客户预测智能运维-故障检测与预测智能能耗管理-基站/服务器能耗预测	债务风险评级和预警线上交易欺诈侦测用户消费行为预测和风险分析基金收益率方向预测基金重仓股预测保险客户风险分析保险客户流失分析保险企业营销策略模型	交通拥堵分析信号配时优化出行方式推荐车辆检查设防人物画像/全息档案（研判职住地、年龄层次、性别、消费水平、职业等）目标动向预测

算法分类

算法名称

应用行业

运营商

金融

交通

机器学习算法库

GBDT

异网高价值客户识别

全网通、终端违规销售

客户信用评估

信贷风险评估

债务风险评级和预警

贷后风险评级

客户金融画像

保险客户风险分析

保险客户流失分析

保险企业营销策略模型

交通事件检测

车辆检查

高价值客户细分

终端生命周期分析

用户换机场景分析

保险欺诈识别

线上交易欺诈侦测

信贷风险评估

债务风险评级和预警

飙车分析模型

黄牛党分析

信号配时优化

SVM

价值客户识别拉新

升档客户识别提升

国际碳金融市场价格预测

企业破产预测

汽车保险定价

套牌/假牌车辆识别

路网交通流量预测

交通流量预测

飙车分析模型

Kmeans

沉默用户激活

定向资费设计

用户套餐适配

金融IC卡城市推广规划

事实汇率制度分类

保险客户信用分析

消费者互联网保险购买意愿

车辆出现OD分析

卡口数据治理

高风险区域识别

DecisionTree

带宽离网预警用户预警

带宽到期客户预警

互联网金融精准营销客户分类

商业银行电话营销分类模型

量化投资策略模型

信用卡审批模型

贷后风险评级

飙车分析模型

黄牛党分析

交通事件检测

LogisticRegression

欺诈预警

风险评估

智能能耗预测

互联网金融P2P业务信用风险分析

贷后风险分析

企业大额外汇资金交易识别

客户信用评估

上市公司信用评级

金融市场极端风险预警

路网交通流量预测

行车安全指数模型

道路通行能力评估

套牌/假牌车辆识别

交通流量预测

飙车分析模型

LinearRegression

国际长途、漫游业务分析

信用评级

上市公司财务报告舞弊识别

商业银行财务风险预警

客户信用风险因素评估

中小企业信用风险评估

供应链金融风险评估

道路通行能力评估

套牌/假牌车辆识别

路网交通流量预测

交通态势分析

PCA

用户关键特征提取

用户标识

用户征信特征

推荐模型数据工程

风险评估模型数据工程

机动车辆保险欺诈识别-数据工程

供应链金融信用风险评估模型-数据工程

借贷企业逾期还款预警

交通标志图像识别

道路安全性预测

交通事故成因分析和关联分析

城市交通路口相关性分析

SVD

异常订单流量检测

网络毒害攻击检测与定位

网络云传输数据压缩

供应商选择

供应商评价方法

战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程

量化投资选股因子降维

股票投资组合推荐

交通数据预处理

车辆出行行为特征提取

交通流量数据压缩

周期流量特征提取

LDA

不良信息治理

内容推荐

面向金融知识服务的股票聚类

金融科技媒体情绪与网贷市场关系分析

金融决策支持知识获取

公司年报文本知识发现

金融时间信息抽取

交通热点区域识别

交通执法案件数字化

PrefixSpan

携号客户细分

携出客户预测

智能运维-故障检测与预测

智能能耗管理-基站/服务器能耗预测

债务风险评级和预警

用户消费行为预测和风险分析

基金收益率方向预测

基金重仓股预测

保险客户风险分析

保险客户流失分析

保险企业营销策略模型

交通拥堵分析

信号配时优化

出行方式推荐

人物画像/全息档案（研判职住地、年龄层次、性别、消费水平、职业等）

ALS

携入客户产品适配

校园/返乡营销

一级电渠精确营销

旅游服务

升档客户识别提升

业务推荐

内容推荐

智能APP推荐

分红寿险定价

人寿保险需求结构性差异分析

投资人情绪测度

美式期权定价模拟

危险驾驶人员发现

相似路线推荐

KNN

终端APP洞察

校园营销

客户常驻小区识别

金融数据异常监测

医保审核

交通异常场景分析

同行分析

Covariance

用户忠诚度分析

用户偏好分析

用户流失分析

有价卡违规销售

渠道养卡

股票相关性分析

投资组合分析

资产配置分析

资产风险价值模型分析

道路路况预测

拥堵传播性分析

动向匹配分析

智能派单

交通异常动向检测

DBSCAN

客户家庭群组识别

校园客户识别拉新

异网客户识别反挖

客户群体分布

商业银行客户价值细分

银行贷款风险管理

保险欺诈监测

中小银行同业业务风险识别

保险业CRM客户细分模型

轨道交通站点热力分析

轨交客群热力分析

常走(通勤)线路分析

落脚点分析

Pearson

移动站定位

同行分析

异常订单流量检测

迁徙客户识别拉新

用户匹配策略

市场风险管理

资产风险价值模型分析

保险赔付分析

路段通行时间预测

车辆多传感器信息融合

智能派单

交通异常动向检测

Spearman

用户匹配策略

权益偏好用户

用户流失分析

以固带移用户

信用卡开卡推荐

客户权益推荐

欺诈团伙分析

保险业客户画像

客流预测分析

城市拥堵区域挖掘

交通异常动向检测

智能派单

XGBoost

携号客户细分

携出客户预测

智能运维-故障检测与预测

智能能耗管理-基站/服务器能耗预测

债务风险评级和预警

线上交易欺诈侦测

用户消费行为预测和风险分析

基金收益率方向预测

基金重仓股预测

保险客户风险分析

保险客户流失分析

保险企业营销策略模型

交通拥堵分析

信号配时优化

出行方式推荐

车辆检查设防

人物画像/全息档案（研判职住地、年龄层次、性别、消费水平、职业等）

目标动向预测

父主题： 产品描述