算法说明
算法原理
- GBDT算法
GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法是一种十分流行的决策树集成算法,不仅可以适用于分类任务,也可用于回归任务。GBDT通过迭代地训练多棵树来达到最小化损失函数的目的。Spark中的GBDT算法支持二分类和回归,支持连续性特征和类别型特征,通过分布式计算来处理大数据场景下的训练和推理。
- RF算法
RF(Random Forest,随机森林)算法实现如下功能:给定一份样本数据,包含特征向量和标签值,同时训练多棵决策树,得到一个分类模型或回归模型。使用输出的模型,传入特征向量,可预测出概率最大的标签值。
- SVM算法
SVM(Support Vector Machines,支持向量机)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。Spark中的LinearSVC算法主要引入了两个优化策略:通过算法原理优化减少对f函数(分布式计算目标函数损失和梯度)的调用次数;增加动量参数更新加速收敛。
- Kmeans算法
Kmeans(K-means Clustering,K-平均算法)源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。
- DecisionTree算法
DecisionTree,决策树算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归。决策树(DecisionTree)算法实现如下功能:给定一份样本数据,包含特征向量和标签值,训练一棵二叉树,得到一个分类模型或回归模型。使用输出的模型,传入特征向量,可预测出概率最大的标签值。
- LinearRegression算法
回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系。如果观测变量是连续的,则称其为回归(Regression)。机器学习中,线性回归(LinearRegression)利用线性模型来建模自变量X和观测变量Y之间的映射关系,其未知的模型参数是从训练数据中估计。
- LogisticRegression算法
Logistic Regression,逻辑回归算法虽然名字里带“回归”,但是它实际上是一种分类方法。逻辑回归是利用线性模型来建模自变量X和观测变量Y之间的映射关系,其未知的模型参数是从训练数据中估计的。
- PCA算法
PCA(Principal Component Analysis,主成分分析)是一种应用广泛的数据分析方法,它主要用于降维、特征提取、异常检测等方面。对矩阵Am×n进行PCA,是指找到它的前k个主成分向量[v_1,v_2,…,v_k],以及它对应的权重[s_1,s_2,…,s_k]。
- SVD算法
SVD(Singular Value Decomposition,奇异值分解)算法是线性代数中一种重要的矩阵分解,在生物信息学、信号处理、金融学、统计学等领域,SVD都是提取信息的常用工具。在机器学习领域,它不光可以用于数据压缩、降维,还可以用于推荐系统,自然语言处理等。对矩阵Am×n进行SVD,是指将其分解为A=USVT,其中Um×k叫左奇异矩阵;Vn×k是右奇异矩阵;Sk×k是奇异值矩阵,是对角矩阵,对角线上的元素称为奇异值,奇异值从大到小排列。U和V都是酉矩阵。
- LDA算法
LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)算法是一种文档主题生成模型,也被称为三层贝叶斯概率模型,包含文档、主题和词三层。LDA是一种非监督机器学习技术,通过分布式计算来处理大数据场景下的训练和推理。
- PrefixSpan算法
PrefixSpan(Prefix-Projected Pattern Growth,前缀投影的模式挖掘)算法是频繁模式挖掘中的典型算法,用于挖掘满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列,且投影数据库缩小的很快,内存消耗比较稳定,作频繁序列模式挖掘的时候效果很高。
- ALS算法
ALS(Alternating Least Squares,交替最小二乘法)特指使用交替最小二乘求解的一个协同推荐算法。
- KNN算法
KNN(K-Nearest Neighbors,K最近邻算法)是一种机器学习领域中的非参数统计法,用于找到距离给定样本最近的k个样本。可以用于分类、回归、信息检索等领域。
- Covariance算法
Covariance(协方差算法)在概率论和统计学中用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况,即变量与自身的协方差。
- DBSCAN算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法,该算法要求聚类空间中一定区域内所包含对象的数目不小于某一给定阈值,该算法能够有效处理噪声点,并发现任意形状的空间聚类。
- Pearson算法
Pearson(皮尔逊相关系数)在统计学中用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间;在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度,+1表示完全正相关,0表示完全不相关,-1表示完全负相关。
- Spearman算法
Spearman(斯皮尔曼等级相关系数)在统计学中经常用希腊字母ρ表示,是衡量两个变量的依赖性的非参数指标,利用单调方程评价两个统计变量的相关性。如果数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。
- XGBoost算法
XGBoost(极端梯度提升算法)是一个深度优化的分布式梯度提升算法库,拥有高效、灵活和可移植的特性。该库在梯度提升的框架下实现机器学习算法,提供了一个并行树提升算法,可以快速而准确地解决许多数据科学问题。
使用场景
算法分类 |
算法名称 |
应用行业 |
||
---|---|---|---|---|
运营商 |
金融 |
交通 |
||
机器学习算法库 |
GBDT |
异网高价值客户识别 全网通、终端违规销售 |
客户信用评估 信贷风险评估 债务风险评级和预警 贷后风险评级 客户金融画像 保险客户风险分析 保险客户流失分析 保险企业营销策略模型 |
交通事件检测 车辆检查 |
RF |
高价值客户细分 终端生命周期分析 用户换机场景分析 |
保险欺诈识别 线上交易欺诈侦测 信贷风险评估 债务风险评级和预警 |
飙车分析模型 黄牛党分析 信号配时优化 |
|
SVM |
价值客户识别拉新 升档客户识别提升 |
国际碳金融市场价格预测 企业破产预测 汽车保险定价 |
套牌/假牌车辆识别 路网交通流量预测 交通流量预测 飙车分析模型 |
|
Kmeans |
沉默用户激活 定向资费设计 用户套餐适配 |
金融IC卡城市推广规划 事实汇率制度分类 保险客户信用分析 消费者互联网保险购买意愿 |
车辆出现OD分析 卡口数据治理 高风险区域识别 |
|
DecisionTree |
带宽离网预警用户预警 带宽到期客户预警 |
互联网金融精准营销客户分类 商业银行电话营销分类模型 量化投资策略模型 信用卡审批模型 贷后风险评级 |
飙车分析模型 黄牛党分析 交通事件检测 |
|
LogisticRegression |
欺诈预警 风险评估 智能能耗预测 |
互联网金融P2P业务信用风险分析 贷后风险分析 企业大额外汇资金交易识别 客户信用评估 上市公司信用评级 金融市场极端风险预警 |
路网交通流量预测 行车安全指数模型 道路通行能力评估 套牌/假牌车辆识别 交通流量预测 飙车分析模型 |
|
LinearRegression |
国际长途、漫游业务分析 信用评级 |
上市公司财务报告舞弊识别 商业银行财务风险预警 客户信用风险因素评估 中小企业信用风险评估 供应链金融风险评估 |
道路通行能力评估 套牌/假牌车辆识别 路网交通流量预测 交通态势分析 |
|
PCA |
用户关键特征提取 用户标识 用户征信特征 推荐模型数据工程 风险评估模型数据工程 |
机动车辆保险欺诈识别-数据工程 供应链金融信用风险评估模型-数据工程 借贷企业逾期还款预警 |
交通标志图像识别 道路安全性预测 交通事故成因分析和关联分析 城市交通路口相关性分析 |
|
SVD |
异常订单流量检测 网络毒害攻击检测与定位 网络云传输数据压缩 供应商选择 供应商评价方法 |
战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程 量化投资选股因子降维 股票投资组合推荐 |
交通数据预处理 车辆出行行为特征提取 交通流量数据压缩 周期流量特征提取 |
|
LDA |
不良信息治理 内容推荐 |
面向金融知识服务的股票聚类 金融科技媒体情绪与网贷市场关系分析 金融决策支持知识获取 公司年报文本知识发现 金融时间信息抽取 |
交通热点区域识别 交通执法案件数字化 |
|
PrefixSpan |
携号客户细分 携出客户预测 智能运维-故障检测与预测 智能能耗管理-基站/服务器能耗预测 |
债务风险评级和预警 用户消费行为预测和风险分析 基金收益率方向预测 基金重仓股预测 保险客户风险分析 保险客户流失分析 保险企业营销策略模型 |
交通拥堵分析 信号配时优化 出行方式推荐 人物画像/全息档案(研判职住地、年龄层次、性别、消费水平、职业等) |
|
ALS |
携入客户产品适配 校园/返乡营销 一级电渠精确营销 旅游服务 升档客户识别提升 业务推荐 内容推荐 |
智能APP推荐 分红寿险定价 人寿保险需求结构性差异分析 投资人情绪测度 美式期权定价模拟 |
危险驾驶人员发现 相似路线推荐 |
|
KNN |
终端APP洞察 校园营销 客户常驻小区识别 |
金融数据异常监测 医保审核 |
交通异常场景分析 同行分析 |
|
Covariance |
用户忠诚度分析 用户偏好分析 用户流失分析 有价卡违规销售 渠道养卡 |
股票相关性分析 投资组合分析 资产配置分析 资产风险价值模型分析 |
道路路况预测 拥堵传播性分析 动向匹配分析 智能派单 交通异常动向检测 |
|
DBSCAN |
客户家庭群组识别 校园客户识别拉新 异网客户识别反挖 客户群体分布 |
商业银行客户价值细分 银行贷款风险管理 保险欺诈监测 中小银行同业业务风险识别 保险业CRM客户细分模型 |
轨道交通站点热力分析 轨交客群热力分析 常走(通勤)线路分析 落脚点分析 |
|
Pearson |
移动站定位 同行分析 异常订单流量检测 迁徙客户识别拉新 用户匹配策略 |
市场风险管理 资产风险价值模型分析 保险赔付分析 |
路段通行时间预测 车辆多传感器信息融合 智能派单 交通异常动向检测 |
|
Spearman |
用户匹配策略 权益偏好用户 用户流失分析 以固带移用户 |
信用卡开卡推荐 客户权益推荐 欺诈团伙分析 保险业客户画像 |
客流预测分析 城市拥堵区域挖掘 交通异常动向检测 智能派单 |
|
XGBoost |
携号客户细分 携出客户预测 智能运维-故障检测与预测 智能能耗管理-基站/服务器能耗预测 |
债务风险评级和预警 线上交易欺诈侦测 用户消费行为预测和风险分析 基金收益率方向预测 基金重仓股预测 保险客户风险分析 保险客户流失分析 保险企业营销策略模型 |
交通拥堵分析 信号配时优化 出行方式推荐 车辆检查设防 人物画像/全息档案(研判职住地、年龄层次、性别、消费水平、职业等) 目标动向预测 |