算法说明
算法原理
- GBDT算法
GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法是一种十分流行的决策树集成算法,不仅可以适用于分类任务,也可用于回归任务。GBDT通过迭代地训练多棵树来达到最小化损失函数的目的。Spark中的GBDT算法支持二分类和回归,支持连续性特征和类别型特征,通过分布式计算来处理大数据场景下的训练和推理。
- RF算法
RF(Random Forest,随机森林)算法实现如下功能:给定一份样本数据,包含特征向量和标签值,同时训练多棵决策树,得到一个分类模型或回归模型。使用输出的模型,传入特征向量,可预测出概率最大的标签值。
- SVM算法
SVM(Support Vector Machines,支持向量机)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。Spark中的LinearSVC算法主要引入了两个优化策略:通过算法原理优化减少对f函数(分布式计算目标函数损失和梯度)的调用次数;增加动量参数更新加速收敛。
- Kmeans算法
Kmeans(K-means Clustering,K-平均算法)源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。
- DecisionTree算法
DecisionTree,决策树算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归。决策树(DecisionTree)算法实现如下功能:给定一份样本数据,包含特征向量和标签值,训练一棵二叉树,得到一个分类模型或回归模型。使用输出的模型,传入特征向量,可预测出概率大的标签值。
- LinearRegression算法
回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系。如果观测变量是连续的,则称其为回归(Regression)。 机器学习中,线性回归(LinearRegression)利用线性模型来建模自变量X和观测变量Y之间的映射关系,其未知的模型参数是从训练数据中估计。
- LogisticRegression算法
Logistic Regression,逻辑回归算法虽然名字里带“回归”,但是它实际上是一种分类方法。逻辑回归是利用线性模型来建模自变量X和观测变量Y之间的映射关系,其未知的模型参数是从训练数据中估计的。
- PCA算法
PCA(Principle Component Analysis,主成分分析)是一种应用广泛的数据分析方法,它主要用于降维、特征提取、异常检测等方面。对矩阵Am×n进行PCA,是指找到它的前k个主成分向量[v_1,v_2,…,v_k],以及它对应的权重[s_1,s_2,…,s_k]。
- SVD算法
SVD(Singular Value Decomposition,奇异值分解)算法是线性代数中一种重要的矩阵分解,在生物信息学、信号处理、金融学、统计学等领域,SVD都是提取信息的常用工具。在机器学习领域,它不光可以用于数据压缩、降维,还可以用于推荐系统,自然语言处理等。对矩阵Am×n进行SVD,是指将其分解为A=USVT,其中Um×k叫左奇异矩阵;Vn×k是右奇异矩阵;Sk×k是奇异值矩阵,是对角矩阵,对角线上的元素称为奇异值,奇异值从大到小排列。U和V都是酉矩阵。
- LDA算法
LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)算法是一种文档主题生成模型,也被称为三层贝叶斯概率模型,包含文档、主题和词三层。LDA是一种非监督机器学习技术,通过分布式计算来处理大数据场景下的训练和推理。
- PrefixSpan算法
PrefixSpan(Prefix-Projected Pattern Growth,前缀投影的模式挖掘)算法是频繁模式挖掘中的典型算法,用于挖掘满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列,且投影数据库缩小的很快,内存消耗比较稳定,作频繁序列模式挖掘的时候效果很高。
- ALS算法
ALS(Alternating Least Squares,交替最小二乘法)特指使用交替最小二乘求解的一个协同推荐算法。
- KNN算法
KNN(K-Nearest Neighbors,K近邻算法)是一种机器学习领域中的非参数统计法,用于找到距离给定样本最近的k个样本。可以用于分类、回归、信息检索等领域。
使用场景
算法分类 |
算法名称 |
应用行业 |
||
运营商 |
金融 |
交通 |
||
机器学习算法 |
GBDT |
异网高价值客户识别 全网通、双卡终端分析 终端违规销售 |
客户信用评估 信贷风险评估 债务风险评级和预警 贷后风险评级 客户金融画像 保险客户风险分析 保险客户流失分析 保险企业营销策略模型 |
交通事件检测 车辆检查 |
RF |
高价值客户细分 终端生命周期分析 用户换机场景分析 |
保险欺诈识别 线上交易欺诈侦测 信贷风险评估 债务风险评级和预警 |
飙车分析模型 黄牛党分析 信号配时优化 |
|
SVM |
价值客户识别拉新 升档客户识别提升 |
国际碳金融市场价格预测 企业破产预测 汽车保险定价 |
套牌/假牌车辆识别 路网交通流量预测 交通流量预测 飙车分析模型 |
|
Kmeans |
沉默用户激活 定向资费设计 用户套餐适配 |
金融IC卡城市推广规划 事实汇率制度分类 保险客户信用分析 消费者互联网保险购买意愿 |
车辆出现OD分析 卡口数据治理 高风险区域识别 |
|
Decision Tree |
带宽离网预警用户预警 带宽到期客户预警 |
互联网金融精准营销客户分类 商业银行电话营销分类模型 量化投资策略模型 信用卡审批模型 贷后风险评级 |
飙车分析模型 黄牛党分析 交通事件检测 |
|
Logistic Regression |
欺诈预警 风险评估 智能能耗预测 |
互联网金融P2P业务信用风险分析 贷后风险分析 企业大额外汇资金交易识别 客户信用评估 上市公司信用评级 金融市场极端风险预警 |
路网交通流量预测 行车安全指数模型 道路通行能力评估 套牌/假牌车辆识别 交通流量预测 飙车分析模型 |
|
Linear Regression |
国际长途、漫游业务分析 信用评级 |
上市公司财务报告舞弊识别 商业银行财务风险预警 客户信用风险因素评估 中小企业信用风险评估 供应链金融风险评估 |
道路通行能力评估 套牌/假牌车辆识别 路网交通流量预测 交通态势分析 |
|
PCA |
用户关键特征提取 用户标识 用户征信特征 推荐模型数据工程 风险评估模型数据工程 |
机动车辆保险欺诈识别-数据工程 供应链金融信用风险评估模型-数据工程 借贷企业逾期还款预警 |
交通标志图像识别 道路安全性预测 交通事故成因分析和关联分析 城市交通路口相关性分析 |
|
SVD |
异常订单流量检测 网络毒害攻击检测与定位 网络云传输数据压缩 供应商选择 供应商评价方法 |
战略新兴产业金融支持效率分析-数据工程商业银行客户价值细分模型-数据工程 量化投资选股因子降维 股票投资组合推荐 |
交通数据预处理 车辆出行行为特征提取 交通流量数据压缩 周期流量特征提取 |
|
LDA |
不良信息治理 内容推荐 |
面向金融知识服务的股票聚类 金融科技媒体情绪与网贷市场关系分析 金融决策支持知识获取 公司年报文本知识发现 金融时间信息抽取 |
交通热点区域识别 交通执法案件数字 |
|
PrefixSpan |
携号客户细分 携出客户预测 智能运维-故障检测与预测 智能能耗管理-基站/服务器能耗预测 |
债务风险评级和预警 用户消费行为预测和风险分析 基金收益率方向预测 基金重仓股预测 保险客户风险分析 保险客户流失分析 保险企业营销策略模型 |
交通拥堵分析 信号配时优化 出行方式推荐 人物画像/全息档案(研判职住地、年龄层次、性别、消费水平、职业等) |
|
ALS |
携入客户产品适配 校园/返乡营销 一级电渠精确营销 旅游服务 升档客户识别提升 业务推荐 内容推荐 |
智能APP推荐 分红寿险定价 人寿保险需求结构性差异分析 投资人情绪测度 美式期权定价模拟 |
危险驾驶人员发现 相似路线推荐 |
|
KNN |
终端APP洞察 校园营销 客户常驻小区识别 |
金融数据异常监测 医保审核 |
交通异常场景分析 同行分析 |