分类回归
场景介绍
分类回归分析是一种预测性的建模技术,其目的是探索标签和特征之间的联系。其中,标签可以视作因变量,特征可以视作自变量。此类算法通常被用于预测分析和建模回归。
实际应用中,Linear Regression算法和Logistic Regression等算法通常被应用于互联网金融P2P业务信用风险分析和路网交通流量预测等场景;SVM被应用于国际碳金融市场价格预测和路网交通流量预测等场景;GBDT、XGBoost等算法通常被应用于债务风险评级和预警、出行方式推荐等场景。
回归类算法通常涉及多次迭代,收敛逼近标签变量来进行训练。鲲鹏BoostKit大数据机器学习算法加速库通过优化迭代算法,充分发挥鲲鹏芯片高并发的特点,并同时减少训练过程中的收敛迭代次数实现性能倍级提升。
SVM算法原理
SVM(Support Vector Machines,支持向量机)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。Spark中的LinearSVC算法主要引入了两个优化策略:通过算法原理优化减少对f函数(分布式计算目标函数损失和梯度)的调用次数;增加动量参数更新加速收敛。
父主题: 机器学习算法