简介

- 您同意在使用鲲鹏BoostKit机器学习算法加速库时,遵守国家法律法规、社会公共道德。您不得利用机器学习算法加速库从事任何违法、侵犯他人权益等扰乱社会秩序、破坏社会稳定的行为,亦不得利用机器学习算法加速库从事任何危害或试图危害计算机系统及网络安全的活动。
- 您知悉并确认,对于依赖机器学习算法加速库处理结果所作出的判断需您自行承担相关风险。机器学习算法加速库按现状提供,在适用法律允许的范围内,华为对机器学习算法加速库不作任何类型的担保,不论是明示的或暗示的,包括但不限于其真实性、适用性、非侵权性和安全性。
- 您同意华为不应对间接、附带、特殊或任何形式的惩罚性赔偿承担任何责任,也不应对任何利润、收入、数据、数据使用的损失承担任何责任。
- 您应知悉并同意,对于使用鲲鹏BoostKit机器学习算法加速库软件包而依赖的开源及第三方软件,需要您自行下载集成,华为不对该部分的软件漏洞和安全问题承担任何责任。
Apache Spark是用于大规模数据处理的统一分析引擎,具有可伸缩、基于内存计算等特点,已经成为轻量级大数据快速处理的统一平台,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark建立在不同的存储和运行系统上。更多关于Spark信息请参见官网Spark官方文档。
鲲鹏BoostKit机器学习算法加速库(以下简称为机器学习算法加速库/机器学习算法库)是经过优化的算法库,兼容Spark原生API(KNN属于自研算法,没有Spark原生API),对机器学习算法进行了性能优化,大幅提升了大数据算法场景的计算性能,该库支持鲲鹏处理器的体系架构,目前提供的机器学习算法如下:
- GBDT(Gradient Boosting Decision Tree,梯度提升决策树)
- RF(Random Forest,随机森林)
- DT (Decision Tree,决策树)
- SVM(Support Vector Machines,支持向量机)
- K-means(K-means Clustering,K-平均算法)
- Decision Tree(决策树算法)
- Linear Regression(线性回归)
- Logistic Regression(逻辑回归)
- PCA(Principal Component Analysis,主成分分析)
- SPCA(Principal Component Analysis for Sparse Matrix,稀疏矩阵主成分分析)
- SVD(Singular Value Decomposition,奇异值分解)
- LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)
- PrefixSpan(Prefix-Projected Pattern Growth,前缀投影的模式挖掘)
- ALS(Alternating Least Squares,交替最小二乘法)
- KNN(K-Nearest Neighbors,K最近邻算法)
- Covariance(协方差算法)
- DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)
- Pearson(皮尔逊相关系数)
- Spearman(斯皮尔曼等级相关系数)
- XGBoost(极端梯度提升算法)
- IDF(Inverse Document Frequency,逆文档频率)
- SimRank
- DTB(Decision Tree Bucket,决策树分箱)
- Word2Vec(词向量)
父主题: 特性描述