鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

约束与限制

介绍机器学习算法加速库的约束与限制。

对系统的影响

机器学习算法加速库对系统无影响。

应用限制

约束与限制如表表1所示。

表1 约束与限制

项目

说明

操作系统支持

  • CentOS 7.6。
  • openEuler 20.03 LTS SP1。
  • openEuler 22.03 LTS。

组件约束

  • 适配Spark 2.3.2、Spark 2.4.5、Spark 2.4.6版本,与原生算法库提供相同的接口。
  • 适配Spark 3.1.1,仅支持ALS、LDA、KNN、PrefixSpan、DBSCAN、Word2Vec、Decision Tree、DTB、Random Forest 、GBDT这10个算法。
  • Spark 2.4.5与Spark 2.4.6使用同一个版本的JAR包。
  • 其他2.X、3.X版本技术上兼容,根据需求适配。

硬件约束

支持鲲鹏服务器。

混部约束

  • 不支持鲲鹏与其他芯片架构服务器混部的Spark集群。
  • 不支持机器学习&图分析算法与开源算法混合运行在同一个任务。

性能指标

基于特定的数据集及配置参数,机器学习算法在鲲鹏920 5220上相比原生MLlib算法在x86 5318上计算性能提升20%以上,详情可参考《大数据机器学习算法加速库 验收测试指南》。

鲲鹏BoostKit机器学习算法加速库Spark 2.4.6采用了与Spark 2.3.2相同的核心代码,因此算法的结果与原生Spark 2.3.2结果保持一致,可能与原生Spark 2.4.6不一致(例如DTB),具体取决于开源Spark 2.3.2与Spark 2.4.6之前是否有功能性变化。

与其他特性交互

机器学习算法加速库与其他特性无交互关系。