方案优势
主流方案对比
业界针对数据分析预测的主流解决方案包括基于规则的分析、开源算法库,鲲鹏BoostKit大数据算法加速库对比分析结果如表1。
对比项 |
基于规则的分析技术 |
开源算法库 |
鲲鹏BoostKit大数据算法加速库 |
---|---|---|---|
使用方式 |
依赖数据库,ISV自定义规则的SQL或类SQL实现的分析技术 |
基于单机的Python算法库,或基于Spark原生算法 |
基于Spark的分布式算法增强,扩展算法种类,提升算法精度和性能 |
优势 |
|
|
|
劣势 |
|
|
NA |
使用场景 |
|
|
|
鲲鹏BoostKit大数据算法加速库的产品竞争力
鲲鹏BoostKit大数据算法加速库的产品竞争力总结如下。
- 高性能:相比开源算法,性能实现倍级提升,支持更大规模数据集。
- MCE(极大团)算法:相比开源性能提升5X,算法精度100%,最高支持亿级点,十亿级边,支持数据规模较开源提升10X(开源算法仅支持亿级边规模数据)。
- WCE(弱团发现)算法:华为独有算法,精度100%,可支持亿级点,十亿级边。
- Louvain算法:相比开源性能提升10-30X,支持绝对收敛,可支持千万级点,亿级边;数据规模相比开源提升2X。
- PageRank算法:相比开源性能提升1.1-4.8X,精度100%,可支持亿级点,十亿级边(与开源支持数据规模相同)。
- Betweenness算法:相比开源性能提升10X,精度达到98%以上(开源精度不足70%),最高支持千万级点,亿级边,数据规模提升5X。
- SubgraphMatching算法:相比开源性能提升2-40X,精度100%,最高支持百万级点,亿级边;支持数据规模较开源提升2X。
- 覆盖全:覆盖社团挖掘、路径分析、分类回归、特征工程、骨干分析、聚类、模式挖掘等常用算法类型。
- 易部署:与原生Spark算法保持完全一致的类和接口定义,无需上层应用做任何修改。
父主题: 算法库介绍