鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

方案优势

主流方案对比

业界针对数据分析预测的主流解决方案包括基于规则的分析、开源算法库,鲲鹏BoostKit大数据算法加速库对比分析结果如表1

表1 主流方案对比

对比项

基于规则的分析技术

开源算法库

鲲鹏BoostKit大数据算法加速库

使用方式

依赖数据库,ISV自定义规则的SQL或类SQL实现的分析技术

基于单机的Python算法库,或基于Spark原生算法

基于Spark的分布式算法增强,扩展算法种类,提升算法精度和性能

优势

  • 解释性强,容易理解
  • 基于SQL技术,易上手使用
  • 支持分类预测、聚类、社团挖掘等高复杂度的数据分析
  • 分布式内存计算,性能较SQL高
  • 分布式算法种类多,场景支撑全面
  • 算法精度高,性能提升明显
  • 支持大规模数据集分析

劣势

  • 人工定制规则,准确度低
  • 数据分析时间长
  • 不支持趋势预测等复杂分析
  • 单机算法的算力有限,无法应对大规模数据集的分析
  • 分布式算法种类有限,场景覆盖不全

NA

使用场景

  • 较小数据量
  • 规则准确
  • 中等数据规模
  • Spark入门级,性能需求不高场景
  • 海量数据规模
  • 高精度高性能场景

鲲鹏BoostKit大数据算法加速库的产品竞争力

鲲鹏BoostKit大数据算法加速库的产品竞争力总结如下。

  1. 高性能:相比开源算法,性能实现倍级提升,支持更大规模数据集。
    • MCE(极大团)算法:相比开源性能提升5X,算法精度100%,最高支持亿级点,十亿级边,支持数据规模较开源提升10X(开源算法仅支持亿级边规模数据)。
    • WCE(弱团发现)算法:华为独有算法,精度100%,可支持亿级点,十亿级边。
    • Louvain算法:相比开源性能提升10-30X,支持绝对收敛,可支持千万级点,亿级边;数据规模相比开源提升2X。
    • PageRank算法:相比开源性能提升1.1-4.8X,精度100%,可支持亿级点,十亿级边(与开源支持数据规模相同)。
    • Betweenness算法:相比开源性能提升10X,精度达到98%以上(开源精度不足70%),最高支持千万级点,亿级边,数据规模提升5X。
    • SubgraphMatching算法:相比开源性能提升2-40X,精度100%,最高支持百万级点,亿级边;支持数据规模较开源提升2X。
  2. 覆盖全:覆盖社团挖掘、路径分析分类回归、特征工程、骨干分析、聚类、模式挖掘等常用算法类型。
  3. 易部署:与原生Spark算法保持完全一致的类和接口定义,无需上层应用做任何修改。