鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

方案优势

主流方案对比

业界针对数据分析预测的主流解决方案包括基于规则的分析、开源算法库,鲲鹏BoostKit大数据算法加速库对比分析结果如表1

表1 主流方案对比

对比项

基于规则的分析技术

开源算法库

鲲鹏BoostKit大数据算法加速库

使用方式

依赖数据库,ISV自定义规则的SQL或类SQL实现的分析技术

基于单机的Python算法库,或基于Spark原生算法

基于Spark的分布式算法增强,扩展算法种类,提升算法精度和性能

优势

  • 解释性强,容易理解
  • 基于SQL技术,易上手使用
  • 支持分类预测、聚类、社团挖掘等高复杂度的数据分析
  • 分布式内存计算,性能较SQL高
  • 分布式算法种类多,场景支撑全面
  • 算法精度高,性能提升明显
  • 支持大规模数据集分析

劣势

  • 人工定制规则,准确度低
  • 数据分析时间长
  • 不支持趋势预测等复杂分析
  • 单机算法的算力有限,无法应对大规模数据集的分析
  • 分布式算法种类有限,场景覆盖不全

NA

使用场景

  • 较小数据量
  • 规则准确
  • 中等数据规模
  • Spark入门级,性能需求不高场景
  • 海量数据规模
  • 高精度高性能场景

鲲鹏BoostKit大数据算法加速库的产品竞争力

鲲鹏BoostKit大数据算法加速库的产品竞争力总结如下。

  1. 高性能:相比开源算法,性能实现倍级提升,支持更大规模数据集。
    • PCA算法,相比开源算法,性能提升10倍,支持特征规模维度提升1000倍,从万级提升至千万级,支持千万级样本量和千万级特征维度。
    • DBSCAN算法,相比开源算法,性能提升24倍,支持特征维度提升5倍(2维->10维),最高可支持20维样本计算。
  2. 覆盖全:覆盖分类回归、特征工程、骨干分析、聚类、模式挖掘等常用算法类型。
  3. 易部署:与原生Spark算法保持完全一致的类和接口定义,无需上层应用做任何修改。