方案优势
主流方案对比
业界针对数据分析预测的主流解决方案包括基于规则的分析、开源算法库,鲲鹏BoostKit大数据算法加速库对比分析结果如表1。
对比项 |
基于规则的分析技术 |
开源算法库 |
鲲鹏BoostKit大数据算法加速库 |
---|---|---|---|
使用方式 |
依赖数据库,ISV自定义规则的SQL或类SQL实现的分析技术 |
基于单机的Python算法库,或基于Spark原生算法 |
基于Spark的分布式算法增强,扩展算法种类,提升算法精度和性能 |
优势 |
|
|
|
劣势 |
|
|
NA |
使用场景 |
|
|
|
鲲鹏BoostKit大数据算法加速库的产品竞争力
鲲鹏BoostKit大数据算法加速库的产品竞争力总结如下。
- 高性能:相比开源算法,性能实现倍级提升,支持更大规模数据集。
- PCA算法,相比开源算法,性能提升10倍,支持特征规模维度提升1000倍,从万级提升至千万级,支持千万级样本量和千万级特征维度。
- DBSCAN算法,相比开源算法,性能提升24倍,支持特征维度提升5倍(2维->10维),最高可支持20维样本计算。
- 覆盖全:覆盖分类回归、特征工程、骨干分析、聚类、模式挖掘等常用算法类型。
- 易部署:与原生Spark算法保持完全一致的类和接口定义,无需上层应用做任何修改。
父主题: 算法加速库介绍