主流方案对比
业界针对数据分析预测的主流解决方案包括基于规则的分析、开源算法库,鲲鹏BoostKit大数据算法加速库对比分析结果如表1。
表1 主流方案对比对比项
|
基于规则的分析技术
|
开源算法库
|
鲲鹏BoostKit大数据算法加速库
|
使用方式
|
依赖数据库,ISV自定义规则的SQL或类SQL实现的分析技术
|
基于单机的Python算法库,或基于Spark开源版本算法
|
基于Spark的分布式算法增强,扩展算法种类,提升算法精度和性能
|
优势
|
|
- 支持分类预测、聚类、社团挖掘等高复杂度的数据分析
- 分布式内存计算,性能较SQL高
|
- 分布式算法种类多,场景支撑全面
- 算法精度高,性能提升明显
- 支持大规模数据集分析
|
劣势
|
- 人工定制规则,准确度低
- 数据分析时间长
- 不支持趋势预测等复杂分析
|
- 单机算法的算力有限,无法应对大规模数据集的分析
- 分布式算法种类有限,场景覆盖不全
|
NA
|
使用场景
|
|
|
|
鲲鹏BoostKit大数据算法加速库的产品竞争力
鲲鹏BoostKit大数据算法加速库的产品竞争力总结如下。
- 高性能:相比开源算法,性能实现倍级提升,支持更大规模数据集。
- PCA算法,相比开源算法,性能提升10倍,支持特征规模维度提升1000倍,从万级提升至千万级,支持千万级样本量和千万级特征维度。
- DBSCAN算法,相比开源算法,性能提升24倍,支持特征维度提升5倍(2维->10维),最高可支持20维样本计算。
- 覆盖全:覆盖分类回归、特征工程、骨干分析、聚类、模式挖掘等常用算法类型。
- 易部署:与Spark开源版本算法保持完全一致的类和接口定义,无需上层应用做任何修改。