图分析算法特性价值
鲲鹏BoostKit图分析算法库是经过优化的算法库,兼容Spark原生API,对典型图分析算法进行了性能优化,大幅提升了大规模场景的图分析算法计算性能
高性能
相比开源算法,性能实现倍级提升,支持更大规模数据集
覆盖全
覆盖社团挖掘、中心性分析、路径分析、图表示学习、拓扑度量以及相似性分析六类常用算法类型
易部署
与原生Spark算法保持完全一致的类和接口定义,无需上层应用做任何修改
基于原生算法,做了哪些创新优化
鲲鹏亲和性能优化
为了充分匹配和发挥鲲鹏架构的硬件优势,鲲鹏BoostKit从稀疏访存优化、多核并行等方面进行算法亲和性优化。
稀疏访存优化
图数据存储具有稀疏特性,节点的邻居访问产生大量随机访存操作,算法性能下降严重,BoostKit算法库充分利用Cache容量,对邻居信息进行压缩存储,减少随机访存次数,提升Cache命中率,进而提升访存效率。
多核并行计算
数据通信量大造成多核并行CPU利用率低,鲲鹏BoostKit针对性优化数据分区与通信量,提升多核并行计算效率。
快速使用算法库
准备集群环境
获取算法包
软件编译
软件安装
运行验证
根据集群实际部署场景,选择参考Spark鲲鹏集群环境部署或Spark混部集群部署
学习资源
介绍类:大数据进阶算法,分析性能提升20倍
介绍大数据进阶算法关键技术和创新点,并以GBDT算法为例演示了算法库的使用
操作类:如何安装图分析算法加速库
以安装图分析算法库1.3.0版本为例,使能图分析算法库,验证其相比于原生算法的优化效果
相关文档
提供配套技术文档,帮助开发者深入了解算法库
《基于鲲鹏的分布式图分析算法实战》
介绍图分析算法原理和优化技术,并结合案例解析鲲鹏BoostKit大数据图分析算法库实战应用