鲲鹏BoostKit大数据OmniRuntime加速底座
大数据OmniRuntime通过插件化的形式,端到端提升数据获取、数据计算、数据交换和数据缓存的性能,从而提升大数据分析性能
SparkHiveClickHouseHBase
OmniRuntime
OmniAdvisor 参数调优
OmniData
算子下推
数据获取阶段
OmniShuffle
Shuffle加速
数据交换阶段
OmniOperator
算子加速
数据处理阶段
OmniMV
物化视图
数据缓存阶段
OmniHBaseGSI
全局二级索引
毕昇JDKopenEuler
鲲鹏服务器

鲲鹏BoostKit大数据使能套件OmniRuntime特性包含OmniData算子下推、OmniOperator算子加速、OmniShuffle Shuffle加速、OmniMV物化视图、OmniAdvisor参数调优、OmniHBaseGSI全局二级索引六大子特性,对数据获取、计算、交换、处理、缓存等阶段多维度优化,插件化解耦交付,提升不同场景大数据引擎性能
OmniRuntime特性价值
统一加速底座
多样化的计算引擎和开源组件中优化项存在重复应用,甚至冲突导致计算性能下降。OmniRuntime加速底座,以插件化形式,支撑不同引擎,减少重复优化,提升计算性能
全周期性能优化
OmniRuntime通过OmniData算子下推、OmniOperator算子加速、OmniShuffle Shuffle加速、OmniMV物化视图、OmniAdvisor参数调优、OmniHBaseGSI全局二级索引优化六大子特性,在数据获取、计算、交换、处理、缓存等阶段进行端到端的性能优化,可实现大数据场景性能提升超30%
OmniRuntime子特性
算子下推、算子加速、Shffule加速、参数调优、全局二级索引共用的OmniRuntime闭源软件包请从 资源下载 页面获取
OmniOperator算子加速
大数据主流引擎以Java/Scala高级编程语言为主,受到语义限制,无法完全发挥CPU算力,性能也较弱于Native Code。且大数据现有引擎以行式内存数据结构进行计算,无法充分利用芯片的向量化指令。OmniOperator算子加速特性,实现算子的Native化加速,以列式内存数据格式OmniVec进行内存计算,利用鲲鹏加速库,提升算子执行效率,优化SQL计算性能,从而提升查询引擎的查询性能。
关键技术
列式存储数据格式、Native化加速、调用鲲鹏指令提升算子执行效率
应用场景
大数据离线分析场景
适用范围
Spark 3.1.1、 Spark 3.3.1、Spark 3.4.3、Spark 3.5.2、Hive 3.1.0
