OmniRuntime简介

大数据OmniRuntime通过插件化的形式,端到端提升数据加载、数据计算和数据交换的性能,从而提升大数据分析性能。

随着互联网的发展,数据规模出现了爆炸式的增长,需要处理的数据量越来越大,CPU算力的增长远远滞后于数据的增长。大数据开源生态也越来越丰富,但多样化的计算引擎和开源组件也同时带来了全生命周期数据处理性能提升难的问题。不同的大数据引擎采用各自独特的优化策略和技术来提高性能和效率,但有些优化项会在多个引擎中重复应用,可能存在差异或冲突,导致计算性能下降。此外,重复应用相同的优化项可能导致资源竞争和冲突,降低整体计算性能。

大数据OmniRuntime是鲲鹏BoostKit大数据面向应用加速推出的一系列特性,通过插件化的形式,端到端提升数据加载、数据计算和数据交换的性能,从而提升大数据分析的性能。

OmniRuntime系列特性包括:OmniData算子下推、OmniOperator算子加速、OmniShuffle Shuffle加速、OmniMV物化视图、OmniAdvisor参数调优、OmniHBaseGSI全局二级索引、OmniShield机密大数据OmniScheduler Yarn负载调度算法

大数据子特性已适配的开源组件和版本如表1所示。

表1 大数据子特性已适配的开源组件和版本

子特性名称

已适配的开源组件和版本

OmniData算子下推

Spark 3.0.0、Spark 3.1.1、Hive 3.1.0、openLooKeng 1.4.1、openLooKeng 1.6.1

OmniOperator算子加速

Spark 3.1.1、Spark 3.3.1、Spark 3.4.3、Spark 3.5.2、Hive 3.1.0、openLooKeng 1.6.1

OmniShuffle Shuffle加速

Spark 3.1.1、Spark 3.3.1、Hive 3.1.0

OmniMV物化视图

Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、ClickHouse 22.3.6.5

OmniAdvisor参数调优

Spark 3.1.1、Spark 3.3.1、Hive 3.1.0、Tez 0.10.0

OmniHBaseGSI全局二级索引

HBase 2.4.14

OmniShield机密大数据

Spark 3.3.1、Hive 3.1.0

OmniScheduler Yarn负载调度算法

Spark 3.3.1、Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、Hadoop 3.3.4