大数据OmniRuntime通过插件化的形式,端到端提升数据加载、数据计算和数据交换的性能,从而提升大数据分析性能。
随着互联网的发展,数据规模出现了爆炸式的增长,需要处理的数据量越来越大,CPU算力的增长远远滞后于数据的增长。大数据开源生态也越来越丰富,但多样化的计算引擎和开源组件也同时带来了全生命周期数据处理性能提升难的问题。不同的大数据引擎采用各自独特的优化策略和技术来提高性能和效率,但有些优化项会在多个引擎中重复应用,可能存在差异或冲突,导致计算性能下降。此外,重复应用相同的优化项可能导致资源竞争和冲突,降低整体计算性能。
大数据
OmniRuntime系列特性包括:
大数据子特性已适配的开源组件和版本如表1所示。
子特性名称 |
已适配的开源组件和版本 |
---|---|
OmniData算子下推 |
Spark 3.0.0、Spark 3.1.1、Hive 3.1.0、openLooKeng 1.4.1、openLooKeng 1.6.1 |
OmniOperator算子加速 |
Spark 3.1.1、Spark 3.3.1、Hive 3.1.0、openLooKeng 1.6.1 |
OmniShuffle Shuffle加速 |
Spark 3.1.1、Spark 3.3.1、Hive 3.1.0 |
OmniMV物化视图 |
Spark 3.1.1、Hive 3.1.0、ClickHouse22.3.6.5 |
OmniAdvisor参数调优 |
Spark 3.1.1、Spark 3.3.1、Hive 3.1.0、Tez 0.10.0 |
OmniHBaseGSI全局二级索引 |
HBase 2.4.14 |
OmniShield机密大数据 |
Spark 3.3.1、Hive 3.1.0 |