OmniRuntime简介
大数据OmniRuntime通过插件化的形式,端到端提升数据加载、数据计算和数据交换的性能,从而提升大数据分析性能。
随着互联网的发展,数据规模出现了爆炸式的增长,需要处理的数据量越来越大,CPU算力的增长远远滞后于数据的增长。大数据开源生态也越来越丰富,但多样化的计算引擎和开源组件也同时带来了全生命周期数据处理性能提升难的问题。不同的大数据引擎采用各自独特的优化策略和技术来提高性能和效率,但有些优化项会在多个引擎中重复应用,可能存在差异或冲突,导致计算性能下降。此外,重复应用相同的优化项可能导致资源竞争和冲突,降低整体计算性能。
大数据
OmniRuntime系列特性包括:
- 在数据加载阶段,使用OmniData算子下推特性实现近数据计算,减少网络数据流量。
- 在数据计算阶段,使用OmniOperator算子加速特性,用高性能Native算子替换原生Java算子,提升算子执行效率。
- 在数据交换阶段,使用OmniShuffle Shuffle加速节点间数据的交互。
- 对于存在重复查询或存在重复子查询的场景,OmniRuntime推出了OmniMV物化视图特性,用AI方式识别出收益比最高的物化视图,从而减少重复子查询的开销,提升查询效率。
- 在离线SQL查询任务的场景下,OmniRuntime使用OmniAdvisor参数调优特性,利用AI算法智能化对在线系统中运行的Spark、Hive任务进行端到端的参数调优。
- 针对HBase组件的条件查询,OmniRuntime提供了OmniHBaseGSI全局二级索引优化特性,使用独立的索引表存储索引数据,通过查询索引表提升HBase查询效率。
- 在机密计算场景下OmniRuntime提供了OmniShield机密大数据特性,提供了DataFrame、SparkSQL应用的数据源加解密能力,并可以结合Arm的机密计算TEE套件能力为Spark应用提供端到端安全防护。
- 在Hadoop集群节点间负载不均衡场景,OmniScheduler Yarn负载调度算法优化原生Capacity Scheduler调度器,基于集群节点物理资源权重计算及排序结果进行资源调度,实现资源的均衡配置和高效利用。
大数据子特性已适配的开源组件和版本如表1所示。
子特性名称 |
已适配的开源组件和版本 |
---|---|
OmniData算子下推 |
Spark 3.0.0、Spark 3.1.1、Hive 3.1.0、openLooKeng 1.4.1、openLooKeng 1.6.1 |
OmniOperator算子加速 |
Spark 3.1.1、Spark 3.3.1、Spark 3.4.3、Spark 3.5.2、Hive 3.1.0、openLooKeng 1.6.1 |
OmniShuffle Shuffle加速 |
Spark 3.1.1、Spark 3.3.1、Hive 3.1.0 |
OmniMV物化视图 |
Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、ClickHouse 22.3.6.5 |
OmniAdvisor参数调优 |
Spark 3.1.1、Spark 3.3.1、Hive 3.1.0、Tez 0.10.0 |
OmniHBaseGSI全局二级索引 |
HBase 2.4.14 |
OmniShield机密大数据 |
Spark 3.3.1、Hive 3.1.0 |
OmniScheduler Yarn负载调度算法 |
Spark 3.3.1、Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、Hadoop 3.3.4 |