特性清单
-
openEuler操作系统基于大数据核心组件Hive、Spark实现性能优化。
约束及详情1、操作系统支持
openEuler 20.03 LTS。
2、组件约束
适用Hive 2.X/3.X,Spark 2.X。
3、性能指标
Hive性能提升2%~25%,Spark性能提升3%~25%。
-
毕昇JDK基于大数据核心组件Hive、Spark实现性能优化。约束及详情
1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
2、组件约束适用Hive 2.X/3.X,Spark 2.X。
3、性能指标
Hive性能提升5%~12%,Spark性能提升4%~20%。
-
基于Spark分布式机器学习算法加速库。
约束及详情1、算法列表
分类回归(随机森林、GBDT、SVM、逻辑回归、线性回归、决策树、XGBoost)算法、聚类(Kmeans、DBSCAN、LDA)算法、特征工程(PCA、SVD、Pearson、Covariance、Spearman、IDF)算法、模式挖掘(PreFixSpan、SimRank)。
2、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
3、组件约束
适配Spark 2.3.2、Spark 2.4.5、Spark 2.4.6版本,部分算法支持Spark 3.1.1和Spark 3.3.1,与开源版本算法库提供相同的接口;其他Spark 2.X、Spark 3.X版本技术上兼容,根据需求适配。 4、硬件约束 仅支持鲲鹏服务器。5、混部约束
通过计算队列支持鲲鹏与其他芯片架构服务器混部的Spark集群。
6、性能指标
基于鲲鹏5220的机器学习算法加速库相比基于Intel 5318的Spark开源版本MLlib和GraphX,相同精度下计算性能提升20%以上。 -
基于Spark、openLooKeng实现SQL算子下推。
约束及详情1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
-
适用于存算分离场景或大规模存算融合场景。
- 适用Spark 3.0.0、Spark 3.1.1、Hive 3.1.0(Tez 0.10.0)、openLooKeng 1.4.0和openLooKeng 1.6.1版本,其他Spark及openLooKeng版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
Spark和openLooKeng基于TPC-H测试用例12条算子下推的SQL性能平均提升40%。Hive基于TPC-H测试用例4条算子下推SQL性能平均提升20%。
-
基于Spark、Hive实现Native算子加速,支持与OmniRuntime Shuffle加速叠加使用。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
-
适用Spark 3.1.1和openLooKeng 1.6.1版本,其他Spark及openLooKeng版本技术上支持,根据市场需求适配。
不支持鲲鹏和其他芯片服务器混部场景。3、性能指标
算子加速基于TPC-DS 99条SQL实现Spark性能提升30%。 -
基于Spark、ClickHouse实现物化视图智能推荐。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
- 适用Spark 3.1.1,其他Spark版本技术上支持,根据市场需求适配。
- 适用ClickHouse 22.3.6.5,其他Spark版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
物化视图基于TPC-DS基准测试用例实现Spark组件计算性能平均提升30%,基于Star Schema BenchMark实现ClickHouse计算性能平均提升数倍。
-
基于OCK for Spark实现Shuffle过程加速,支持与OmniRuntime OmniOperator叠加使用。约束及详情
1、操作系统支持
CentOS 7.6、EulerOS 2.0 (SP9)、openEuler 20.03 LTS。
2、组件约束
- 网卡驱动 Mellanox 5.1-2.4.1.0 JDK 1.8.0_292 GCC 7.3.0 ZooKeeper 3.7.0 Hadoop 3.1.1 Spark 2.4.6及以上 Python 2.7及以上 Hibench 7.1(推荐) 不支持鲲鹏和其他芯片服务器混部场景
3、性能指标
ESS模式下
- 384GB内存/节点、3+1服务器2*鲲鹏920 5220处理器、至少10GE网络(10GE TCP、25GE TCP/RDMA、100GE TCP/RDMA)、12*4TB SATA盘典型配置下。
- Terasort场景:1TB数据量,性能提升40%+。
- PageRank(Spark Core)场景: 90GB数据量,性能提升100%+。
- TPC-DS场景:8TB数据量,OmniShuffle Spark性能提升30%,OmniShuffle叠加OmniOperator Spark性能提升60%+。 RSS模式下 TPC-DS场景:3TB数据量,相比友商Celeborn性能提升10%。
-
-
2.0.0:通过AI迭代调优、专家规则调优、迁移泛化调优以及算子加速调优,对任务进行参数采样和优化配置推荐,从而实现对Spark任务端到端的参数调优。
1.0.0:使用AI实现Spark/Hive参数自动推荐。
约束及详情1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
- 适用Spark 3.1.1、Spark 3.3.1和Hive 3.1.0(只支持Hive on Tez模式),其他Spark及Hive版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
-
2.0.0:与专家调优后的参数相比,OmniAdvisor参数调优2.0在TPC-DS 3TB数据集上的性能提升了约20%。
1.0.0:OmniAdvisor参数调优1.0基于TPC-DS 10条SQL实现Spark性能提升10%。
-
HBase全局二级索引,倍级提升非Rowkey列查询。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。2、组件约束
- 适用HBase 2.4.14,其他Spark及Hive版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
OmniHBaseGSI在100并发下,平均时延小于30ms,P99时延小于300ms。
-
OmniShield基于TEE环境,提供Spark数据、网络、磁盘加解密和应用级远程证明能力,保障数据在存储、传输、计算全生命周期的安全性。约束及详情
1、操作系统支持
openEuler 22.03 LTS SP4。2、组件约束
- 当前只支持AES/GCM/NOPadding 128位或256位密钥长度。只支持SM4/GCM/NOPadding 128位密钥长度。
- OmniShield机密大数据不提供KMS服务,也不限定使用的KMS,需用户自己提供KMS服务和KMS的实现。
- 适用Spark 3.3.1,其他Spark版本技术上支持,根据市场需求适配。
3、性能指标OmniShield基于大数据联盟TPCDS 99条基准测试用例实现全计算链路安全对比物理机平均性能损耗不超过20%。
-
OmniScheduler支持Yarn容量调度策略按照物理资源和逻辑资源自定义权重排序分配容器。约束及详情
1、操作系统支持
openEuler 22.03 LTS SP3。2、组件约束
- 适用Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、Hadoop 3.3.4,其他Spark版本技术上支持,根据市场需求适配。
3、性能指标OmniScheduler基于TPC-DS基准测试用例实现集群低负载方差稳定性提升100%+。
-
基于Flink提供的状态存储后端插件机制,提供状态存储的加速,从而提升Flink的整体性能。
约束及详情1、操作系统支持
openEuler 22.03 LTS SP3。2、组件约束
- 适用Flink 1.16.3、1.17.1版本,其他Flink版本技术上支持,根据市场需求适配。
- 不仅支持在华为鲲鹏计算平台上运行,也支持通用的X86服务器上运行。
3、性能指标解决大数据场景下,针对大状态下IO性能较差的问题,实现了一种新型的状态存储方式,提升了Flink的IO性能。
-
基于Flink采用Native Code(C/C++)实现Flink算子来提高查询性能。
约束及详情1、操作系统支持
openEuler 22.03 LTS SP4。2、组件约束
- 适用适用Flink 1.16.3版本,其他Flink版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标OmniStream基于Nexmark 22条SQL基准测试用例实现Flink组件计算性能平均提升300%+,针对京东wordcount性能对比原生为其1.31倍,美团无状态用例对比原生为其2.21倍。
- 适用适用Flink 1.16.3版本,其他Flink版本技术上支持,根据市场需求适配。
支持openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持openEuler 20.03 LTS
支持openEuler 20.03 LTS
支持CentOS 7.6 ARM、EulerOS 2.0 SP9 ARM、openEuler 20.03 LTS
支持openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1
支持openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1
支持openEuler 22.03 LTS SP4
支持openEuler 22.03 LTS SP3
支持openEuler 22.03 LTS SP3
支持openEuler 22.03 LTS SP3