鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

特性清单

特性

特性描述

约束

软件包获取

是否支持在虚拟机使用

对虚拟机使用的支持情况说明

openEuler毕昇JDK性能优化

openEuler操作系统基于大数据核心组件Hive、Spark实现性能优化。

  • 操作系统支持:openEuler 20.03 LTS。
  • 组件约束:适用Hive 2.X/3.X,Spark 2.X。
  • 性能指标:Hive性能提升2%~25%,Spark性能提升3%~25%。

openEuler系统镜像文件/毕昇二进制包:

openEuler支持作为Guest OS使用,毕昇JDK支持在虚拟机场景使用,两者同时在虚拟机场景使用时会有性能提升,提升幅度以使用虚拟机规格测试为准。

毕昇JDK

毕昇JDK基于大数据核心组件Hive、Spark实现性能优化。

  • 操作系统支持:CentOS 7.6、openEuler 20.03 LTS。
  • 组件约束:适用Hive 2.X/3.X,Spark 2.X。
  • 性能指标:Hive性能提升5%~12%,Spark性能提升4%~20%。

毕昇二进制包:

毕昇JDK软件包

毕昇JDK支持在虚拟机场景使用,相比对应版本OpenJDK会有性能提升,提升幅度以使用虚拟机规格测试为准。

机器学习算法加速库

图分析算法加速库

基于Spark分布式机器学习&图分析算法加速库。

  • 操作系统支持:CentOS 7.6、openEuler 20.03 LTS。
  • 组件约束:适配Spark 2.3.2、Spark 2.4.5、Spark 2.4.6版本,部分算法支持Spark 3.1.1和Spark 3.3.1,与原生算法库提供相同的接口;其他Spark 2.X、Spark 3.X版本技术上兼容,根据需求适配。
  • 硬件约束:仅支持鲲鹏服务器。
  • 混部约束:通过计算队列支持鲲鹏与其他芯片架构服务器混部的Spark集群;不支持机器学习&图分析算法与开源算法混合运行在同一个任务。
  • 性能指标:基于鲲鹏5220的机器学习&图分析算法加速库相比基于Intel 5318的Spark原生MLlib和GraphX,相同精度下计算性能提升20%以上。

JAR包:

  • 机器学习算法支持在虚拟机场景使用,性能提升幅度以使用虚拟机规格测试为准。
  • 图分析算法支持在虚拟机场景使用,性能提升幅度以使用虚拟机规格测试为准。

OmniRuntime OmniData

基于Spark实现SQL算子下推。

  • 操作系统支持:CentOS 7.6、openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
  • 组件约束:
    • 适用于存算分离场景或大规模存算融合场景。
    • 适用Spark 3.0.0/3.1.1、Hive 3.1.0(Tez 0.10.0),其他Spark版本技术上支持,根据市场需求适配。
    • 不支持鲲鹏和其他芯片服务器混部场景。
  • 性能指标:Spark基于TPC-H测试用例12条算子下推的SQL性能平均提升40%。Hive基于TPC-H测试用例4条算子下推SQL性能平均提升20%。

JAR包:

OmniData软件包

虚拟机的存算分离部署场景和存算融合部署场景,数据均有本地性特征,适用算子下推特性。

OmniRuntime OmniOperator

基于Spark、Hive实现Native算子加速,支持与OmniRuntime Shuffle加速叠加使用。

  • 操作系统支持:openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。
  • 组件约束:
    • 适用Spark 3.1.1、Spark 3.3.1、Spark 3.4.3、Spark 3.5.2和Hive 3.1.0版本,其他Spark及Hive版本技术上支持,根据市场需求适配。
    • 不支持鲲鹏和其他芯片服务器混部场景。
  • 性能指标:OmniOperator基于TPC-DS 99条SQL实现Spark性能提升30%,Hive性能提升20%+。

JAR包:

OmniOperator软件包

Spark和Hive计算引擎内核优化,适用于虚拟化场景。

OmniRuntime Shuffle加速

基于OCK for Spark实现Shuffle过程加速,支持与OmniRuntime OmniOperator叠加使用。

  • 操作系统支持:

    CentOS 7.6 ARM、EulerOS 2.0 SP9 ARM、openEuler 20.03 LTS。

  • 组件约束:
    • 网卡驱动 Mellanox 5.1-2.4.1.0
    • JDK 1.8.0_292
    • GCC 7.3.0
    • ZooKeeper 3.7.0
    • Hadoop 3.1.1
    • Spark 2.4.6及以上
    • Python 2.7及以上
    • Hibench 7.1(推荐)
    • 不支持鲲鹏和其他芯片服务器混部场景
  • 性能指标:

    ESS模式下

    • 384GB内存/节点、3+1服务器2*鲲鹏920 5220处理器、至少10GE网络(10GE TCP、25GE TCP/RDMA、100GE TCP/RDMA)、12*4TB SATA盘典型配置下。
    • Terasort场景:1TB数据量,性能提升40%+。
    • PageRank(Spark Core)场景:90GB数据量,性能提升100%+。
    • TPC-DS场景:8TB数据量,OmniShuffle Spark性能提升30%,OmniShuffle叠加OmniOperator Spark性能提升60%+。

    RSS模式下

    TPC-DS场景:3TB数据量,相比友商Celeborn性能提升10%。

JAR包路径:

OmniShuffle软件包

该特性依赖网络硬件。

  • TCP网络适用虚拟机场景。
  • RDMA网络依赖于虚拟化是否支持RDMA。

OmniRuntime OmniMV

基于Spark、ClickHouse实现物化视图智能推荐。

  • 操作系统支持:openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。
  • 组件约束:
    • 适用Spark 3.1.1、Spark 3.4.3,其他Spark版本技术上支持,根据市场需求适配。
    • 适用ClickHouse 22.3.6.5,其他Spark版本技术上支持,根据市场需求适配。
    • 不支持鲲鹏和其他芯片服务器混部场景。
  • 性能指标:OmniMV基于TPC-DS基准测试用例实现Spark组件计算性能平均提升30%,基于Star Schema BenchMark实现ClickHouse计算性能平均提升数倍。

JAR包:

OmniMV软件包

OmniMV中涉及的算法模型适用于虚拟化场景。

OmniRuntime OmniAdvisor

使用AI实现Spark/Hive参数自动推荐。

  • 操作系统支持:openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。
  • 组件约束:
    • 适用Spark 3.1.1、Spark 3.3.1和Hive 3.1.0(只支持Hive on Tez模式),其他Spark及Hive版本技术上支持,根据市场需求适配。
    • 不支持鲲鹏和其他芯片服务器混部场景。
  • 性能指标:OmniAdvisor基于TPC-DS 10条SQL实现Spark性能提升10%。

JAR包:

OmniAdvisor软件包

OmniAdvisor适用于虚拟机场景。

OmniRuntime OmniHBaseGSI

HBase全局二级索引,倍级提升非Rowkey列查询。

  • 操作系统支持:openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。
  • 组件约束:
    • 适用HBase 2.4.14,其他Spark及Hive版本技术上支持,根据市场需求适配。
    • 不支持鲲鹏和其他芯片服务器混部场景。
  • 性能指标:OmniHBaseGSI在100并发下,平均时延小于30ms,P99时延小于300ms。

JAR包:

OmniHBaseGSI软件包

OmniHBaseGSI适用于虚拟机场景。

OmniRuntime OmniShield

OmniShield基于TEE环境,提供Spark数据、网络、磁盘加解密和应用级远程证明能力,保障数据在存储、传输、计算全生命周期的安全性。

  • 操作系统支持:openEuler 22.03 LTS SP4。
  • 组件约束:
    • 当前只支持AES/GCM/NOPadding128位或256位密钥长度。只支持SM4/GCM/NOPadding128位密钥长度。
    • OmniShield机密大数据不提供KMS服务,也不限定使用的KMS,需用户自己提供KMS服务和KMS的实现。
    • 适用Spark 3.1.1、Spark 3.3.1,其他Spark版本技术上支持,根据市场需求适配。
  • 性能指标:OmniShield基于大数据联盟TPCDS 99条基准测试用例实现全计算链路安全对比物理机平均性能损耗不超过20%。

JAR包:

OmniShield软件包

OmniShield适用于虚拟机场景。

OmniRuntime OmniScheduler

OmniScheduler支持Yarn容量调度策略按照物理资源和逻辑资源自定义权重排序分配容器。

  • 操作系统支持:openEuler 22.03 LTS SP3。
  • 组件约束:

    适用Spark 3.1.1、Spark 3.4.3、Hive 3.1.0、Hadoop 3.3.4,其他Spark版本技术上支持,根据市场需求适配。

  • 性能指标:OmniScheduler基于TPC-DS基准测试用例实现集群低负载方差稳定性提升100%+。

JAR包:

OmniScheduler软件包

OmniScheduler适用于虚拟机场景。