鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

集群环境

集群规划的环境有五台服务器组成,分别是客户端(1台)、控制节点(1台)、计算节点(3台),组网图如图1所示。其中控制节点作为大数据集群的server端,计算节点分别是大数据集群的agent1、agent2和agent3。在POC测试场景下,客户端可部署在控制节点上。

图1 组网图

集群硬件配置

集群内所有节点使用的环境如表1所示。

表1 集群环境硬件配置

项目

要求

处理器

鲲鹏920处理器

内存大小

384GB(12*32GB)

内存频率

2666MHz

网卡

业务网络10GE,管理网络GE

硬盘

系统盘:1*RAID 0(1*1.2TB SAS HDD)

数据盘:12*RAID 0(1*4TB SATA HDD)

RAID卡

LSI SAS3508

集群软件版本

使用到的相关软件版本如下表2所示。

表2 集群环境软件推荐配置

项目

节点类型

要求

OS

所有节点

openEuler 20.03 LTS SP1

JDK

所有节点

BiSheng JDK 1.8.0_262

ZooKeeper

计算节点

3.6.2

Hadoop

所有节点

3.1.1

Spark

所有节点

Spark 2.3.2、Spark 2.4.5、Spark 2.4.6、Spark 3.1.1

  • 算法支持openEuler 20.03 LTS SP1、CentOS 7.6系统,本文档以openEuler 20.03 LTS SP1举例。
  • 集群部署可参考《Spark集群 部署指南(CentOS 7.6&openEuler 20.03)》,Spark部署模式为Spark on Yarn。
  • 当前鲲鹏算法库兼容Spark 2.3.2、Spark 2.4.5和Spark 2.4.6版本,Spark 3.1.1(仅支持部分算法,详情请参见约束与限制),其他平台暂未验证,基于安全诉求,建议使用高版本。