集群环境

集群规划的环境有五台服务器组成，分别是客户端（1台）、控制节点（1台）、计算节点（3台），组网图如图1所示。其中控制节点作为大数据集群的server端，计算节点分别是大数据集群的agent1、agent2和agent3。在POC测试场景下，客户端可部署在控制节点上。

图1 组网图

集群内所有节点使用的环境如表1所示。

表1 集群环境硬件配置
项目	要求
处理器	鲲鹏920处理器
内存大小	384GB（12*32GB）
内存频率	2666MHz
网卡	业务网络10GE，管理网络GE
硬盘	系统盘：1RAID 0（11.2TB SAS HDD）数据盘：12RAID 0（14TB SATA HDD）
RAID卡	LSI SAS3508

使用到的相关软件版本如下表2所示。

算法支持openEuler 20.03 LTS SP1、CentOS 7.6系统，本文档以openEuler 20.03 LTS SP1举例。
集群部署可参考《Spark集群部署指南（CentOS 7.6&openEuler 20.03）》，Spark部署模式为Spark on Yarn。
当前鲲鹏算法库兼容Spark 2.3.2、Spark 2.4.5和Spark 2.4.6版本，Spark 3.1.1（仅支持部分算法，详情请参见约束与限制），其他平台暂未验证，基于安全诉求，建议使用高版本。

父主题： Spark鲲鹏集群部署