集群环境
集群规划的环境由五台服务器组成,分别是客户端(1台)、控制节点(1台)、计算节点(3台),组网图如图1所示。其中控制节点作为大数据集群的server端,计算节点分别是大数据集群的agent1、agent2和agent3。在POC测试场景下,客户端可部署在控制节点上。
集群硬件配置
集群内所有节点使用的环境如表1所示:
集群软件版本
使用到的相关软件版本如下表2所示:
| 项目 | 节点类型 | 要求 | 
|---|---|---|
| OS | 所有节点 | openEuler 22.03 LTS SP1 | 
| JDK | 所有节点 | BiSheng JDK 1.8.0_342 | 
| ZooKeeper | 计算节点 | 3.6.2 | 
| Hadoop | 所有节点 | 3.2.0 | 
| Spark | 所有节点 | Spark 3.3.1 | 
 
 
     - 集群部署可参考《Spark集群 部署指南(CentOS 7.6&openEuler 20.03)》,Spark部署模式为Spark on Yarn。
- 当前鲲鹏算法库兼容Spark 3.3.1(仅支持部分算法,详情请参见约束与限制),其他平台暂未验证,基于安全诉求,建议使用高版本。
     父主题: Spark鲲鹏集群部署
    
   