集群规划的环境有五台机器组成,分别是客户端(1台)、控制节点(1台)、计算节点(3台),组网图如图1所示。其中控制节点作为大数据集群的server端,计算节点分别是大数据集群的agent1、agent2和agent3。在POC测试场景下,客户端可部署在控制节点上。
图1 组网图
集群硬件配置
集群(控制节点和计算节点)所使用的环境如表1所示。
表1 集群环境硬件配置
项目 |
要求 |
服务器名称 |
TaiShan服务器 |
处理器 |
鲲鹏920处理器 |
内存大小 |
384GB(12 * 32GB) |
内存频率 |
2666MHz |
网卡 |
业务网络10GE,管理网络GE |
硬盘 |
系统盘:1*RAID 0(1*1.2TB SAS HDD) 数据盘:12*RAID 0(1*4TB SATA HDD) |
RAID卡 |
LSI SAS3508 |
集群软件版本
使用到的相关软件版本如表2所示。
表2 集群环境软件推荐配置
项目 |
要求 |
OS |
CentOS 7.6 |
JDK |
OpenJDK 1.8.0_252 |
HDP |
3.1.0 |
Hive |
3.1.0 |
Zookeeper |
3.4.9 |
Hadoop |
3.1.1 |
Spark |
2.3.2 |
- 集群部署可参考《Ambari 2.7.3》,Spark部署模式为Spark on Yarn。
- 当前鲲鹏算法库仅适配HDP3.1.0 Spark 2.3.2版本,其他平台暂未验证。