服务器纳管
- 使用PuTTY工具,以root用户登录Slurm控制节点服务器。
- 将计算节点(鲲鹏服务器)正确添加至“/usr/local/etc/slurm.conf”配置文件中。其中“/usr/local/etc/”为Slurm控制节点配置文件slurm.conf所在目录。
- 执行以下命令,配置纳管鲲鹏服务器计算节点。
# 切换到slurm.conf所在目录
cd /usr/local/etc/
# 编辑添加计算节点(鲲鹏服务器)正确添加至“slurm.conf”配置文件中
# 打开slurm.conf配置文件
vim slurm.conf
# 添加如下配置
NodeName=master NodeAddr=192.168.1.2 CPUs=16 State=UNKNOWN
NodeName=node-001 NodeAddr=192.168.1.3 CPUs=16 State=UNKNOWN
NodeName=node-002 NodeAddr=192.168.1.4 CPUs=16 State=UNKNOWN
PartitionName=x86_64 Nodes=ALL Default=YES MaxTime=INFINITE State=UP
- “NodeName=node-002 NodeAddr=192.168.1.4 CPUs=16 State=UNKNOWN”表示新纳管的计算节点(鲲鹏服务器)。
- 配置完成后,按“Esc”,输入:wq!,按“Enter”保存并退出文件编辑。
- 将配置完成的“slurm.conf”文件同步复制到其它所有计算节点。
- 执行以下命令重启Slurm控制节点服务。
slurmctld -c
systemctl restart slurmctld.service
执行以下命令查看所有节点状态。
sinfo
执行结果回显举例如下:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 3 idle node-00[1,2],master
父主题: Slurm 18.08.7 安装指南