安装Slurm
操作步骤
- 使用PuTTY工具,以root用户登录服务器。
- 执行以下命令在master、testnode1和testnode2节点上安装slurm相关包。
cd /home/slurmrpm
yum install -y slurm*
- 执行以下命令检查所有节点系统中是否已经创建slurm用户。
- 执行以下命令在master、testnode1和testnode2节点下创建“/var/spool/slurm/ssl”目录、“/var/spool/slurm/d”目录和“/var/log/slurm”目录。
mkdir -p /var/spool/slurm/ssl
mkdir -p /var/spool/slurm/d
mkdir -p /var/log/slurm
- 执行以下命令在master、testnode1和testnode2节点上设置相应目录权限。
chown -R slurm.slurm /var/spool/slurm
- 执行以下命令修改matser节点上的“/etc/slurm/slurm.conf”文件。
- 打开“/etc/slurm/slurm.conf”文件。
vi /etc/slurm/slurm.conf
- 按“i”进入编辑模式,添加如下内容。
ControlMachine=master ControlAddr=192.168.40.11 MpiDefault=none ProctrackType=proctrack/pgid ReturnToService=1 SlurmctldPidFile=/var/run/slurmctld.pid SlurmdPidFile=/var/run/slurmd.pid SlurmdSpoolDir=/var/spool/slurm/d SlurmUser=slurm #SlurmdUser=root StateSaveLocation=/var/spool/slurm/ssl SwitchType=switch/none TaskPlugin=task/none FastSchedule=1 SchedulerType=sched/backfill SelectType=select/linear AccountingStorageType=accounting_storage/none ClusterName=cluster JobAcctGatherType=jobacct_gather/none SlurmctldDebug=3 SlurmctldLogFile=/var/log/slurm/slurmctld.log SlurmdDebug=3 SlurmdLogFile=/var/log/slurm/slurmd.log NodeName=testnode1 CPUs=96 Sockets=4 CoresPerSocket=24 State=UNKNOWN NodeName=testnode2 CPUs=40 Sockets=4 CoresPerSocket=10 State=UNKNOWN PartitionName=ARM Nodes=testnode1 Default=YES MaxTime=INFINITE State=UP PartitionName=X86 Nodes=testnode1 Default=YES MaxTime=INFINITE State=UP
- 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
- 打开“/etc/slurm/slurm.conf”文件。
- 执行以下命令在master节点上,将master节点的“/etc/slurm/slurm.conf”拷贝到testnode1和testnode2节点。
scp /etc/slurm/slurm.conf testnode1:/etc/slurm
scp /etc/slurm/slurm.conf testnode2:/etc/slurm
- 执行以下命令在master节点启动“slurmctld”服务。
systemctl start slurmctld
systemctl enable slurmctld
- 执行以下命令在testnode1和testnode2节点启动“slurmd”服务。
systemctl start slurmd
systemctl enable slurmd
父主题: Slurm的安装配置