中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

安装Slurm

操作步骤

  1. 使用PuTTY工具,以root用户登录服务器。
  2. 执行以下命令在master、testnode1和testnode2节点上安装slurm相关包。

    cd /home/slurmrpm

    yum install -y slurm*

  3. 执行以下命令检查所有节点系统中是否已经创建slurm用户。
    • 如果已经创建,则执行以下命令进行查看:

      grep "slurm" /etc/group

      slurm:x:202:
    • 如果没有创建,则执行以下命令在master、testnode1和testnode2节点上创建slurm用户。

      groupadd -g 202 slurm

      useradd -u 202 -g 202 slurm

  4. 执行以下命令在master、testnode1和testnode2节点下创建“/var/spool/slurm/ssl”目录、“/var/spool/slurm/d”目录和“/var/log/slurm”目录。

    mkdir -p /var/spool/slurm/ssl

    mkdir -p /var/spool/slurm/d

    mkdir -p /var/log/slurm

  5. 执行以下命令在master、testnode1和testnode2节点上设置相应目录权限。

    chown -R slurm.slurm /var/spool/slurm

  6. 执行以下命令修改matser节点上的“/etc/slurm/slurm.conf”文件。
    1. 打开“/etc/slurm/slurm.conf”文件。

      vi /etc/slurm/slurm.conf

    2. 按“i”进入编辑模式,添加如下内容。
      ControlMachine=master
      ControlAddr=192.168.40.11
      MpiDefault=none
      ProctrackType=proctrack/pgid
      ReturnToService=1
      SlurmctldPidFile=/var/run/slurmctld.pid
      SlurmdPidFile=/var/run/slurmd.pid
      SlurmdSpoolDir=/var/spool/slurm/d
      SlurmUser=slurm
      #SlurmdUser=root
      StateSaveLocation=/var/spool/slurm/ssl
      SwitchType=switch/none
      TaskPlugin=task/none
      FastSchedule=1
      SchedulerType=sched/backfill
      SelectType=select/linear
      AccountingStorageType=accounting_storage/none
      ClusterName=cluster
      JobAcctGatherType=jobacct_gather/none
      SlurmctldDebug=3
      SlurmctldLogFile=/var/log/slurm/slurmctld.log
      SlurmdDebug=3
      SlurmdLogFile=/var/log/slurm/slurmd.log
      
      NodeName=testnode1 CPUs=96 Sockets=4 CoresPerSocket=24 State=UNKNOWN
      NodeName=testnode2 CPUs=40 Sockets=4 CoresPerSocket=10 State=UNKNOWN
      
      PartitionName=ARM Nodes=testnode1 Default=YES MaxTime=INFINITE State=UP
      PartitionName=X86 Nodes=testnode1 Default=YES MaxTime=INFINITE State=UP
    3. 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  7. 执行以下命令在master节点上,将master节点的“/etc/slurm/slurm.conf”拷贝到testnode1和testnode2节点。

    scp /etc/slurm/slurm.conf testnode1:/etc/slurm

    scp /etc/slurm/slurm.conf testnode2:/etc/slurm

  8. 执行以下命令在master节点启动“slurmctld”服务。

    systemctl start slurmctld

    systemctl enable slurmctld

  9. 执行以下命令在testnode1和testnode2节点启动“slurmd”服务。

    systemctl start slurmd

    systemctl enable slurmd