开发者
资源
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

安装Slurm

  1. 使用PuTTY工具,以root用户登录任意计算节点服务器。
  2. 执行以下命令安装Slurm软件(安装在共享目录规划中)。

    cd /share/software/slurm/slurm-slurm-19.05

    make install

    以上命令中以Slurm19.05为例。

  3. 执行以下命令拷贝Slurm控制节点“slurm.conf”配置文件到共享目录“/share/compilers/slurm/etc”。

    # 创建存放共享目录配置文件

    mkdir -p /share/compilers/slurm/etc/

    scp root@master:/usr/local/etc/slurm.conf /share/compilers/slurm/etc/slurm.conf

    scp root@master:/usr/local/etc/cgroup.conf /share/compilers/slurm/etc/cgroup.conf

    master表示Slurm控制节点的节点名称,也可输入Slurm控制节点IP地址。

  4. 在所有待安装Slurm软件计算节点执行以下命令,创建Slurm运行所需目录并设置权限。

    mkdir -p /var/spool/slurm/ssl

    mkdir -p /var/spool/slurm/d

    mkdir -p /var/log/slurm

    chown -R slurm.slurm /var/spool/slurm

    • /var/spool/slurm/ssl:此目录用于存放与Slurm相关的SSL证书或密钥文件,以支持安全通信。如果Slurm配置中启用了SSL加密,则需要在此处存储相应的证书和密钥文件。
    • /var/spool/slurm/d:此目录用于存放每个节点的专用数据文件。Slurm使用这些文件来跟踪节点的状态和其他相关信息。
    • /var/log/slurm:此目录存放Slurm相关日志文件的地方。通过查看这些日志文件,管理员可以了解Slurm服务的运行状况、诊断问题以及监控集群的性能。
  5. 在所有待安装Slurm软件计算节点执行以下命令添加环境变量(所有用户的bashrc或全局配置)。

    echo 'export PATH=/share/compilers/slurm/bin:$PATH' >> /etc/profile.d/slurm.sh

    echo 'export PATH=/share/compilers/slurm/sbin:$PATH' >> /etc/profile.d/slurm.sh

    echo 'export LD_LIBRARY_PATH=/share/compilers/slurm/lib:$LD_LIBRARY_PATH' >> /etc/profile.d/slurm.sh

    source /etc/profile.d/slurm.sh

  6. 在所有待安装Slurm软件计算节点执行以下命令拷贝slurmd.service服务。

    cp /share/software/slurm/slurm-slurm-19.05/etc/slurmd.service /usr/lib/systemd/system/

  7. 执行以下命令重新加载systemd守护进程。

    systemctl daemon-reload

  8. 以root用户执行以下命令。

    slurmd -c

    每次启动(systemctl start slurmd.service)或重启服务(systemctl restart slurmd.service)必须执行“slurmd -c”命令,否则会出现类似“Can't open PID file /run/slurmd.pid (yet?) after start: Operation”错误。