安装Slurm
- 使用PuTTY工具,以root用户登录任意计算节点服务器。
- 执行以下命令安装Slurm软件(安装在共享目录规划中)。
cd /share/software/slurm/slurm-slurm-19.05
make install
以上命令中以Slurm19.05为例。
- 执行以下命令拷贝Slurm控制节点“slurm.conf”配置文件到共享目录“/share/compilers/slurm/etc”。
# 创建存放共享目录配置文件
mkdir -p /share/compilers/slurm/etc/
scp root@master:/usr/local/etc/slurm.conf /share/compilers/slurm/etc/slurm.conf
scp root@master:/usr/local/etc/cgroup.conf /share/compilers/slurm/etc/cgroup.conf
master表示Slurm控制节点的节点名称,也可输入Slurm控制节点IP地址。
- 在所有待安装Slurm软件计算节点执行以下命令,创建Slurm运行所需目录并设置权限。
mkdir -p /var/spool/slurm/ssl
mkdir -p /var/spool/slurm/d
mkdir -p /var/log/slurm
chown -R slurm.slurm /var/spool/slurm
- /var/spool/slurm/ssl:此目录用于存放与Slurm相关的SSL证书或密钥文件,以支持安全通信。如果Slurm配置中启用了SSL加密,则需要在此处存储相应的证书和密钥文件。
- /var/spool/slurm/d:此目录用于存放每个节点的专用数据文件。Slurm使用这些文件来跟踪节点的状态和其他相关信息。
- /var/log/slurm:此目录存放Slurm相关日志文件的地方。通过查看这些日志文件,管理员可以了解Slurm服务的运行状况、诊断问题以及监控集群的性能。
- 在所有待安装Slurm软件计算节点执行以下命令添加环境变量(所有用户的bashrc或全局配置)。
echo 'export PATH=/share/compilers/slurm/bin:$PATH' >> /etc/profile.d/slurm.sh
echo 'export PATH=/share/compilers/slurm/sbin:$PATH' >> /etc/profile.d/slurm.sh
echo 'export LD_LIBRARY_PATH=/share/compilers/slurm/lib:$LD_LIBRARY_PATH' >> /etc/profile.d/slurm.sh
source /etc/profile.d/slurm.sh
- 在所有待安装Slurm软件计算节点执行以下命令拷贝slurmd.service服务。
cp /share/software/slurm/slurm-slurm-19.05/etc/slurmd.service /usr/lib/systemd/system/
- 执行以下命令重新加载systemd守护进程。
systemctl daemon-reload
- 以root用户执行以下命令。
slurmd -c
每次启动(systemctl start slurmd.service)或重启服务(systemctl restart slurmd.service)必须执行“slurmd -c”命令,否则会出现类似“Can't open PID file /run/slurmd.pid (yet?) after start: Operation”错误。