开发者
资源
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

服务器纳管

  1. 使用PuTTY工具,以root用户登录Slurm控制节点服务器。
  2. 将计算节点(鲲鹏服务器)正确添加至“/usr/local/etc/slurm.conf”配置文件中。其中“/usr/local/etc/”为Slurm控制节点配置文件slurm.conf所在目录。
  3. 执行以下命令,配置纳管鲲鹏服务器计算节点。

    # 切换到slurm.conf所在目录

    cd /usr/local/etc/

    # 编辑添加计算节点(鲲鹏服务器)正确添加至“slurm.conf”配置文件中

    # 打开slurm.conf配置文件

    vim slurm.conf

    # 添加如下配置

    NodeName=master NodeAddr=192.168.1.2 CPUs=16 State=UNKNOWN

    NodeName=node-001 NodeAddr=192.168.1.3 CPUs=16 State=UNKNOWN

    NodeName=node-002 NodeAddr=192.168.1.4 CPUs=16 State=UNKNOWN

    PartitionName=x86_64 Nodes=ALL Default=YES MaxTime=INFINITE State=UP

    • “NodeName=node-002 NodeAddr=192.168.1.4 CPUs=16 State=UNKNOWN”表示新纳管的计算节点(鲲鹏服务器)。
  4. 配置完成后,按“Esc”,输入:wq!,按“Enter”保存并退出文件编辑。
  5. 将配置完成的“slurm.conf”文件同步复制到其它所有计算节点。
  6. 执行以下命令重启Slurm控制节点服务。

    slurmctld -c

    systemctl restart slurmctld.service

    执行以下命令查看所有节点状态。

    sinfo

    执行结果回显举例如下:

    PARTITION AVAIL TIMELIMIT NODES STATE NODELIST

    debug* up infinite 3 idle node-00[1,2],master