中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

介绍

简要介绍

Slurm是一个开源,高度可扩展的集群管理工具和作业调度系统,用于各种规模的Linux集群。主要提供如下集中关键的特性:

资源分配

分配独占或者非独占的资源给用户,可以控制分配的时长,供用户运行作业。

作业管理框架

提供一个框架,可以帮助用户控制并行作业在所分配资源上的启动、运行、监测和控制。

队列

提交的作业资源需求超出了可用资源,将作业放入队列。

不同的作业调度策略

提供资源预留,公平分享,回填等高级作业调度策略供使用。

其他工具

提供作业信息统计,作业状态诊断等工具。

建议的版本

建议使用的版本为“Slurm 18.08.7”。

软件架构

Slurm有一个集中式的管理进程,“slurmctld”,来监测和控制资源和作业;

每个计算节点有一个“slurmd”守护进程,用来等待接受作业、执行作业、返回结果、再等待下一个作业;

“slurmdbd”是可选的,用于在一个数据库中记录多个Slurm管理集群的作业统计信息;

详细信息参考如下链接:

https://slurm.schedmd.com/overview.html