slurm调度系统管理员常用命令整理
节点状态管理
显示节点、队列状态:
1 | sinfo |
查看指定节点状态:
1 | sinfo -N | grep NODENAME |
查看下线节点:
1 | sinfo -R |
下线节点:
1 | scontrol update nodename=NODENAME state=down reason=MESSAGE |
标记节点:
1 | scontrol update nodename=NODENAME state=drain reason=MESSAGE |
节点恢复上线:
1 | scontrol update nodename=NODENAME state=resume |
作业状态管理
查看所有作业:
1 | squeue |
查看指定用户作业:
1 | squeue -u USERNAME |
查看指定节点上的作业:
1 | squeue -w NODENAME |
查看指定作业详细信息:
1 | scontrol show jobid JOBID |
更改作业排队权重:
1 | scontrol update jobid=JOBID Priority=NUM |
更改作业运行时限:
1 | scontrol update jobid=JOBID TimeLimit=xx-xx:xx:xx |
节点预约管理
创建节点预约:
1 | scontrol create reservation=NAME StartTime=xxxx-xx-xxTxx:xx:xx EndTime=xxxx-xx-xxTxx:xx:xx Users=USERNAME Nodes=NODE/NODELIST |
修改预约属性:
1 | scontrol update reservation=NAMEStartTime=xxxx-xx-xxTxx:xx:xx EndTime=xxxx-xx-xxTxx:xx:xx Users=USERNAME Nodes=NODE/NODELIST |
查看节点预约:
1 | scontrol show reservation |
用户管理
查看所有用户:
1 | sacctmgr show user |
删除用户:
1 | sacctmgr -i delete user USERNAME |
