鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

Master主备手动倒换

问题现象描述

集群运行过程中,进行主Master节点维护等动作时,需要手动进行主备倒换。

关键过程、根本原因分析

无。

结论、解决方案及效果

Master主备倒换过程中Donau Scheduler存在不可服务时间,不可服务时间内执行CLI命令会显示异常。具体可参见《HPC 22.0.RC1 用户指南》 > 多瑙调度器 > 集群管理 > 高可用 > Master高可用章节。

在确保指定服务器Master可用的情况下,在如下方法中选择一个执行:

方法一:重启主Master节点服务,促使服务在中断过程中切回备Master节点,继续提供Donau Scheduler作业管理和资源调度能力。

  1. 使用PuTTY工具,以DonauKit运维登录用户(如donau_guest)登录主Master节点。
  2. 执行以下命令,切换至root帐户。

    su - root

  3. 执行以下命令,重启Master服务。

    systemctl restart batch-master.service

方法二:配置Primary Master,主Master恢复服务后,服务会自动从备Master切回,主Master继续提供Donau Scheduler作业管理和资源调度能力。

  1. 使用PuTTY工具,以DonauKit运维登录用户(如donau_guest)登录Master目标节点。
  2. 执行以下命令,切换至root帐户。

    su - root

  3. 执行以下命令,打开配置文件。

    vi /opt/batch/master/conf/master.properties

  4. 按“i”进入编辑模式,修改“master.primary”为“true”。
    master.primary=true
  5. 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  6. 执行以下命令,重启Master服务。Master会获得高优先级,优先成为主Master

    systemctl restart batch-master.service