ZK全部故障恢复后Global Cache进程重启后卡住
问题现象描述
故障所有ZK,ZK恢复之后,GC意外重启,且重启卡住50分钟未成功。
根本原因分析
ZK故障恢复之后,CCM获取分布式锁失败,主动重启,重启过程中卡住,业务未恢复
解决方案
手动扩缩容该故障节点,避免影响业务。
执行命令。
# 进入mgrtool attach CCM ccm whoami # 查看CCM master # 进入 CCM master mgrtool # 设置永久故障(节点踢出集群,需要先把对应id的GC进程down掉) ccm set permanentFault # 恢复永久故障节点到集群(磁盘需要保证无数据[即BDM格式化]) ccm start failback # 开始扩容 ccm start scaleout # 查看扩容状态 ccm show scaleout status
父主题: 系统启动异常