Global Cache集群中3个节点及以上故障恢复慢
问题现象描述
同时故障集群中的多个节点(超过3个节点)并立刻恢复故障,集群恢复时间较长,且恢复时长跟故障的节点数量正相关。10节点环境故障恢复5节点最长需要30分钟。
根本原因分析
节点故障以后未故障节点后台会执行一些操作来释放与故障节点的连接以及对应的资源,这些操作需要一定的时间来完成,在释放资源的过程中,多个故障节点恢复,产生了复杂的时序问题,导致恢复时间变长。
解决方案
集群最终可以恢复,在多个节点故障后,等待一段时间再恢复可以有效减短集群恢复时间。
父主题: 系统启动异常