测试OBS时集群中一台服务器心跳状态为down的解决方法
问题现象描述
鲲鹏服务器,利用三台服务器部署Ceph,测试鲲鹏920 Ceph OBS过程中,集群中有一台服务器心跳总是down,其他两台无问题。
关键过程、根本原因分析
排除网络、路由器、防火墙等问题。
从osd.0看到发送beacon的间隔是300s,osd的参数为osd_beacon_report_interval,从monitor看到超过300s没收到osd.0 的beacon就会把osd.0 mark down,刚好在mark down之后的立即又收到了osd.0 发过来的beacon,建议检查一下monitor的参数mon_osd_report_timeout 是否小于300s。
结论、解决方案及效果
将monitor的参数mon_osd_report_timeout 调到大于300s。