硬盘故障

问题描述
当服务器出现如下现象时,说明硬盘故障。
- 硬盘故障指示灯常亮。
- 服务器开机状态下,硬盘指示灯不亮。
- 服务器上报硬盘故障告警。
处理方法
- 确认故障硬盘槽位。
- 更换新硬盘。
- 更换硬盘前,为避免拔错硬盘导致RAID组失效,请务必提前确认好硬盘槽位,参考1。如硬盘故障为人为在线插拔RAID组中的硬盘或硬盘背板导致,则可以将硬盘设置为Unconfigured Good后,参见《SP686C RAID控制卡 用户指南》中的“导入和清除外部配置”章节恢复RAID组,无需更换硬盘。
- 若故障硬盘属于直通盘或非冗余RAID组(即RAID0),则硬盘数据不可恢复。
- 若故障硬盘属于冗余RAID组且已故障硬盘数量未超过RAID组支持的最大故障硬盘数量时,则RAID组数据不会丢失;否则RAID组数据会丢失。请参见《《SP686C RAID控制卡 用户指南》中的“多种RAID类型”章节查看RAID组支持的最大故障硬盘数量。
- 更换硬盘时,故障硬盘在脱离硬盘背板后,需要等待30秒再插入新硬盘。此时硬盘告警依然存在,待RAID组重构完成后告警消除。为避免新硬盘二次离线告警,请避免反复高频率在线插拔硬盘。
- 新插入的硬盘不能带有RAID信息,若插入的硬盘存在RAID信息,则需要在原RAID创建时使用的同型号控制卡下删除RAID信息或者进行硬盘低格,具体请参考各型号控制卡删除RAID信息或硬盘低格章节。
- 新硬盘必须与RAID组成员盘类型一致且容量不小于RAID组成员盘的容量。
拔出故障硬盘,在故障硬盘槽位插入新硬盘,新硬盘根据原故障硬盘的RAID配置情况有如下恢复方式:
- 若故障硬盘所属RAID组已配置热备盘,新插入的硬盘在热备盘重构完成后会进行回拷动作。新硬盘回拷完成后,原热备盘恢复热备状态。
- 若故障硬盘所属RAID组为冗余RAID且未配置热备盘,新插入的硬盘自动执行rebuild操作重构故障硬盘数据,操作完成;如RAID组中故障硬盘数量超过1块,则需要按照硬盘故障时间由远及近的顺序逐一更换,且需要在已更换硬盘重构完成后再依次更换其他故障硬盘。
- 若故障硬盘为直通盘,则直接更换即可。
- 若故障硬盘属于非冗余RAID组(即RAID0),则需要重新创建RAID0。