鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

硬盘故障

服务器下电后拔出RAID组所有成员盘,被拔出的硬盘Fault指示灯将点亮,RAID信息将保留。

删除RAID组无法恢复硬盘Fault指示灯,需通过以下操作恢复:

问题描述

当服务器出现如下现象时,说明硬盘故障。

  • 硬盘故障指示灯常亮。
  • 服务器开机状态下,硬盘指示灯不亮。
  • 服务器上报硬盘故障告警。

处理方法

  1. 确认故障硬盘槽位。
    • 通过硬盘故障指示灯处于橙色常亮状态确认故障硬盘槽位,请参考各型号服务器用户指南硬盘编号章节。
    • 通过管理软件iMana/iBMC硬盘告警信息确认故障硬盘槽位,请参考iMana/iBMC告警参考。
    • 通过控制卡GUI界面确认故障硬盘槽位信息,请参见《SP686C RAID控制卡 用户指南》中的“Physical Drive Management”章节。
    • 通过控制卡命令行工具确认故障硬盘槽位信息,请参见《SP686C RAID控制卡 用户指南》中的“查询控制卡硬盘列表”章节。
  2. 更换新硬盘。
    • 更换硬盘前,为避免拔错硬盘导致RAID组失效,请务必提前确认好硬盘槽位,参考1。如硬盘故障为人为在线插拔RAID组中的硬盘或硬盘背板导致,则可以将硬盘设置为Unconfigured Good后,参见《SP686C RAID控制卡 用户指南》中的“导入和清除外部配置”章节恢复RAID组,无需更换硬盘。
    • 若故障硬盘属于直通盘或非冗余RAID组(即RAID0),则硬盘数据不可恢复。
    • 若故障硬盘属于冗余RAID组且已故障硬盘数量未超过RAID组支持的最大故障硬盘数量时,则RAID组数据不会丢失;否则RAID组数据会丢失。请参见《《SP686C RAID控制卡 用户指南》中的“多种RAID类型”章节查看RAID组支持的最大故障硬盘数量。
    • 更换硬盘时,故障硬盘在脱离硬盘背板后,需要等待30秒再插入新硬盘。此时硬盘告警依然存在,待RAID组重构完成后告警消除。为避免新硬盘二次离线告警,请避免反复高频率在线插拔硬盘。
    • 新插入的硬盘不能带有RAID信息,若插入的硬盘存在RAID信息,则需要在原RAID创建时使用的同型号控制卡下删除RAID信息或者进行硬盘低格,具体请参考各型号控制卡删除RAID信息或硬盘低格章节。
    • 新硬盘必须与RAID组成员盘类型一致且容量不小于RAID组成员盘的容量。

    拔出故障硬盘,在故障硬盘槽位插入新硬盘,新硬盘根据原故障硬盘的RAID配置情况有如下恢复方式:

    • 若故障硬盘所属RAID组已配置热备盘,新插入的硬盘在热备盘重构完成后会进行回拷动作。新硬盘回拷完成后,原热备盘恢复热备状态。
    • 若故障硬盘所属RAID组为冗余RAID且未配置热备盘,新插入的硬盘自动执行rebuild操作重构故障硬盘数据,操作完成;如RAID组中故障硬盘数量超过1块,则需要按照硬盘故障时间由远及近的顺序逐一更换,且需要在已更换硬盘重构完成后再依次更换其他故障硬盘。
    • 若故障硬盘为直通盘,则直接更换即可。
    • 若故障硬盘属于非冗余RAID组(即RAID0),则需要重新创建RAID0。