鲲鹏社区首页
EN
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

技术原理

对于硬盘的故障检测,传统的做法是通过专家经验给出盘上IO响应慢的时间阈值来识别故障盘。但是这种使用阈值检测的传统方式存在问题如下问题。

  • 盘上IO慢,但上层业务未受影响时踢盘。
  • 盘上IO未到达阈值,但影响了实际业务的场景。

为了能够解决硬盘故障检测技术的痛点问题,开发智能故障预测算法旨在结合SMART数据,通过机器学习算法,不依赖经验阈值条件下提前识别出影响用户业务的故障盘,以致力于达到在盘故障问题影响到业务之前进行提前预测,发出告警的目标功能特性,以便客户及时进行处理,避免盘故障影响业务功能而造成损失。

图1 KSML原理图

在分布式存储系统中一般存在多个节点,每个节点上存在多块硬盘,通过对逻辑数据的拆分,多个硬盘之间共同参与数据的存储。在分布式存储系统的每个设备上一般存在多块硬盘,硬盘之间由于坏道和外界环境的原因,不同硬盘之间处理IO请求的时长可能存在差异,导致对IO请求响应过慢,严重的时候可能导致业务中断影响整个集群的性能。因此通过在业务运行的时候提前检测出慢盘,通过业务隔离能够显著降低集群的长尾时延和集群性能的稳定性。通过采集系统磁盘的w_await完成通过慢盘检测算法对磁盘数据的异常数据识别和计算确认磁盘状态。

图2 HDD/SSD慢盘检测工作流程图片
图3 磁盘故障预测基本流程