存储维护工具库
概述
为解决单盘IO响应慢影响用户业务的问题,传统做法是通过专家经验给出盘上IO响应慢的时间阈值来识别故障盘,这种方式存在盘上IO慢,但上层业务未受影响时踢盘和盘上IO未达到阈值但影响了实际业务的场景。智能慢盘检测算法旨在结合盘上IO数据和上层业务时延数据,通过机器学习算法,不依赖经验阈值条件下识别出影响用户业务的故障盘。
技术原理
对于硬盘的故障检测,传统的做法是通过专家经验给出盘上IO响应慢的时间阈值来识别故障盘。但是这种使用阈值检测的传统方式存在问题如下问题。
- 盘上IO慢,但上层业务未受影响时踢盘。
- 盘上IO未到达阈值,但影响了实际业务的场景。
为了能够解决硬盘故障检测技术的痛点问题,开发智能故障预测算法旨在结合SMART数据,通过机器学习算法,不依赖经验阈值条件下提前识别出影响用户业务的故障盘,致力于达到在盘故障问题影响到业务之前进行提前预测,发出告警的目标功能特性,以便客户及时进行处理,避免盘故障影响业务功能而造成损失。
图1 KSML原理图
在分布式存储系统中一般存在多个节点,每个节点上存在多块硬盘,通过对逻辑数据的拆分,多个硬盘之间共同参与数据的存储。在分布式存储系统的每个设备上一般存在多块硬盘,硬盘之间由于坏道和外界环境的原因,不同硬盘之间处理IO请求的时长可能存在差异,导致对IO请求响应过慢,严重的时候可能导致业务中断影响整个集群的性能。因此通过在业务运行的时候提前检测出慢盘,通过业务隔离能够显著降低集群的长尾时延和集群性能的稳定性。通过采集系统磁盘的w_await完成通过慢盘检测算法对磁盘数据的异常数据识别和计算确认磁盘状态。
图2 HDD/SSD慢盘检测工作流程图片
图3 磁盘故障预测基本流程
预期效果
- HDD/SSD慢盘检测功能:HDD/SSD SATA FDR>80%,Precision>70%
- HDD故障预测功能:HDD SATA FDR >60% FAR< 0.5%
- SSD故障预测功能:SSD SATA FDR >80% FAR< 0.3%
父主题: 方案特性