故障处理流程
故障处理总体流程主要分为四个过程:故障信息收集、故障判断、故障定位、故障排除。
故障信息收集
故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断
排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位
故障定位是指从众多可能原因中找出故障原因的过程。通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:
- 查看客户端日志,关注告警信息
- 查看服务端日志,关注告警信息
- 查看操作系统日志,关注告警信息
- 查看资源使用情况,关注资源满载过载现象
- 查询操作日志,分析操作过程是否有误
- 查看配置文件,检查数据配置是否正确
故障排除
故障排除是指根据不同的故障原因清除故障的过程。故障排除包括检修设备、修改配置数据、重启相关进程、重启容器、重启服务器等。
处理重大故障前,请先联系技术支持工程师协助解决。
在故障处理过程中,维护人员可能需要执行修改配置数据、重启虚拟机等重大操作,为确保数据安全,首先应该保存现场数据,备份相关数据库、告警信息和日志文件等。
当系统维护人员无法自行排除故障时,请联系技术支持工程师协助解决。
父主题: 概述