[文档]运维故障报告template |
您所在的位置:网站首页 › rca分析模板 › [文档]运维故障报告template |
RCA的基本概念
根本原因分析技术(root cause analysis,RCA)。 IOWA州立大学质量管理学院认为,很多公司在设备发生故障后,都能够很快修复, 但难以发现故障的根本原因,所以此故障会再次发生。根本原因分析技术是一个发现和消除这些原因的过程, 只有当这个根本原因被发现和消除后,这个问题才能够被彻底解决。 下面是我在日常运维故障处理一个RCA模板。 for example: 问题根本原因分析(RCA)报告客户信息: RCA 索引号: 问题发生日期: 问题解决日期: xxx运营商 2021901 2019/03/27 2019/03/27 RCA 负责人: 运维A 事件发生日期及时间: 2020/03/27 事件恢复日期及时间: 2020/03/27 相关问题/事件索引号: 事件恢复记录: 日期 时间 恢复记录 2020/03/27 15:20 日常巡检,发现ceph集群一个montior down 2020/03/27 15:23 查看日志,找到原因 2020/03/27 15:26 解决完成 问题描述: 运维人员日常巡检发现主机Control01 montior down掉,业务不受影响,montior高可用部署 问题具体情况及影响面: 具体情况: 宿主机Control01, 根盘使用率接近满了,导致集群检测到空间不足,自动kill掉该该montior, 影响面: 对业务没有影响 问题发现: 运维A人员巡检发现 问题分析: 1、查看ceph集群的健康状态,发现问题 2、ceph health detail 找到了具体的故障montior节点,进去节点查看日志,发现日志提示 根盘超过Mon_data_avail_cri定义的值t导致montior down掉 问题的类型: 存储集群异常 问题的根本原因: Control01 monitor节点根磁盘空间接近满了 解决方案: 清理故障montior节点根盘无用数据 预防措施: 1、定期巡检系统根盘空间 2、谨慎存放大文件到根盘 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |