阿里云 11.12 故障原因曝光 |
您所在的位置:网站首页 › 阿里云服务器故障原因 › 阿里云 11.12 故障原因曝光 |
针对阿里云 11.12 的重大服务故障, 该公司发给客户的一份「官方故障报告」昨天在网上被广泛流传。 事件回顾:阿里云严重故障,全线产品受影响(已恢复) 事件回顾:阿里云严重故障,全线产品受影响(已恢复) 影响范围 1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。 2、云产品控制台、管控 API 等功能受到影响。 时间 2023 年 11 月 12 日 17:39~19.20,故障时间为 1 小时 41 分。 问题概况 2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。 处理过程 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。 18:01:工程师定位到根因。 展开全文18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。 18:35:杭州等 Region 开始恢复正常。 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。 原因 访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。 改进措施 1、增加 AK 服务白名单生成结果的校验及告警拦截能力。 2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。 3、增加 AK 服务白名单的快速恢复能力。 4、加强云产品侧的联动恢复能力。 END 苹果变安卓? 这里有最新开源资讯、软件更新、技术干货等内容 点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~返回搜狐,查看更多 责任编辑: |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |