微软承认员工人数少和自动化程度低导致 Azure 宕机

云原生数据库 2023-09-08

234

微软对上周导致其澳大利亚东云区域瘫痪的事件进行了初步分析，该事件似乎也给甲骨文带来了麻烦，该事件的部分原因是现场员工人数不足，从而减缓了恢复工作。

这家软件巨头将这一事件归咎于“一次公用事业电力骤降，导致一个可用区内的一个数据中心的一部分冷却装置脱机”。

据了解，微软在澳大利亚悉尼部分地区运营着一些云基础设施，这些基础设施在上周的雷暴之后经历了停电。因此，“电力骤降”的解释与更广泛的事件是一致的。

分析文件解释说，受骤降影响的两个数据大厅有七台冷水机组，其中五台正在运行，两台处于备用状态。一旦出现电压下降，微软的员工就执行了紧急操作程序（EOP）以使其恢复正常运行。但这不起作用，“因为相应的泵没有收到来自冷水机组的运行信号。”

这不是应该发生的事情。微软正在与其供应商讨论这样做的原因。

备用冷水机并不完全名副其实。

微软的报告称：“我们有两台处于待机状态的冷水机组试图自动重启，其中一台成功重启并恢复在线，另一台重启但在几分钟内再次离线。”

由于数据大厅中只有一台制冷机在工作，而数据大厅需要五台制冷机，“必须通过关闭服务器来减少热负荷。”

就在那时，Azure 和其他微软云服务的一部分开始消失。

这家软件巨头的报告提供了非常详细的事件时间表，显示其现场团队如何在停电一小时后到达数据中心屋顶检查冷水机组，并且冷水机组制造商在地面上工作了两个小时，事件发生后39分钟。

但该文件还指出，在停电当晚，微软只有三名员工在现场，并承认人数太少了。

报告指出：“由于数据中心园区的规模，夜间团队的人员配置不足以及时重启冷水机组。” “我们暂时将团队规模从三人增加到七人，直到更好地了解根本问题并采取适当的缓解措施。”

分析还表明，准备好的应急程序不包括针对此类事件的规定。

文件指出：“展望未来，我们正在评估各种方法，以确保对各个冷水机组子集的负载曲线进行优先排序，以便首先针对最高负载曲线执行冷水机组重启。”

手动重置

微软也很难理解为什么其存储基础设施没有恢复上线。

因数据大厅温度而损坏的存储硬件“需要进行大量故障排除”，但微软的诊断工具无法找到相关数据，因为存储服务器已关闭。

报告指出：“因此，我们的现场数据中心团队需要手动删除组件，然后一一重新安装它们，以确定哪些特定组件阻止每个节点启动。”

一些套件需要更换，而一些组件需要安装在不同的服务器上。

微软还承认“我们的自动化错误地批准了过时的请求，并将一些健康的节点标记为不健康，这减慢了存储恢复工作。”

这正是这家科技巨头在事件发生后三天内立即进行的事后审查中发现的内容。

文章转载自云原生数据库，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。