排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
微软承认员工人数少和自动化程度低导致 Azure 宕机
微软承认员工人数少和自动化程度低导致 Azure 宕机
云原生数据库
2023-09-08
234
微软对上周导致其澳大利亚东云区域瘫痪的事件进行了初步分析,该事件似乎也给甲骨文带来了麻烦,该事件的部分原因是现场员工人数不足,从而减缓了恢复工作。
这家软件巨头将这一事件归咎于“一次公用事业电力骤降,导致一个可用区内的一个数据中心的一部分冷却装置脱机”。
据了解,微软在澳大利亚悉尼部分地区运营着一些云基础设施,这些基础设施在上周的雷暴之后经历了停电。因此,“电力骤降”的解释与更广泛的事件是一致的。
分析文件解释说,受骤降影响的两个数据大厅有七台冷水机组,其中五台正在运行,两台处于备用状态。一旦出现电压下降,微软的员工就执行了紧急操作程序(EOP)以使其恢复正常运行。但这不起作用,“因为相应的泵没有收到来自冷水机组的运行信号。”
这不是应该发生的事情。微软正在与其供应商讨论这样做的原因。
备用冷水机并不完全名副其实。
微软的报告称:“我们有两台处于待机状态的冷水机组试图自动重启,其中一台成功重启并恢复在线,另一台重启但在几分钟内再次离线。”
由于数据大厅中只有一台制冷机在工作,而数据大厅需要五台制冷机,“必须通过关闭服务器来减少热负荷。”
就在那时,Azure 和其他微软云服务的一部分开始消失。
这家软件巨头的报告提供了非常详细的事件时间表,显示其现场团队如何在停电一小时后到达数据中心屋顶检查冷水机组,并且冷水机组制造商在地面上工作了两个小时,事件发生后39分钟。
但该文件还指出,在停电当晚,微软只有三名员工在现场,并承认人数太少了。
报告指出:“由于数据中心园区的规模,夜间团队的人员配置不足以及时重启冷水机组。” “我们暂时将团队规模从三人增加到七人,直到更好地了解根本问题并采取适当的缓解措施。”
分析还表明,准备好的应急程序不包括针对此类事件的规定。
文件指出:“展望未来,我们正在评估各种方法,以确保对各个冷水机组子集的负载曲线进行优先排序,以便首先针对最高负载曲线执行冷水机组重启。”
手动重置
微软也很难理解为什么其存储基础设施没有恢复上线。
因数据大厅温度而损坏的存储硬件“需要进行大量故障排除”,但微软的诊断工具无法找到相关数据,因为存储服务器已关闭。
报告指出:“因此,我们的现场数据中心团队需要手动删除组件,然后一一重新安装它们,以确定哪些特定组件阻止每个节点启动。”
一些套件需要更换,而一些组件需要安装在不同的服务器上。
微软还承认“我们的自动化错误地批准了过时的请求,并将一些健康的节点标记为不健康,这减慢了存储恢复工作。”
这正是这家科技巨头在事件发生后三天内立即进行的事后审查中发现的内容。
azure
文章转载自
云原生数据库
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨