暂无图片
暂无图片
13
暂无图片
暂无图片
暂无图片

网易云音乐宕机,原因曝光!7月份刚迁移完机房,传和降本增效有关。

企业服务IT圈 2024-08-19
589

今天网易云音乐发生P0级别打紧急事故冲上热搜

网易官方确认

有网友发布了疑似网易所在地着火的图片

有网友说是DBA删库跑路

知情人说是DBA迁移数据库导致,并非DBA删库跑路

知情人向qidao123.com企服评测.应用市场出具了内部数据库迁移架构图,并指出用到了TIDB

底层数据库架构图,显示用到TIDB

疑似网易内部员工回复


还有疑似内部人员说是云存储导致,并称存储团队的人因为降本增效都去了字节,只剩下一个人,做了操作导致

网易高层都来了

以下是网易云音乐公众号迁移的原文

一、背景

2023年确定要将云音乐整体服务搬迁至贵州机房,项目需要在各种限制条件下,保障2000+应用、100w+QPS的服务稳定迁移,是云音乐历史上规模最大、人员最多、难度最高的技术项目。在此过程中,解决了大量历史技术债务,同时化解了大量新增系统性风险。以下为总体方案回顾。

二、项目难点

  • 迁移规模大
    • 此次需要云音乐以及旗下独立App的服务均整体迁移至贵州。涉及2000+应用、100w+QPS的稳定迁移,同时涉及中间件、存储、机房、三方依赖服务等整体的搬迁,搬迁规模大。
  • 业务复杂度高
    • 场景复杂。迁移规模大,带来更广的业务场景覆盖。而不同的场景对数据一致性要求不同、延迟敏感度不同。迁移方案需要考虑各种场景带来的问题,并提供标准化的解决方案。
    • 服务间依赖复杂。此次带来约2000+应用的搬迁,各服务间的调用和依赖情况复杂,在分批迁移方案中需要协调,以及解决迁移期间跨机房30msRT上升带来的问题。
  • 历史积弊多
    • 贵州迁移前,存在诸多历史技术积弊,影响着全站整体的稳定性。
  • 新增风险大
    • 贵州迁移带来诸多新增风险,且风险大、解决难度高。
    • 部分场景无法做到真实环境全流程预演。
    • 在基础技术建设上,也有一些不足的情况,影响整体搬迁执行效率、迁移准确性。
  • 限制条件严苛
    • 云音乐有着大量的用户基数,此次搬迁要求:不停机迁移、不产生P2及以上事故。除此之外还有机器、网络带宽、网络稳定性、网络RT、迁移方案等限制条件。
  • 事项推进&协调难度大
    • 此次搬迁规模大,同样,参与人员规模大,整体协调难度大
    • 此外带来较多的人因风险。可能因极小的细节未执行到位,就会造成全局事故。

三、重点限制&要求

  • 尽可能少采购或不采购额外的机器,贵州和杭州无法完全对等部署。
  • 杭州与贵州的长传带宽控制在200Gbps以内,且存在闪断的可能性,各迁移方案需要重点考虑闪断带来的影响。
  • 贵州机房与杭州机房之间网络延迟约30ms,各方迁移方案需重点考虑机房延迟带来的影响。
  • 业务可用性要求:不影响核心重点业务场景的可用性,不出现P2及以上事故。
  • 控制迁移方案对业务代码的侵入。

四、分批方案

1. 分批的原则

1.1 团队/领域间解耦

大团队/领域之间的迁移方案尽可能解耦,分不同批次搬迁。好处:

  • 可以将问题拆分、领域清晰。
  • 大数据、算法、云音乐技术中心串行搬迁,可以实现机器资源池共享,降低机器采购成本。
  • 降低单一团队/领域切流时问题处理复杂度。

1.2 服务端流量自闭环

云音乐服务端需要将流量闭环在同一个机房,避免产生跨区域调用。

云音乐经过微服务之后,目前存在千+服务,各服务间依赖复杂。在贵州机房与杭州机房之间网络延迟约30ms的背景下,每产生一次跨区域调用,则RT上升30ms。

1.3 C端优先

优先迁移C端相关的应用及其资源,其次B端。

关于此处,会有同学认为优先B端可能会更稳,但优先采用B端优先,会有如下问题:

  • B端服务搬迁后,腾挪的机器有限。
  • B端服务与C端服务相差较大,即使B端服务先行搬迁无问题,也不足以证明C端服务就一定没问题。

对于如何保障C端服务搬迁的稳定性,在文章后续章节展开。

1.4 在可用资源范围内

迁移期间,需要在贵州准备与杭州同等规模的机器资源,因此批次不可能不受到资源的限制。其主要受限制资源为:

  • 机器资源
  • 贵州&杭州的长传带宽资源

因此,按照以上原则进行分批后,若资源仍不足,再根据团队/领域拆分出第二批

2. 最终分批方案

基于以上原则,最终分批方案如下所示

  • 大数据、算法、技术中心串行搬迁。
  • 心遇因强依赖云信IM服务,与云信服务独立搬迁
  • 技术中心应用基本一批次全部搬迁完成。
  • 技术中心的转码、公技侧后台、质量侧系统在第二批次搬迁完成。
  • 依据此分类,服务端的组件管理仍有较多可提升空间。

谁知道刚发完迁移喜报就出现如此PO故障

点击文末:阅读原文,了解全球200家数据库和存储厂商龙虎榜

往期精彩
惊心动魄:破产,一步之遥!!!某上市公司SAP核心3TB数据及数据库恢复实录
口述:一个杭州运维狗的爱情故事,我不配拥有爱情!
网传阿里云此次重大事故内部报告曝光(速看)
年运维费用超1300万的上海医保业务崩溃,供应商为上海万达
医院运维离职报复导致医院业务系统瘫痪达3个月....!
运维总监分享完高可用架构,B站机房就深夜起火宕机....原因曝光!
惨:公司不善待运维:加班不给加班工资,运维攻击单位网络并删库跑路!
惨:公司不善待运维:加班不给加班工资,运维攻击单位网络并删库跑路!



注册职业身份加入中国最大运维社群


企业服务IT圈:聚焦全球ToB领域:甲方. 厂商. 集成商. 服务商. 渠道. ISV等生态,分享业内干货,打造中国第一企业服务技术内容社区和社交平台。我们根据粉丝真实岗位情况,分别设置:创业高管微信群/运维技术专家群/架构师之家/DevOps技术专家汇/ToB企业销售互助会/ToB厂商市场人俱乐部,并为大家提供技术咨询,营销策划.招聘及工作推荐等服务。请大家扫码或者添:tian1tiant,(备注个人真实职业身份信息邀请不同岗位微信群)

目前我们的产品/方案/公司生态开放免费入驻,欢迎注册登录qidao123.com,一起参与中国最大的ToB生态数据建设。

公众号官方网站qidao123.com,了解更多,ToB企业服务之家,社交平台,注册认识50W ToB精英!

温馨提示:根据微信公众平台最新规则,建议多点击“点赞在看、收藏”等,成为常读用户,第一时间获取最新行业动态。

最后修改时间:2024-08-19 18:31:53
文章转载自企业服务IT圈,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论