暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

带瘫全球互联网,Google云/Cloudflare全球故障

老冯云数 2025-06-13
274

就是现在,根据 DownDetector 故障检测器的报告,几乎你能想到的主要互联网服务供应商都出现了显著故障与错误。背后的线索全部指向 Google 云平台 GCP 上的一场全局性大故障。

GCP 疑似因为核心的身份和访问管理(IAM)服务(内部名为 Chemist)出现全球地域,全局性的服务不可用。这场故障的原因几乎与前年 阿里云史诗故障 如出一辙。 

GCP 的故障影响到 Cloudflare 的关键服务,进一步导致承载了全球互联网 20% 的流量的云平台 Cloudflare 出现故障。CF 故障进一步将故障放大到互联网的各个角落。包括 Cursor,Claude,Spotify,Discord,Snapchat,Supabase 等诸多知名应用与服务都收到影响。

事件时间线

同时,Cloudflare 也发布了故障报告:



故障根本原因分析

根据Google在故障初期发布的信息,此次中断是由身份和访问管理(Identity and Access Management,IAM)服务的问题引起 (theregister.com[1] 有相关报道)

这次故障的原因,与阿里云在 2023年双十一 史诗级故障 的原因类似,都是由于身份验证、权限检查的核心服务发生故障,进而导致几乎所有的云产品故障。

事故发生后不久,Google状态页直接提示“多项GCP产品因IAM服务问题而受到影响。这一点也在后续各种迹象中得到印证:许多用户报告调用GCP API时出现诸如“visibility check failed”(可见性检查失败)或“cannot load policy”(无法加载策略)之类的错误。这些错误信息表明,请求被阻断在权限/策略验证的环节,即云请求在到达目标服务前就因为权限或策略检查无法通过而失败。因此,可以推断根因在于Google Cloud内部的全局权限控制/策略服务出现异常。

Hacker News等技术社区的讨论挖掘出更多细节。一位疑似Google内部人士的评论提到,Google Cloud内部有一个代号为“Chemist”的核心服务,正是负责所有API请求的项目状态和策略检查。根据Google官方文档描述:Chemist在每个API请求到来时,会检查项目是否激活、帐户有无欠费或被封禁、服务启用状态、地域访问限制、VPC服务控制策略、超额配额(SuperQuota)以及其他各种策略;在请求完成后还会记录遥测数据用于计费和监控

触发因素分析

触发因素分析:截至目前(事故发生次日),Google尚未公布详细的事后分析报告(RCA),仅表示将在内部调查完成后对外发布分析。因此具体的触发原因只能根据现有信息推断。

老冯认为此次故障最大可能是因为 配置或软件更新错误导致的:大型云服务商的全球性事故,常常源于配置变更或代码更新的失误。考虑到此次事故在太平洋时间上午突然发生,可能恰逢某个全球发布窗口或变更操作。

一种合理推测是:Google对IAM/策略服务进行了某项更新(例如推送了错误的配置规则或部署了有缺陷的软件版本),结果导致该服务崩溃或拒绝请求,例如,阿里云 IAM 大故障的原因就是更新了 IAM 黑白名单配置导致其 依赖的 OSS 无法访问导致的。

历史上Google也发生过类似情况:如2020年12月的全球宕机事故,就源于内部身份认证系统因为存储配额配置变更而触发bug,最终让身份服务瘫痪45分钟。此次2025年故障的症状与之相似——都是核心身份/权限系统出了问题。很可能一次不当的变更使Chemist或相关IAM服务无法正常允许请求,从而“一票否决”了各项云操作。Google官方在事故中后期的表述也支持这一点:工程师发现了根本原因并采取措施,表明他们找到问题所在并进行了回滚或修复

另外的可能触发因素包括: 网络路由(BGP)故障,边界/骨干网络中断,Google云内部SDN(如Andromeda)问题。但似乎都没有更多证据可以证明这一点。

结论

本次事故有极大概率是 Google自身软件或配置失误引发的一场控制平面灾难,而非外部攻击或纯粹硬件故障。Google官方和多家媒体均未提及任何安全事件迹象。没有证据表明发生了恶意入侵、DDoS等攻击。一切线索都指向人为操作失误:不是配置错误,就是软件Bug。

另一个值得警醒的现象是,Cloudflare 作为一家云厂商,却对第三方 GCP 云平台有着依赖,在这次故障中被间接拖垮,这确实是一件非常奇怪的事情。

这场故障揭示出大型公有云平台的脆弱性: Google这次的控制服务故障,其影响都超出了单个公司的范畴,成为全网用户共同承受的“多米诺骨牌”式中断。这警示着整个科技行业:大型公有云厂商已经成为互联网世界的 “单点”,而这可并不是互联网发明的初衷。

许多仅依赖自有服务器的独立网站都在此次事故中完好无损 —— 大多数公司最好投资一些 IT人员,而不是将系统全部交给某个专有且极其复杂的云环境。否则,你会越来越依赖于你不认识、无法控制、也无法直接沟通的人与服务。

References

[1]
https://cloud.google.com/service-infrastructure/docs/service-management/reference/rpc/google.api#control
[2]
https://status.cloud.google.com/
[3]
https://www.cloudflarestatus.com/incidents/25r9t0vz99rp

云计算泥石流专栏


大故障:阿里云核心域名被拖走了

阿里云:从上到下烂到根了【去除原文版】

硬编码密码泄漏,阿里云的软件工程也太差了

Azure和OpenAI来查水表了

深度分析:迪奥数据泄露事件,云配置失当的锅?

10万用户的软件,因腾讯云欠费2元灰飞烟灭?

AWS 东京可用区故障:影响13项服务

云计算不能做成云算计之一:云行贿必须清理 马工

CVE惨遭断奶,美帝自毁安全长城

Shopify:愚人节真的翻车了

DHH下云:S3晚搬一天,就多花四万

Oracle云大翻车:6百万用户认证数据泄漏

今日大瓜:赛博佛祖与赛博菩萨大打出手

花钱买罪受的大冤种:逃离云计算妙瓦底

OpenAI全球宕机复盘:K8S循环依赖

支付宝崩了?双十一整活王又来了

草台回旋镖:Apple Music证书过期服务中断

DHH:下云超预期,能省一个亿

WordPress社区内战:论共同体划界问题

记一次阿里云 DCDN 加速仅 32 秒就欠了 1600 的问题处理(扯皮) 转

阿里云:高可用容灾神话的破灭

阿里云故障预报:本次事故将持续至20年后?

阿里云盘灾难级BUG:能看别人照片?

阿里云新加坡可用区C故障,网传机房着火

这次轮到WPS崩了

草台班子唱大戏,阿里云RDS翻车记

我们能从网易云音乐故障中学到什么?

GitHub全站故障,又是数据库上翻的车?

全球Windows蓝屏:甲乙双方都是草台班子

阿里云又挂了,这次是光缆被挖断了?

性学家,化学家,软件行业里的废话文学家 马工

Ahrefs不上云,省下四亿美元

删库:Google云爆破了大基金的整个云账户

云上黑暗森林:打爆云账单,只需要S3桶名

赛博菩萨Cloudflare圆桌访谈与问答录

云计算:菜就是一种原罪

taobao.com证书过期

腾讯真的走通云原生之路了吗? 马工

我们能从腾讯云故障复盘中学到什么?

云SLA是安慰剂还是厕纸合同?

腾讯云:颜面尽失的草台班子

【腾讯】云计算史诗级二翻车来了

吊打公有云的赛博佛祖 Cloudflare

牙膏云?您可别吹捧云厂商了

罗永浩救不了牙膏云

Redis不开源是“开源”之耻,更是公有云之耻

公有云厂商卖的云计算到底是什么玩意? 马工

迷失在阿里云的年轻人

RDS阉掉了PostgreSQL的灵魂

云计算反叛军联盟

剖析云算力成本,阿里云真的降价了吗?

DBA会被云淘汰吗?

单租户时代:SaaS范式转移

互联网技术大师速成班 马工

门内的国企如何看门外的云厂商 Leo

卡在政企客户门口的阿里云 马工

云计算泥石流

拒绝用复杂度自慰,下云也保稳定运行

扒皮对象存储:从降本到杀猪

半年下云省千万:DHH下云FAQ答疑

互联网故障背后的草台班子们 马工

从降本增笑到真的降本增效

阿里云周爆:云数据库管控又挂了

重新拿回计算机硬件的红利

我们能从阿里云史诗级故障中学到什么

【阿里】云计算史诗级大翻车来了

阿里云的羊毛抓紧薅,五千的云服务器三百拿

云厂商眼中的客户:又穷又闲又缺爱 马工

是时候放弃云计算了吗?

云计算泥石流合集 —— 用数据解构公有云

下云奥德赛

FinOps终点是下云

云计算为啥还没挖沙子赚钱?

云SLA是不是安慰剂?

杀猪盘真的降价了吗?

公有云是不是杀猪盘?

垃圾腾讯云CDN:从入门到放弃

驳《再论为什么你不应该招DBA》

范式转移:从云到本地优先

云数据库是不是杀猪盘

你怎么还在招聘DBA? 马工

云数据库是不是智商税

云RDS:从删库到跑路


文章转载自老冯云数,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论