带瘫全球互联网，Google云/Cloudflare全球故障

老冯云数 2025-06-13

589

就是现在，根据 DownDetector 故障检测器的报告，几乎你能想到的主要互联网服务供应商都出现了显著故障与错误。背后的线索全部指向 Google 云平台 GCP 上的一场全局性大故障。

GCP 疑似因为核心的身份和访问管理（IAM）服务（内部名为 Chemist）出现全球地域，全局性的服务不可用。这场故障的原因几乎与前年阿里云史诗故障如出一辙。

GCP 的故障影响到 Cloudflare 的关键服务，进一步导致承载了全球互联网 20% 的流量的云平台 Cloudflare 出现故障。CF 故障进一步将故障放大到互联网的各个角落。包括 Cursor，Claude，Spotify，Discord，Snapchat，Supabase 等诸多知名应用与服务都收到影响。

事件时间线

同时，Cloudflare 也发布了故障报告：

故障根本原因分析

根据Google在故障初期发布的信息，此次中断是由身份和访问管理（Identity and Access Management，IAM）服务的问题引起（theregister.com^[1] 有相关报道）

这次故障的原因，与阿里云在 2023年双十一史诗级故障的原因类似，都是由于身份验证、权限检查的核心服务发生故障，进而导致几乎所有的云产品故障。

事故发生后不久，Google状态页直接提示“多项GCP产品因IAM服务问题而受到影响。这一点也在后续各种迹象中得到印证：许多用户报告调用GCP API时出现诸如“visibility check failed”（可见性检查失败）或“cannot load policy”（无法加载策略）之类的错误。这些错误信息表明，请求被阻断在权限/策略验证的环节，即云请求在到达目标服务前就因为权限或策略检查无法通过而失败。因此，可以推断根因在于Google Cloud内部的全局权限控制/策略服务出现异常。

Hacker News等技术社区的讨论挖掘出更多细节。一位疑似Google内部人士的评论提到，Google Cloud内部有一个代号为“Chemist”的核心服务，正是负责所有API请求的项目状态和策略检查。根据Google官方文档描述：Chemist在每个API请求到来时，会检查项目是否激活、帐户有无欠费或被封禁、服务启用状态、地域访问限制、VPC服务控制策略、超额配额（SuperQuota）以及其他各种策略；在请求完成后还会记录遥测数据用于计费和监控

触发因素分析

触发因素分析：截至目前（事故发生次日），Google尚未公布详细的事后分析报告（RCA），仅表示将在内部调查完成后对外发布分析。因此具体的触发原因只能根据现有信息推断。

老冯认为此次故障最大可能是因为 配置或软件更新错误导致的：大型云服务商的全球性事故，常常源于配置变更或代码更新的失误。考虑到此次事故在太平洋时间上午突然发生，可能恰逢某个全球发布窗口或变更操作。

一种合理推测是：Google对IAM/策略服务进行了某项更新（例如推送了错误的配置规则或部署了有缺陷的软件版本），结果导致该服务崩溃或拒绝请求，例如，阿里云 IAM 大故障的原因就是更新了 IAM 黑白名单配置导致其依赖的 OSS 无法访问导致的。

历史上Google也发生过类似情况：如2020年12月的全球宕机事故，就源于内部身份认证系统因为存储配额配置变更而触发bug，最终让身份服务瘫痪45分钟。此次2025年故障的症状与之相似——都是核心身份/权限系统出了问题。很可能一次不当的变更使Chemist或相关IAM服务无法正常允许请求，从而“一票否决”了各项云操作。Google官方在事故中后期的表述也支持这一点：工程师发现了根本原因并采取措施，表明他们找到问题所在并进行了回滚或修复

另外的可能触发因素包括： 网络路由（BGP）故障，边界/骨干网络中断，Google云内部SDN（如Andromeda）问题。但似乎都没有更多证据可以证明这一点。

结论

本次事故有极大概率是 Google自身软件或配置失误引发的一场控制平面灾难，而非外部攻击或纯粹硬件故障。Google官方和多家媒体均未提及任何安全事件迹象。没有证据表明发生了恶意入侵、DDoS等攻击。一切线索都指向人为操作失误：不是配置错误，就是软件Bug。

另一个值得警醒的现象是，Cloudflare 作为一家云厂商，却对第三方 GCP 云平台有着依赖，在这次故障中被间接拖垮，这确实是一件非常奇怪的事情。

这场故障揭示出大型公有云平台的脆弱性： Google这次的控制服务故障，其影响都超出了单个公司的范畴，成为全网用户共同承受的“多米诺骨牌”式中断。这警示着整个科技行业：大型公有云厂商已经成为互联网世界的 “单点”，而这可并不是互联网发明的初衷。

许多仅依赖自有服务器的独立网站都在此次事故中完好无损 —— 大多数公司最好投资一些 IT人员，而不是将系统全部交给某个专有且极其复杂的云环境。否则，你会越来越依赖于你不认识、无法控制、也无法直接沟通的人与服务。

References

[1]
: https://cloud.google.com/service-infrastructure/docs/service-management/reference/rpc/google.api#control
[2]
: https://status.cloud.google.com/
[3]
: https://www.cloudflarestatus.com/incidents/25r9t0vz99rp