2025年6月12日,Cloudflare发生的重大服务中断是一次典型的由关键基础设施依赖引发的连锁故障事件,其根本原因在于Workers KV服务所依赖的底层存储架构存在单点故障风险。
⚙️ 根本原因与故障机制
此次中断的直接触发因素是支撑Workers KV服务的第三方云提供商的基础设施发生故障。Workers KV是Cloudflare众多服务(如WARP、Access、Gateway等)的核心依赖项,负责处理配置、身份验证和资产交付。尽管Workers KV被设计为在全球每个节点独立运行的“无核心”服务,但其时仍依赖于一个中央数据存储来提供数据的真实来源。该中央存储的故障导致了对Cloudflare服务所用KV命名空间的冷读写操作完全中断,进而引发连锁反应。
🌐 受影响服务范围
中断持续2小时28分钟,全球使用相关服务的Cloudflare客户均受影响。具体影响范围广泛,主要包括身份验证、AI服务、流媒体等多个关键服务,例如Access服务对于基于身份的登录失败率达到100%,Workers AI的所有推理请求均失败,Stream服务的错误率超过90%。然而,Cloudflare的Magic Transit、Magic WAN、DNS、缓存、代理和WAF等相关服务未受到本次事件的直接影响。
🚨 事件时间线与应急响应
事件始于协调世界时(UTC)2025年6月12日17:52,Cloudflare WARP团队发现新设备注册失败。随后在18:05,Access团队因错误率迅速增加收到警报。Cloudflare在18:06将多个服务特定事件合并为一个P1级事件,并在18:21升级为P0级最高优先级事件。应急响应措施包括探索迁移到其他后端数据存储、对特定规则进行优雅降级以消除对Workers KV的依赖,以及丢弃某些请求以减轻负载。服务在事发当晚逐步恢复。
🔧 后续改进措施
为杜绝此类事件,Cloudflare进行了深刻的架构反思和改进。核心举措是将Workers KV的底层存储彻底迁移至Cloudflare自有的、更具弹性的基础设施,特别是其R2对象存储系统,旨在消除对第三方云提供商的关键依赖,确保高可用性并真正消除单点故障。这一改进也显著提升了Workers KV的性能。
此次中断事件凸显了现代云服务架构中深度依赖链的脆弱性,以及将关键基础设施构建在自身可控平台上的重要性。
- 8.1.20231023 语雀平台发生访问故障 (1.000)
- 8.1.20251020 AWS在美国东部核心区域发生大规模服务中断事件 (1.000)
- 1.0.20251009 故障记录 (1.000)
- 8.1.20240819 网易云音乐故障致歉赠送VIP (1.000)
- 1.0.20250803 行业-知识管理工具 (0.500)
- 8.1.30牧神记第30集:秦牧身世疑云、村长永生契约与无忧乡探索未果 (RANDOM - 0.500)