8.1.20251020 AWS在美国东部核心区域发生大规模服务中断事件

2025年10月20日，亚马逊云服务（AWS）在美国东部核心区域（US-EAST-1）发生了一次大规模服务中断，持续时间约15小时，影响了全球大量网站和应用。此次故障暴露了现代互联网对单一云服务商的高度依赖及其潜在的系统性风险。

⚙️ 故障原因：DNS解析触发连锁反应

根据AWS官方的事后分析，故障的根本原因在于其核心数据库服务DynamoDB的自动化DNS管理系统存在缺陷。

初始故障点：系统中的一个“竞态条件”导致生成了错误的空DNS记录，使得dynamodb.us-east-1.amazonaws.com这个关键端点无法被正确解析。这相当于互联网的“导航系统”失灵，依赖该数据库的服务无法找到正确的服务器地址。
连锁效应：DynamoDB的故障迅速波及其他AWS核心服务。由于EC2实例的启动和网络负载均衡器（NLB）都依赖DynamoDB，导致这些服务也相继出现异常，形成了典型的“级联故障”。
恢复挑战：即使在修复了初始的DNS问题后，EC2的实例启动子系统因积压的请求和租约问题进入“拥塞崩溃”状态，需要手动干预，这大大延长了全面恢复的时间。

🌐 受影响范围：全球互联网服务一度“停摆”

由于US-EAST-1是AWS最古老、最核心的区域，全球大量企业默认将服务部署于此，导致此次故障的影响范围极其广泛。

网络监测平台Downdetector在故障高峰期收到了数百万份故障报告，初步估算此次中断造成的全球经济损失可能高达数十亿甚至数百亿美元。

💡 行业启示与未来建议

这次事件为严重依赖云服务的行业敲响了警钟。

总而言之，这次AWS中断事件是一次对全球数字基础设施韧性的压力测试。它清晰地表明，在享受云计算带来的高效与便捷的同时，构建高可用、抗打击的架构已不再是可选项，而是保障业务连续性的必选项。

推荐文章

8.1.20231023 语雀平台发生访问故障 (1.000)
8.1.20250612 Cloudflare因R2存储单点故障引发大规模服务中断 (1.000)
1.0.20251009 故障记录 (1.000)
8.1.20240819 网易云音乐故障致歉赠送VIP (1.000)
8.1.20221221 知识管理工具 (0.500)
8.1.20251022 vivo手机连接车载系统的使用体验 (RANDOM - 0.500)