2025年10月20日,亚马逊云服务(AWS)在美国东部核心区域(US-EAST-1)发生了一次大规模服务中断,持续时间约15小时,影响了全球大量网站和应用。此次故障暴露了现代互联网对单一云服务商的高度依赖及其潜在的系统性风险。
⚙️ 故障原因:DNS解析触发连锁反应
根据AWS官方的事后分析,故障的根本原因在于其核心数据库服务DynamoDB的自动化DNS管理系统存在缺陷。
- 初始故障点:系统中的一个“竞态条件”导致生成了错误的空DNS记录,使得dynamodb.us-east-1.amazonaws.com这个关键端点无法被正确解析。这相当于互联网的“导航系统”失灵,依赖该数据库的服务无法找到正确的服务器地址。
- 连锁效应:DynamoDB的故障迅速波及其他AWS核心服务。由于EC2实例的启动和网络负载均衡器(NLB)都依赖DynamoDB,导致这些服务也相继出现异常,形成了典型的“级联故障”。
- 恢复挑战:即使在修复了初始的DNS问题后,EC2的实例启动子系统因积压的请求和租约问题进入“拥塞崩溃”状态,需要手动干预,这大大延长了全面恢复的时间。
🌐 受影响范围:全球互联网服务一度“停摆”
由于US-EAST-1是AWS最古老、最核心的区域,全球大量企业默认将服务部署于此,导致此次故障的影响范围极其广泛。
- 社交与通讯:Snapchat、Signal、reddit等平台出现登录或消息发送障碍。
- 金融与交易:Robinhood、Coinbase、Venmo等交易平台服务中断,影响用户交易。
- 游戏与娱乐:Fortnite、Roblox、PlayStation Network等在线游戏服务中断,Disney+、Netflix等流媒体平台也受到影响。
- 工作与生活:Zoom、Slack等协作工具,以及麦当劳点餐app、联合航空值机系统等日常服务出现异常。
- 亚马逊自身服务:甚至亚马逊自家的Alexa智能助手、Ring门铃和电商网站也未能幸免。
网络监测平台Downdetector在故障高峰期收到了数百万份故障报告,初步估算此次中断造成的全球经济损失可能高达数十亿甚至数百亿美元。
💡 行业启示与未来建议
这次事件为严重依赖云服务的行业敲响了警钟。
- 架构韧性:企业需要重新评估其技术架构的容灾能力,避免对单一云服务区域形成“单点依赖”。采用多区域部署和多云策略是关键的风险缓解措施。
- 应急准备:制定并定期演练灾难恢复预案至关重要。关键系统应具备在云服务中断时快速切换到备用方案或降级运行的能力。
- 基础服务监控:此次故障表明,DNS等底层基础服务的稳定性是数字业务的基石,企业需要加强对这些核心依赖项的监控和异常感知能力。
总而言之,这次AWS中断事件是一次对全球数字基础设施韧性的压力测试。它清晰地表明,在享受云计算带来的高效与便捷的同时,构建高可用、抗打击的架构已不再是可选项,而是保障业务连续性的必选项。
推荐文章
- 8.1.20231023 语雀平台发生访问故障 (1.000)
- 8.1.20250612 Cloudflare因R2存储单点故障引发大规模服务中断 (1.000)
- 1.0.20251009 故障记录 (1.000)
- 8.1.20240819 网易云音乐故障致歉赠送VIP (1.000)
- 1.0.20250803 行业-知识管理工具 (0.500)
- 8.1.20250802 韩立七次乱星海之旅 (RANDOM - 0.500)