蚂蚁集团旗下的在线文档工具语雀自2018年正式对外服务以来,最为显著的一次服务故障发生在2023年10月23日,此次故障持续了近8小时,被定性为P0级重大事故。
故障时间线与影响
该故障始于2023年10月23日14时左右,用户发现语雀的在线文档和官方网站均无法正常访问。语雀官方在故障发生初期(约16时)发布声明,初步将问题定性为“网络故障”,并安抚用户称数据不会丢失。经过紧张的抢修,服务在当晚约22时全面恢复,整个中断时间接近8小时。这次长时间的宕机对依赖语雀进行日常工作和知识管理的用户造成了显著影响,并引发了广泛讨论。
根本原因与修复过程
根据语雀团队在故障次日(10月24日)发布的官方复盘公告,事故的直接原因是:数据存储运维团队在使用一款新的运维升级工具进行操作时,该工具存在的程序缺陷(Bug)导致华东地区生产环境中的存储服务器被错误地下线。具体的修复时间线如下:
- 14:07:监控系统报警,团队定位问题根源。
- 14:15:尝试将下线的服务器重新上线。
- 15:00:因存储设备型号较旧,直接上线失败,随即启动备用方案——从备份系统中恢复数据。
- 15:10 - 19:00:新建存储系统并从备份恢复数据,因数据量庞大,耗时较长。
- 19:00 - 21:00:为确保数据完整性,进行长达2小时的数据校验。
- 21:00 - 22:00:存储系统校验通过,与语雀应用服务联调,最终全面恢复服务。
官方改进措施与用户赔偿
语雀团队在事后承认,此次故障暴露了其在技术风险保障和高可用架构设计上的不足。为此,他们公布了一系列改进措施,主要包括:升级硬件版本以确保快速上线能力、加强运维工具的质量保障和测试、缩小运维操作的灰度发布范围以提前发现问题,以及从架构层面规划存储系统的异地灾备能力,旨在向“两地三中心”的高可用标准演进。为表达歉意,语雀向所有个人用户赠送了6个月的会员服务作为补偿。
推荐文章
- 5.1.20250808 Youmind (0.778)
- 3.1.20250808 玉伯 (0.778)
- 5.1.20251025 语雀 (0.778)
- 8.1.20251020 AWS在美国东部核心区域发生大规模服务中断事件 (0.722)
- 8.1.20250612 Cloudflare因R2存储单点故障引发大规模服务中断 (0.722)
- 7.1.20250806 雪中悍刀行:四大天师解析 (RANDOM - 0.500)