< 返回新闻公共列表

亚马逊云服务“宕机”背后：技术巨头的基础设施之困

发布时间：2025-10-21 14:19:40

2025年10月20日，亚马逊云服务（AWS）突发全球性故障，导致美国东部1区（US-EAST-1）数据中心瘫痪超15小时，影响范围覆盖电商、金融、游戏、政务等数十个行业。这场被业内称为“AWS四年来最严重宕机”的事件，暴露了云服务巨头在技术架构、容灾设计和生态依赖上的深层隐患。

一、技术故障链：从DNS解析到级联崩溃

故障根源指向AWS核心数据库服务DynamoDB的DNS解析错误。作为支撑数千家企业程序运行的云原生数据库，DynamoDB的域名无法被客户端快速转换为正确IP地址，导致请求处理错误率飙升。尽管工程师在凌晨2时24分修复了DNS问题，但依赖DynamoDB的虚拟机服务EC2又因内部子系统故障无法启动实例，形成“二次宕机”。这种连锁反应使故障从数据库层蔓延至计算层，最终导致全球36项AWS服务中断，包括身份认证（IAM）、存储（FSx）、AI模型（SageMaker）等关键模块。

二、容灾设计失效：单一节点的系统性风险

US-EAST-1作为AWS最早且规模最大的数据中心集群，承载了全球30%的云市场份额，但其容灾机制在极端场景下暴露脆弱性。尽管AWS宣称每个地理区域独立设计，但实际中大量服务默认部署于该节点，导致故障影响呈指数级扩散。例如，英国税务系统、劳埃德银行等机构因依赖US-EAST-1的跨境服务同步中断，凸显全球基础设施对单一节点的过度依赖。

三、生态依赖危机：互联网的“亚马逊时刻”

此次事件中，Snapchat、Robinhood、Coinbase等400余家企业服务瘫痪，任天堂Switch、PlayStation等游戏平台用户掉线，甚至美国联合航空值机系统受阻。据Catchpoint估算，直接经济损失超百亿美元，若计入生产力损失则达千亿级别。这印证了圣母大学教授Mike Chapple的警告：“当一家主要云厂商‘打喷嚏’时，整个互联网都会感冒。”

四、反思与出路：从集中化到去中心化

AWS故障并非孤例。2021年Fastly边缘计算宕机、2024年CrowdStrike蓝屏事件均表明，互联网基础设施的集中化已触及安全边界。企业正加速向多云架构转型，通过跨服务商部署降低风险，但数据迁移成本与协同难度仍是主要障碍。对于AWS而言，如何平衡规模效应与容灾能力，避免“大而不能倒”的困境，将成为其维持云市场统治力的关键。

此次事件再次敲响警钟：在云计算成为数字社会“水电煤”的今天，技术巨头的每一次故障都可能引发系统性危机。构建更具韧性的分布式基础设施，或许比追求效率更重要。