まず、復旧時間を訂正します。障害は米東部時間10月20日3時11分(日本時間10月20日16時11分)ごろにUS-EAST-1で顕在化し、AWSは同日6時35分(日本時間19時35分)に「影響の主要部分を軽減」と公表。その後も断続的な不具合が残り、完全復旧は米東部時間10月20日18時01分(日本時間10月21日7時01分)に到達したと複数の一次・二次情報が一致して伝えています。発生から完全復旧まで約15時間というのが正確なタイムラインです。
原因はDNSまわりの不具合でした。AWSは「US-EAST-1内のDynamoDBサービスエンドポイントのDNS解決に起因する問題」を特定し、段階的に緩和したと説明。早いところで発生後3〜4時間で主要サービスが持ち直し始めたものの、昼以降も一部SaaSや自社サービスで接続遅延やバックログが尾を引き、夕方に“全体として平常化”のアナウンス、夜にかけて完全復旧という流れでした。
影響は広範でした。ゲーム(Fortnite、Roblox)、コミュニケーション(Snapchat、Signal)、フィンテック(Coinbase、Robinhood)、教育基盤や配信サービス、そしてAmazon自身のAlexa/Prime Video/EC等まで、多数の依存サービスが障害・遅延を報告。メディアは「2024年のCrowdStrike事故以来で最大級」と位置付け、依存集中のリスクが露わになったと総括しています。
実務の示唆は三点です。第一に時間軸——“初動3〜4時間で一部回復、完全復旧は約15時間”という現実を前提に、RTO/RPOの設計を更新すること。第二に地理と依存の分散——少なくともクロスAZ、望ましくはクロスリージョンでフェイルオーバーを設け、DNSやキーバリューストア等の基盤系の単一点障害に備えること。第三に復旧後運転——バックログ解消のプレイブック(再試行戦略、キューのドレイン順、時間窓の段階開放など)を平時に文書化し、訓練することです。
まとめると、今回のAWS障害は“数時間で峠越え→約15時間で全面回復”という二段構えの復旧曲線でした。利用企業は「数時間の耐障害」と「半日超の尾引き」に同時対応できる設計・運用へ、一段ギアを上げるタイミングです。
Thông Tin
- Chương trình
- Tần suấtHằng tuần
- Đã xuất bảnlúc 22:00 UTC 22 tháng 10, 2025
- Thời lượng4 phút
- Mùa1
- Tập650
- Xếp hạngSạch
