矽谷輕鬆談 Just Kidding Tech

S2E35 AWS 大當機內幕:Race Condition 拖垮全球網路

10 月 20 號星期一,亞馬遜雲端服務 AWS 的核心區域 us-east-1 爆出一個 Race Condition,

導致 DynamoDB 的 DNS 被清空,結果連帶拖垮了 113 項內部與外部服務。

從社群平台、交易所、航空公司、政府單位,甚至英超足球聯盟,全都中標。

這場十五小時的大當機,不只是 AWS 的災難,更是「雲端集中化」的一次警訊。

這集我們就來聊聊:

☁️ 為什麼 us-east-1 這麼關鍵?

⚙️ Race Condition 到底怎麼讓 DNS 全毀?

💥 為什麼 EC2、Network Manager 會跟著爆?

📉 為什麼 Amazon 股價幾乎沒動?

🧠 AWS 與用戶能怎麼避免下一次的災難?

🎧 如果你想知道這場當機背後的真實技術細節,

以及雲端世界最脆弱的一面,這集你一定要聽。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭

(01:11) 為什麼我對 AI 新聞越來越無感?

(03:30) AWS 大當機

(04:58) 為什麼亞馬遜股價幾乎沒動?

(06:27) DynamoDB 一個月只能當機四分半

(07:41) 全球服務出事:從社群平台到航空公司

(08:27) 英超半自動越位系統原理是什麼?

(10:23) 或許「被迫離線」反而是好事

(11:01) Root cause 分析

(11:52) DynamoDB 是怎麼管理 DNS

(13:56) Race Condition 出現,災難開始擴散

(15:36) DynamoDB 修好後 EC2 卻開不了機

(17:46) EC2 開機了但沒網路

(19:25) AWS 工程師真的辛苦了

(20:00) 如何預防下一次:備援系統的關鍵思維

(23:14) 制定緊急應變 SOP + 定期演練的重要性

(24:06) 再怎麼準備,壞事還是會發生