S2E12 LLM 可解釋性 Part 2：如果我們無法看懂 AI，它會怎麼毀掉我們？

想像一下，2027 年，一座資料中心裡跑著一群諾貝爾等級的天才。他們可以主導經濟、操縱輿論、影響國家安全——但我們完全搞不懂他們怎麼做出決策。

Anthropic CEO Dario Amodei 最近寫了一篇超硬派文章，直接警告：「如果我們還看不懂 AI 它們在想什麼，人類很可能會被自己創造的東西毀掉。」

但問題來了——他為什麼這麼急？這篇文章真的只是為了拯救世界，還是為了讓 Anthropic 在 AI 安全這局搶下先機？

這集我們聊聊：

📌 可解釋性是什麼？為什麼模型愈強大，黑箱問題愈危險？

📌 稀疏自編碼器 + 自我解釋機制 + 電路追蹤：如何看懂 AI 腦袋裡的「思考路線」？

📌 Anthropic 是怎麼從 OpenAI 出走、組成七人創業團隊，打出安全第一的差異化定位？

📌 Dario 主張出口管制、輕度監管，是真的為了全球安全，還是想幫自己圍一條護城河？

📌 如果 2027 年真的出現「國家級天才 AI」，我們真的準備好了嗎？

00:00 開頭

04:11 Anthropic 的創立故事

07:46 Claude 原本可以在 ChatGPT 之前問世

09:20 「一年後 AI 會寫全部程式碼」

11:43 工程師的黃金年代結束了？

15:24 AI 是種出來的，不是蓋出來的

17:53 AI 的最大風險？

21:11 解鎖 AI 腦袋：近幾年技術的重大突破

25:55 2027 會有諾貝爾獎等級 AI？

29:17 可解釋性背後的戰略布局

🎧 如果你也覺得「看懂 AI 的思考」不只是技術問題，而是影響整個社會安全的關鍵，歡迎留言告訴我你的看法。

🔗 《矽谷輕鬆談》一鍵收聽 ➡️ ⁠https://linktr.ee/jktech⁠

Informations