S2E12 LLM 可解釋性 Part 2:如果我們無法看懂 AI,它會怎麼毀掉我們?

矽谷輕鬆談 Just Kidding Tech

想像一下,2027 年,一座資料中心裡跑著一群諾貝爾等級的天才。他們可以主導經濟、操縱輿論、影響國家安全——但我們完全搞不懂他們怎麼做出決策。

Anthropic CEO Dario Amodei 最近寫了一篇超硬派文章,直接警告:「如果我們還看不懂 AI 它們在想什麼,人類很可能會被自己創造的東西毀掉。」

但問題來了——他為什麼這麼急?這篇文章真的只是為了拯救世界,還是為了讓 Anthropic 在 AI 安全這局搶下先機?

這集我們聊聊:

📌 可解釋性是什麼?為什麼模型愈強大,黑箱問題愈危險?

📌 稀疏自編碼器 + 自我解釋機制 + 電路追蹤:如何看懂 AI 腦袋裡的「思考路線」?

📌 Anthropic 是怎麼從 OpenAI 出走、組成七人創業團隊,打出安全第一的差異化定位?

📌 Dario 主張出口管制、輕度監管,是真的為了全球安全,還是想幫自己圍一條護城河?

📌 如果 2027 年真的出現「國家級天才 AI」,我們真的準備好了嗎?

00:00 開頭

04:11 Anthropic 的創立故事

07:46 Claude 原本可以在 ChatGPT 之前問世

09:20 「一年後 AI 會寫全部程式碼」

11:43 工程師的黃金年代結束了?

15:24 AI 是種出來的,不是蓋出來的

17:53 AI 的最大風險?

21:11 解鎖 AI 腦袋:近幾年技術的重大突破

25:55 2027 會有諾貝爾獎等級 AI?

29:17 可解釋性背後的戰略布局

🎧 如果你也覺得「看懂 AI 的思考」不只是技術問題,而是影響整個社會安全的關鍵,歡迎留言告訴我你的看法。

🔗 《矽谷輕鬆談》一鍵收聽 ➡️ ⁠https://linktr.ee/jktech⁠

Pour écouter des épisodes au contenu explicite, connectez‑vous.

Recevez les dernières actualités sur cette émission

Connectez‑vous ou inscrivez‑vous pour suivre des émissions, enregistrer des épisodes et recevoir les dernières actualités.

Choisissez un pays ou une région

Afrique, Moyen‑Orient et Inde

Asie‑Pacifique

Europe

Amérique latine et Caraïbes

États‑Unis et Canada