數創實驗室 - AI時代的學習指南

EP68 | AI Agent的落地困境,如何跨越「穩定性瓶頸」?深度解析OpenAI與TML關鍵論文:預訓練統計誤差傳導、後訓練獎勵錯位、批次不變性缺失

#### 聽友會調查
Google調查問卷 : https://forms.gle/LHL8gxGwwokiMjae7

#### 數創電子報 & Line社群
電子報訂閱連結:https://datainnolab.pse.is/7xxhk6
LINE社群入群連結 (一手活動資訊) : https://bit.ly/3TU9K0I

#### 論文分享
Why Language Models Hallucinate : https://www.arxiv.org/abs/2509.04664
Defeating Nondeterminism in LLM Inference : https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

#### 本期簡介
2025年被譽為AI Agent元年,為何至今未見爆發?本集從真實客服案例切入,直指LLM「不穩定性」的核心瓶頸。當業界的想像是Agent,落地卻是Workflow,這反映了什麼現實?深度解析OpenAI與TML的兩篇關鍵論文,從模型幻覺到輸出不一致,探討問題根源與前沿解方。

#### 節目大綱
03:23 為何AI Agent的爆發不如預期?
04:15 客服場景中的AI Agent:多輪對話後的穩定性挑戰
05:55 AI Agent的理想與現實:期望為何落空?
07:16 Agent vs. Workflow:企業落地為何選擇了後者?
08:59 Kiji博士 from Dify 的洞見:了解LLM不能做什麼
10:34 AI泡沫會破裂嗎?啤酒泡沫的比喻
11:38 前沿突破:兩篇應對模型不穩定性的關鍵論文
13:57 OpenAI論文解析(一):模型產生幻覺的兩大原因
17:52 OpenAI論文解析(二):激勵機制設計改善模型幻覺
20:41 TML論文解析:如何克服模型輸出的不確定性
27:23 給企業經理人與開發者的實務建議

#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創實驗室創始人, Podcast播客主理人 / 數創智能CEO
遠見天下文化 AI 專欄作家 (https://www.gvm.com.tw/blog/6789)

美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士

#### 相關連結
數創實驗室 YouTube 頻道 : https://www.youtube.com/@datainnolab.vincent/videos
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : contact@datainnolab.ai