10 小時前
28 分鐘

[人人能懂] 从经验分享到刻意练习，AI的协作与成长新范式

你有没有想过，无论是AI还是我们自己，成为一个真正的高手，秘诀到底是什么？本期节目，我们将通过五篇极具启发性的最新论文，揭示几种截然不同的“高手修炼心法”。我们会探讨，如何给AI请一位能从数学公理开始自动出题的“奥数教练”，又如何让AI们从吃“大锅饭”变成开“经验分享会”。我们还将看到，为什么从“半成品”开始练习效率更高，并大胆质疑：AI煞有介事的“思考过程”，到底是真的在动脑，还只是一场“表演”？

00:00:38 给AI请一位“奥数教练”：高手是怎么炼成的？

00:06:03 AI的“大锅饭”与“分享会”：高手是怎么互相“抄作业”的

00:11:09 高手是怎么炼成的？从半成品开始练！

00:16:12 AI的“内心戏”：是真思考，还是在表演？

00:21:17 AI裁判的“养成记”：从随机猜测到精准判断

本期介绍的几篇论文：

[CL] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

[University of Lille]

https://arxiv.org/abs/2509.06809

---

[LG] Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing

[Gensyn AI Team]

https://arxiv.org/abs/2509.08721

---

[LG] Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning

[Technical University Munich & Huawei R&D Munich & Huawei Noah’s Ark Lab]

https://arxiv.org/abs/2509.09284

---

[LG] Performative Thinking? The Brittle Correlation Between CoT Length and Problem Complexity

[Arizona State University & Yale University]

https://arxiv.org/abs/2509.07339

---

[LG] floq: Training Critics via Flow-Matching for Scaling Compute in Value-Based RL

[CMU & University of Warsaw]

https://arxiv.org/abs/2509.06863

單集網頁

節目

AI可可AI生活
頻率

每日更新
發佈時間

2025年9月15日上午12:21 [UTC]
長度

28 分鐘
年齡分級

兒少適宜

[人人能懂] 从经验分享到刻意练习，AI的协作与成长新范式

資訊