2025.08.07 | VeriGUI提升代理能力；CoT推理实为模式匹配

本期的 13 篇论文如下：

[00:20] 🤖 VeriGUI: Verifiable Long-Chain GUI Dataset（VeriGUI：可验证的长链GUI数据集）

[00:40] 🤔 Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens（LLM思维链推理是海市蜃楼吗？一个数据分布的视角）

[00:59] 💰 Efficient Agents: Building Effective Agents While Reducing Cost（高效智能体：在降低成本的同时构建有效智能体）

[01:21] 🌱 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience（SEAgent：基于经验自主学习的自我演进计算机操作智能体）

[01:47] ⚡ Agent Lightning: Train ANY AI Agents with Reinforcement Learning（智能体闪电：基于强化学习训练任意AI智能体）

[02:09] 🧠 CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction（CoTox：基于思维链的分子毒性推理与预测）

[02:35] 🤖 Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning（使用强化学习训练长上下文、多轮软件工程智能体）

[03:00] 🤝 Sotopia-RL: Reward Design for Social Intelligence（Sotopia-RL：社交智能的奖励设计）

[03:26] 💻 LaTCoder: Converting Webpage Design to Code with Layout-as-Thought（LaTCoder：基于布局思考的网页设计转代码）

[03:52] 🧠 Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents（Web-CogReasoner：迈向Web智能体的知识诱导认知推理）

[04:16] ✨ HPSv3: Towards Wide-Spectrum Human Preference Score（HPSv3：迈向广谱人类偏好评分）

[04:38] 🪄 Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis（高斯变化场扩散实现高保真视频到4D合成）

[05:00] ⚡ LeanK: Learnable K Cache Channel Pruning for Efficient Decoding（LeanK：可学习的K缓存通道剪枝实现高效解码）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Information