3天前
11 分钟

2025.07.11 | 长视频推理效率提升；单图像定制模型防过拟合。

HuggingFace 每日AI论文速递

本期的 15 篇论文如下：

[00:25] 🎬 Scaling RL to Long Videos（强化学习驱动视觉语言模型扩展至长视频）

[01:10] 🖼 T-LoRA: Single Image Diffusion Model Customization Without Overfitting（T-LoRA：无过拟合的单图像扩散模型定制）

[01:49] 🖼 Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology（可追踪证据增强的视觉基础推理：评估与方法）

[02:28] 🤖 OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding（OST-Bench：评估多模态大语言模型在在线时空场景理解中的能力）

[03:06] 🎬 Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs（面向视频大语言模型的免训练时空令牌融合加速）

[03:49] 🤖 PyVision: Agentic Vision with Dynamic Tooling（PyVision：基于动态工具的Agentic视觉）

[04:29] 🎬 Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling（几何强制：结合视频扩散与3D表示以实现一致的世界建模）

[05:12] 🚀 LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS（LangSplatV2：高达450+ FPS的高维3D语言高斯溅射）

[05:48] 🧠 Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs（跳过一层还是循环它？预训练LLM的测试时深度自适应）

[06:33] 🎬 A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality（长视频叙事生成研究综述：架构、一致性与电影质量）

[07:15] 🤖 Token Bottleneck: One Token to Remember Dynamics（令牌瓶颈：用一个令牌记住动态）

[07:54] 🤥 Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models（机器胡扯：刻画大型语言模型中涌现的对真相的漠视）

[08:41] 🧠 Beyond the Linear Separability Ceiling（超越线性可分性上限）

[09:16] 🌱 Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate（生长中的Transformer：基于冻结基底的模块化组合与逐层扩展）

[09:53] 🧪 SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?（科学大师：迈向通用科学AI智能体，第一部分。X-Master作为基础：我们能在人类的最后一场考试中领先吗？）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

单集网页

节目

HuggingFace 每日AI论文速递
频率

一日一更
发布时间

2025年7月11日 UTC 23:00
长度

11 分钟
分级

儿童适宜