21 THG 2
18 PHÚT

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。

本期的 20 篇论文如下：

[00:26] 🧠 MLGym: A New Framework and Benchmark for Advancing AI Research Agents（MLGym：推进AI研究代理的新框架与基准）

[01:18] 📚 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines（SuperGPQA：扩展LLM评估至285个研究生学科）

[02:04] 🌐 SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features（SigLIP 2：多语言视觉-语言编码器的语义理解、定位与密集特征改进）

[02:52] 🧠 How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?（在不损害大型语言模型的情况下，LoRA适配器能容纳多少知识？）

[03:49] 🚀 S*: Test Time Scaling for Code Generation（S*：代码生成中的测试时间缩放）

[04:35] ⏳ Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information（时间是否有其位置？时间头：语言模型如何回忆时间特定信息）

[05:28] 📄 LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models（LongWriter-V：在视觉-语言模型中实现超长和高保真生成）

[06:17] 🧠 Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning（逻辑-RL：通过基于规则的强化学习释放LLM推理能力）

[07:13] 🖥 PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC（PC-Agent：一种用于复杂任务自动化在PC上的分层多智能体协作框架）

[08:07] 🧠 S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning（S$^2$R：通过强化学习教导大语言模型自我验证与自我修正）

[09:01] 🧠 Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning（利用强化学习发现高效低权重量子纠错码）

[09:55] 🎥 Dynamic Concepts Personalization from Single Videos（单视频动态概念个性化）

[10:38] 🖼 Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation（通过代码引导的合成多模态数据生成扩展文本丰富的图像理解）

[11:23] 🌍 NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization（NAVIG：基于自然语言引导的视觉语言模型用于图像地理定位分析）

[12:13] 🧠 AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO（AlphaMaze：通过GRPO提升大型语言模型的空间智能）

[13:06] 🌍 How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild（LLMs在多语言环境下的幻觉现象研究：在野外场景中的多语言幻觉估计）

[13:52] 🌍 Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework（基于真实人类游戏数据的 geolocation：大规模数据集与人类推理框架）

[14:55] 🌐 RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers（RelaCtrl：引导相关性的高效控制扩散变换器）

[15:54] 🧠 Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data（增强多模态基础模型的认知与可解释性通过自合成数据）

[16:41] 🤖 LLM-based User Profile Management for Recommender System（基于大语言模型的推荐系统用户画像管理）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Trang web Tập phim

Chương trình

HuggingFace 每日AI论文速递
Tần suất

Hằng ngày
Đã xuất bản

lúc 23:00 UTC 21 tháng 2, 2025
Thời lượng

18 phút
Xếp hạng

Sạch

2025.02.21 | AI代理评估新框架，LLM学科表现差异显著。

Thông Tin