2025.07.03 | 多模态模型提升短视频理解;动画生成保持颜色一致。

HuggingFace 每日AI论文速递

本期的 9 篇论文如下:

[00:21] 🎬 Kwai Keye-VL Technical Report(Kwai Keye-VL 技术报告)

[01:02] 🎨 LongAnimation: Long Animation Generation with Dynamic Global-Local Memory(LongAnimation:基于动态全局-局部记忆的长期动画生成)

[01:50] 👁 Depth Anything at Any Condition(任意条件下的深度感知)

[02:28] 🤖 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective(视觉-语言-动作模型综述:一种动作Token化的视角)

[03:11] 🪄 FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model(FreeMorph:基于扩散模型的免调参通用图像渐变)

[03:51] 🖼 Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation(面向高效自回归图像生成的局部感知并行解码)

[04:33] 🎬 STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing(STR-Match: 匹配时空相关性得分的免训练视频编辑方法)

[05:14] 📊 MARVIS: Modality Adaptive Reasoning over VISualizations(MARVIS:基于可视化的模态自适应推理)

[05:51] 🗣 JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching(JAM-Flow:基于流匹配的联合音频-运动合成)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Pour écouter des épisodes au contenu explicite, connectez‑vous.

Recevez les dernières actualités sur cette émission

Connectez‑vous ou inscrivez‑vous pour suivre des émissions, enregistrer des épisodes et recevoir les dernières actualités.

Choisissez un pays ou une région

Afrique, Moyen‑Orient et Inde

Asie‑Pacifique

Europe

Amérique latine et Caraïbes

États‑Unis et Canada