海外独角兽

E12 和 Memories.ai 创始人 Shawn 聊:如何给 AI 做一套“视觉海马体”?

过去几年,AI 的巨大突破赋予了机器语言的力量,而下一个前沿在于赋予 AI 关于世界的记忆。当大模型只能分析短暂的视频内容时,一个根本性的鸿沟依然存在:虽然 AI 能够处理信息,但却无法真正地“记住” 信息。可如今 AI 的发展瓶颈已不再是“看见”,而是如何保留、索引并回忆来构成我们现实世界的视觉数据流。

我们认为,Memories.ai 正在构建一条不同的路径。这家公司成立于 2024 年,由前 Meta Reality Labs 的华人研究科学家沈俊潇(Shawn Shen)博士和周恩旻(Ben Zhou)联合创立,他们致力于打造一个基础性的视觉记忆层,目标是成为所有 AI 的“海马体” 。

上个月,Memories.ai 推出了大型视觉记忆模型 LVMM,这不是单一的端到端模型,而是仿照人脑、通过工程化实现的视频记忆系统,能压缩、索引、查询无限量视频数据,让 AI 不止能看,更能真正记住和回忆。

本期节目,我们邀请到了 Memories.ai  创始人 Shawn。在 Shawn 看来,真正类人的记忆本质上是视觉的,而非文本的。他将结合自己的创业思考,和我们分享 LVMM 的构建理念、技术挑战,以及对 memory 的未来想象。

02:07  视频生成与视频理解的差异,创业公司选择视频理解与记忆的原因

03:55  文本记忆与视觉记忆的本质区别,现有 AI 记忆多为“上下文工程”

05:05  人类长期记忆的类型及与 AI 记忆机制的对应关系

08:43  视频是原始数据(raw data),需通过抽象压缩实现理解与检索

10:02  多模态代理(multimodal agents)将成为未来趋势,multimodal prompting 的重要性

11:43  LVMM(大型视觉记忆模型)的设计理念及人类记忆机制的模拟

15:03  LVMM 的关键模块:压缩层、索引、聚合、数据库服务

17:39  与 RAG 的区别:VRM(视觉检索模型)路径

19:06  记忆与理解的关系,长期看理解力有助于记忆力

21:16  应用场景 1:安防领域的实时检测与商业价值

23:12  应用场景 2:媒体与短剧制作的全流程解决方案

23:46  应用场景 3:视频营销与创意引擎,索引 TikTok 热门视频

24:29  视频营销中的网红达人发现与内容创意支持

>> 对谈 Pokee CEO 朱哲清:RL-native 的 Agent 系统应该长什么样?|Best Minds

>> 专访 Luma AI 首席科学家:我们更相信多模态的 Scaling Law

>> 专访月之暗面杨植麟:lossless long context is everything

>> 专访 VideoPoet 作者:LLM 能带来真正的视觉智能

>> 专访 Pika Labs 创始人:探索视频生成的 GPT 时刻

Memories.ai: 是一家专注于长期视频语境理解和视觉记忆建模的 AI 初创公司,公司核心技术 Large Visual Memory Model 为 AI 构建类似人类的“视觉记忆层”,让 AI 能在海量视频数据中持续存储、理解、检索并建立关联记忆。与传统仅能处理短视频的系统不同,Memories.ai 的平台可分析高达 1000 万小时的视频内容,实现噪声压缩、索引、自然语言搜索、标签化和内容聚合等功能。

上下文腐败(context corruption):在大模型领域尤其是注意力机制(attention mechanism)下,指的是当模型处理超长上下文时,原本在上下文中已有的关键信息被逐渐稀释、扭曲或遗忘,导致模型在后续生成中对早期信息的引用不准确甚至错误。

LVMM( Large Visual Memory Model):是 Memories.ai 推出的核心技术系统,目的是为 AI 打造类人的视觉记忆能力,被称为所有 AI 的 “海马体”。但这个模型并非单一的端到端模型,而是一个受人脑记忆系统启发的复杂系统,主要功能是通过工程化方式实现对无限量视频数据的压缩、索引、查询和记忆。

VRM(Visual Retrieval Model):是 Memories.ai 处理视觉记忆的关键模型,用于直接处理视频数据,包含视觉编码过程,需决定如何 “灌入” 数据。它与 RAG 工作路径不同,RAG 是重新组合上下文给大模型处理,而 VRM 对基础设施要求更高,在 LVMM 系统中通过对视频分词等处理,可以为后续聚合、检索等环节提供支持。