ReSpark

王建明

When intelligence reshapes reality, the future sparks now. Welcome to Respark!

  1. 23 MARS

    专访Danfei Xu:人类数据是伪装成另一种形式的机器人数据

    关于Human Data,我们在2025年用了大半年的时间去展现以及科普一些最前沿的学术工作,集锦可以参考总结篇:Human Data—The “Key” to Robot Data。去年的工作汇总更多的是在全身运动控制,在进入2026年,随着EgoScale等工作发布,我们看到了人类数据在机器人操作上的可能性。在EgoScale发布的同期,一篇名为“To Summon a Sensorimotor Ghost”博文吸引了我的关注,我也非常荣幸能够邀请到这篇博文的作者Danfei来做这次专访。Danfei Xu也是我在2025年AI+Robotics华人图谱关注到的学者,他在AI机器人领域有很多出色工作,尤其近两年在如何利用人类数据上有很多探索,比如EgoMimic,EgoBridge,InMimic,EMMA以及EgoScale。 Danfei Xu是Georgia Tech的助理教授,同时也参与NVIDIA Research的部分研究工作。他的研究范围比较广,从较为传统的机器人问题,比如manipulation planning和motion planning,到一些较新的方向,例如imitation learning、learning-based planning以及robot foundation models等。我们这次访谈主要聚焦在一个最近比较受关注的问题:机器人是否能够从人类数据中学习,以及能否从这些人类数据中提取出对机器人有用的知识。 第一部分 为什么会关注Human Data 1. 基于人类数据的分类 第二部分 关于Human data的建模和采集 2. 不同技术路线对应的人类数据? 3. 如何获取多模态的人体数据? 4. 视觉信息是否应该带深度? 5. AI眼镜公司有机会替代Aria吗? 6. 可穿戴眼镜普及的推动效果? 7. 第一视角和第三视角哪种视角更有用? 8. 第一视角的数据可以是RGB吗? 9. 真正可以scale机器人的human data的收集方式 10. 机器人数据的收集需要等穿戴设备先普及吗? 11. 人体局部和全身数据怎么协同? 12. 全身和局部数据采集能放在同一个设备里? 第三部分 关于人类行为的建模 13. 怎么对人类行为进行建模? 14. 人类行为建模有哪些尝试? 15. 怎么看真机数据采集? 16. 近期的几个工作介绍 17. human data使用的takeaways是什么? 18.  怎么看现在操作上的sys2和sys1? 19. 如何将System 2围绕长期目标实现? 20. 世界模型会是System 2 的基础架构? 第四部分 关于Human-robot transfer 21. 怎么解决Human-robot transfer问题? 22. 真正的通用机器人是否遥远? 23. 通用机器人什么时候有雏形?

    1 h 8 min
  2. 17 JANV.

    专访高阳:具身智能不需要“干净的”数据

    机器人数据的问题一直是具身智能最重要的话题,我们在之前有两个系列来探讨机器人数据2024年的EP10 Robot Data第一季访谈总结和2025年的总结篇:Human Data—The “Key” to Robot Data,最近趁着Spirit v1.5开源,我也和许久没有交流的高阳老师一起聊了聊数据的话题,关于机器人数据的训练,他有一个非常有趣的观点:抛弃大多数、甚至几乎所有用于保证“干净数据”的规则,只保留一条原则——做一些有用的事情。 高阳现在是千寻智能的联合创始人,同时也是清华大学交叉信息研究院的助理教授。他本科毕业于清华大学计算机系,博士毕业于UC Berkeley。博士导师是Vision领域的大牛Trevor Darrell,读博期间和Sergey Levine合作开始强化学习方面的探索,博后跟随Pieter Abbeel做强化学习,合作的导师都是RL+Robotics这个领域的大牛。研究方向为计算机视觉和机器人的结合领域,教会机器人通过“看”去操纵周围的事物。我们之前有两期论文报道采访过高阳EP1对话高阳、汶川:如何利用互联网人类视频训练机器人大模型(ATM—RSS 2024满分论文)对话高阳:具身大模型框架ViLa+CoPa。 1. 具身智能路线的共识与非共识3. Spirit v1.5的数据特色2. Spirit v1.5开源具身模型4. Spirit v1.5——Clean Data Is the Enemy of Great Robot Foundation Models https://www.spirit-ai.com/en/blog/spirit-v1-5

    42 min
  3. 12/11/2025

    EP15 对话韩磊:强化学习与动捕数据——诺亦腾机器人的数据故事(上)

    熟悉石麻笔记的朋友们一定看过2023年的一篇文章AI+Robotics华人图谱。在 Human Data 系列的最后两期采访中,我非常荣幸地邀请到曾经出现在过这个图谱中的一位学者——韩磊博士进行深入对谈。 韩磊博士目前担任诺亦腾机器人(Noitom Robotics)联合创始人兼首席科学家。此前,他在腾讯 Robotics X 实验室 工作六年,担任具身智能负责人兼首席研究科学家。在此之前,他曾在腾讯人工智能实验室(Tencent AI Lab) 担任高级研究科学家。 在加入腾讯之前,韩磊曾任职于美国密西西比州立大学(Mississippi State University)基础科学系,担任助理研究教授(Assistant Research Professor)。他在北京大学获得博士学位,师从谢昆青教授,并先后在香港浸会大学(与张宇教授)和美国罗格斯大学(与张桐教授)从事博士后研究工作。 他的研究兴趣在大规模统计机器学习、强化学习、优化、多任务学习以及它们在机器人学、游戏、自然语言处理、计算机视觉和生物信息学等领域的应用”在这次正式访谈之前,我曾经和韩磊博士多次请教过强化学习与机器人结合的一些问题,非常欣赏他对技术思考的深度以及广度。 这次访谈,我和韩磊博士请教了关于以Human data为代表的机器人数据问题,以及目前机器人算法路径等问题,非常非常推荐你也一起听一听,或读一读。 1. 自我介绍 2. 怎么看强化学习近些年在各领域的发展 3. 创业为什么会选择机器人数据? 4. 如果视频数据有突破动捕数据还重要吗? 5. 3D模态对视频数据的重要性 6. 诺亦腾机器人给社区的贡献 7. 动捕数据和方案对比 8. 动捕+RL在解决操作任务上的机会 Show Notes等博主有空再慢慢完善,详细可参考文字内容,公众号搜索石麻笔记(估计11月15日前后发布)。

    55 min
  4. 29/07/2025

    EP13专访Yilun Du:基于EBM和视频生成的具身智能研究路线

    本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者(Planning with Diffusion),也是第一个提出通过视频预测来做机器人轨迹预测的学者(UniPi)。 和Du Yilun博士的交流让我自己受益匪浅,对于和我一样,最近一直在思考VLA是否可以真的把通用机器人做work的人,请你一定要听听这期播客,看看这期文字整理。 Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授,同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位,导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前,他也在 MIT 获得本科学位,并曾在 OpenAI 担任研究员,在 FAIR和Google DeepMind 担任实习生与访问研究员,并曾获得国际生物奥林匹克金牌。 他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体,以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型,从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下,生成式 AI 面临的关键挑战包括缺乏充足的建模数据,以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战,具体方法是使用能量地形学习(Energy-Based Models, EBMs)这一思想,以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。 以下为本文目录 01:00 自我介绍 02:15 什么是能量图谱? 03:30 学习可组合的能量图谱来构建可泛化系统 07:00 进一步解释能量模型 09:10 Diffusion Model和能量图谱模型的关系 10:20 Diffusion Model和机器人的结合 12:20 为什么会坚持EBM这个方向? 13:30 为什么特别关注可组合性和泛化能力 16:10 怎么理解可组合性?组合的是什么? 20:20 这条路线的受关注度怎么样? 22:10看好具身哪个方向? 23:00 目前基于视频的方法有哪些?关于智能的理解 26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线 28:00 你对“智能”的理解? 29:30  语言和图像的智能实现了吗? 30:30 通用机器人这个AGI的终局远吗?关于具身路线的探讨 32:00 目前具身的路线哪些可以落地? 35:00 怎么看端到端VLA? 39:00 为什么不看好RL? 43:00 你认为目前通用机器人最大的问题是什么? 46:00 为什么具身当下的研究没有新意? 48:00  怎么对比语言和从物理载体中获得的智能? 53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨 56:00 对于新进入这个领域的同学的建议 References: Du Yilun个人主页:yilundu.github.io

    1 h 7 min
  5. 26/06/2025

    EP11对话吴翼:用打游戏的方式做AI Agent

    强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar,是Open AI击败Dota 2世界冠军战队OG的OpenAI Five,更是DeepMind击败李世石的AlphaGo,但由于在泛化性上的不足,学术与资本的关注度逐渐转冷,直到ChatGPT的出现,让人们发现强化学习与大模型结合所迸发出的泛化能力,强化学习一夜之间重新回到大众视野。在当前的Agent时代,Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候,不可避免的与形同黑箱的环境进行长时间且大量的交互,这种对数据的异步处理方式,越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师,跟我们分享他在用强化学习探索Agent道路上的心得体会。 出生于1992年的吴翼,在高三暑假代表中国参加国际信息奥林匹克竞赛,随后被清华姚班录取。2014年本科毕业后,他前往加州大学伯克利分校攻读人工智能方向,博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前,他加入了OpenAI工作了一年半,参与的游戏项目捉迷藏,是OpenAI 历史上视频点击率最高的视频。2023年,他创立边塞科技,用强化学习为更多人创造更好的智能体验。 2024年底,他受邀帮助蚂蚁集团成立了强化学习实验室。 关于吴翼老师参与的Open AI捉迷藏项目:Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)(openai.com) 本期节目就来听一听吴老师对于当下AI agent智能体发展的看法,吴老师也会提到他们正在构建的开源强化学习(决策模型与服务)平台Areal,这个平台可以支持各种类型的agent的学习和开发,他们团队也已经完成部分agent应用开发,甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。 本期节目由嘉宾主持Tim来Host,节目制作由晨歌完成。 播客文字整理可以在ReSpark同名公众号《ReSpark》上查看(文字版可能发布时间滞后) 时间轴: Part 1:关于智能体与AI Agent 05:34 当我们谈论Agent,我们究竟在谈论什么? 15:55 竞争会驱使Agent向哪里发展? 24:44 创业公司的壁垒在于niche market与唯快不破 35:59 从AlphaGo到GPT o1,强化学习已经走过完整的技术周期 41:32 用打游戏的方式做AI Agent 54:29 用数据和工程迭代解决大模型和Agent的记忆问题 Part 2:AI的热点话题探讨 1:06:56 AGI到底离我们还有多远 1:15:33 AI self-evolution是不是炒作? 1:24:57 Diffusion vs. Autoregression,谁是下一代的版本答案? 1:31:03 世界模型与空间智能的发展 1:45:34 今天的具身智能到了什么阶段?与Agent怎么结合? Part 3:伯克利求学经历与吴翼眼中的Pieter Abbeel 1:51:32 与Stuart Russell和Pieter Abbeel两位大牛合作,从他们身上看到了什么? 1:57:49 普通人如何抓住Agent浪潮的机会

    2 h 6 min
  6. 16/06/2025

    EP10对话李钟毓:如何构建足式机器人的“小脑”

    最近一段时间,我很喜欢做一些人形机器人的全身运控的科普,最近也采访了几位在这个方向上有代表性工作的一些学者。在上一篇访谈中我们提到,Peng Xue Bin是从动画(animation)的角度切入人形机器人运控专访Xue Bin(Jason) Peng:探索人形机器人全身运控的通用控制器。本期的采访嘉宾李钟毓则是从基于模型的控制理论来切入人形机器人运控,他用六年的博士生涯探索足式机器人的全身运控。 李钟毓博士毕业于加州大学伯克利分校,在Koushil Sreenath 教授的指导下开展研究。他的目标是打造安全、智能且敏捷的腿足机器人,使其成为更好的“人类伙伴”。他的研究主要聚焦于结合基于模型的最优控制与无模型的强化学习,来解决腿足机器人的控制与规划问题,也致力于推动腿足机器人能力边界的拓展,使其不仅仅局限于行走功能。 李钟毓博士将于2025年秋季加入香港中文大学(CUHK)机械与自动化系担任助理教授,研究方向为人形机器人、高动态机器人与具身智能,他正在招收优秀PhD/Postdoc/Intern,欢迎感兴趣的同学加入他的实验室! 目录 (先发布,有时间再加时间标注,也可以参考石麻笔记公众号看文字稿) 足式机器人小脑的构建 1. 基于模型的运动控制 2. 基于RL的运动控制 3. 足式机器人的运动操作任务 4. 多智能体协同控制 5. 安全性问题 一些问题6. 怎么定义小脑 7. 足式机器人的运控从基于模型的控制到RL过渡的关键因素 8. 足式机器人的通用控制器 9. 怎么理解RL的泛化性不好 10. RL的sim2real从不可能到可能 11. 硬件底层透明的重要性 如开头提到,李钟毓博士目前正在为他在港中文的实验室招生,仍有很多名额:博士(26 Fall入学)、博士后(最早25 Fall入职)、访问学生(本科生/硕士,随时加入)。欢迎对人形机器人、具身智能、控制理论感兴趣的同学加入!申请方式感兴趣的同学请发送一封英文邮件到: zhongyu_li AT berkeley.edu. 请包含以下内容:标题格式:[Application] PhD/Postdoc/Visiting Student - Name - Which Track (VLA/Humanoid/Control Theory/Design)正文简要介绍自己的研究兴趣和过往经历,附上英文简历。有国奖的同学请标明。 李钟毓主页:zyliatzju.github.io

    51 min

À propos

When intelligence reshapes reality, the future sparks now. Welcome to Respark!