ReSpark

王建明

When intelligence reshapes reality, the future sparks now. Welcome to Respark!

  1. APR 6

    EP19 专访罗正宜:关于SONIC的深度对谈

    人形机器人通用控制器系列,我们在专访Xue Bin(Jason) Peng:探索人形机器人全身运控的通用控制器,专访罗正宜:解密PHC——人形机器人通用控制器,以及2025年的Human Data系列总结篇:Human Data—The “Key” to Robot Data的一些列采访都有涉及。 这期文章,我再次邀请到了罗正宜博士,来聊一聊在人形机器人全身运控领域家喻户晓的工作SONIC。罗正宜(Zhengyi Luo)是英伟达GEAR实验室的一名研究科学家,博士毕业于CMU,他的导师是 Kris Kitani 教授。在此之前,他于2019年在宾夕法尼亚大学获得了本科学位,并曾在 Kostas Daniilidis 教授的指导下开展研究工作。罗正宜博士的的研究兴趣主要集中在视觉、学习与机器人技术的交叉领域。主要研究方向包括人体姿态估计、人-物交互建模、人类运动建模等。 1. Sonic的核心思想 2. 模型方法介绍 3. Sonic性能的特色 4. Sonic训练数据的特色 5. 关于Data Retargeting 6. Retargeting最难的问题是什么? 7. 人与物体交互的数据 8. Sonic有哪些应用 9. Sonic对不同型号机器人的适配性 10. Sonic的开源状态 11. 一些问题-retargeting vs SMPL -惯性动捕 vs VR -VLA-Controller -轮式双臂 vs 双足 -跨embodiment的通用controller -大幅度强交互场景 -通用和专用 -进一步的算力和规模提升 -多模态 References: Sonic:nvlabs.github.io 罗正宜社交媒体: X/Twitter: @zhengyiluo LinkedIn: Zhengyi (Zen) Luo Website: www.zhengyiluo.com Google Scholar: scholar.google.com 小红书:正合时宜

    1h 4m
  2. MAR 23

    EP18 专访Danfei Xu:人类数据是伪装成另一种形式的机器人数据

    关于Human Data,我们在2025年用了大半年的时间去展现以及科普一些最前沿的学术工作,集锦可以参考总结篇:Human Data—The “Key” to Robot Data。去年的工作汇总更多的是在全身运动控制,在进入2026年,随着EgoScale等工作发布,我们看到了人类数据在机器人操作上的可能性。在EgoScale发布的同期,一篇名为“To Summon a Sensorimotor Ghost”博文吸引了我的关注,我也非常荣幸能够邀请到这篇博文的作者Danfei来做这次专访。Danfei Xu也是我在2025年AI+Robotics华人图谱关注到的学者,他在AI机器人领域有很多出色工作,尤其近两年在如何利用人类数据上有很多探索,比如EgoMimic,EgoBridge,InMimic,EMMA以及EgoScale。 Danfei Xu是Georgia Tech的助理教授,同时也参与NVIDIA Research的部分研究工作。他的研究范围比较广,从较为传统的机器人问题,比如manipulation planning和motion planning,到一些较新的方向,例如imitation learning、learning-based planning以及robot foundation models等。我们这次访谈主要聚焦在一个最近比较受关注的问题:机器人是否能够从人类数据中学习,以及能否从这些人类数据中提取出对机器人有用的知识。 第一部分 为什么会关注Human Data 1. 基于人类数据的分类 第二部分 关于Human data的建模和采集 2. 不同技术路线对应的人类数据? 3. 如何获取多模态的人体数据? 4. 视觉信息是否应该带深度? 5. AI眼镜公司有机会替代Aria吗? 6. 可穿戴眼镜普及的推动效果? 7. 第一视角和第三视角哪种视角更有用? 8. 第一视角的数据可以是RGB吗? 9. 真正可以scale机器人的human data的收集方式 10. 机器人数据的收集需要等穿戴设备先普及吗? 11. 人体局部和全身数据怎么协同? 12. 全身和局部数据采集能放在同一个设备里? 第三部分 关于人类行为的建模 13. 怎么对人类行为进行建模? 14. 人类行为建模有哪些尝试? 15. 怎么看真机数据采集? 16. 近期的几个工作介绍 17. human data使用的takeaways是什么? 18.  怎么看现在操作上的sys2和sys1? 19. 如何将System 2围绕长期目标实现? 20. 世界模型会是System 2 的基础架构? 第四部分 关于Human-robot transfer 21. 怎么解决Human-robot transfer问题? 22. 真正的通用机器人是否遥远? 23. 通用机器人什么时候有雏形?

    1h 8m
  3. JAN 17

    EP17 专访高阳:具身智能不需要“干净的”数据

    机器人数据的问题一直是具身智能最重要的话题,我们在之前有两个系列来探讨机器人数据2024年的EP10 Robot Data第一季访谈总结和2025年的总结篇:Human Data—The “Key” to Robot Data,最近趁着Spirit v1.5开源,我也和许久没有交流的高阳老师一起聊了聊数据的话题,关于机器人数据的训练,他有一个非常有趣的观点:抛弃大多数、甚至几乎所有用于保证“干净数据”的规则,只保留一条原则——做一些有用的事情。 高阳现在是千寻智能的联合创始人,同时也是清华大学交叉信息研究院的助理教授。他本科毕业于清华大学计算机系,博士毕业于UC Berkeley。博士导师是Vision领域的大牛Trevor Darrell,读博期间和Sergey Levine合作开始强化学习方面的探索,博后跟随Pieter Abbeel做强化学习,合作的导师都是RL+Robotics这个领域的大牛。研究方向为计算机视觉和机器人的结合领域,教会机器人通过“看”去操纵周围的事物。我们之前有两期论文报道采访过高阳EP1对话高阳、汶川:如何利用互联网人类视频训练机器人大模型(ATM—RSS 2024满分论文)对话高阳:具身大模型框架ViLa+CoPa。 1. 具身智能路线的共识与非共识3. Spirit v1.5的数据特色2. Spirit v1.5开源具身模型4. Spirit v1.5——Clean Data Is the Enemy of Great Robot Foundation Models https://www.spirit-ai.com/en/blog/spirit-v1-5

    42 min
  4. 11/12/2025

    EP15 对话韩磊:强化学习与动捕数据——诺亦腾机器人的数据故事(上)

    熟悉石麻笔记的朋友们一定看过2023年的一篇文章AI+Robotics华人图谱。在 Human Data 系列的最后两期采访中,我非常荣幸地邀请到曾经出现在过这个图谱中的一位学者——韩磊博士进行深入对谈。 韩磊博士目前担任诺亦腾机器人(Noitom Robotics)联合创始人兼首席科学家。此前,他在腾讯 Robotics X 实验室 工作六年,担任具身智能负责人兼首席研究科学家。在此之前,他曾在腾讯人工智能实验室(Tencent AI Lab) 担任高级研究科学家。 在加入腾讯之前,韩磊曾任职于美国密西西比州立大学(Mississippi State University)基础科学系,担任助理研究教授(Assistant Research Professor)。他在北京大学获得博士学位,师从谢昆青教授,并先后在香港浸会大学(与张宇教授)和美国罗格斯大学(与张桐教授)从事博士后研究工作。 他的研究兴趣在大规模统计机器学习、强化学习、优化、多任务学习以及它们在机器人学、游戏、自然语言处理、计算机视觉和生物信息学等领域的应用”在这次正式访谈之前,我曾经和韩磊博士多次请教过强化学习与机器人结合的一些问题,非常欣赏他对技术思考的深度以及广度。 这次访谈,我和韩磊博士请教了关于以Human data为代表的机器人数据问题,以及目前机器人算法路径等问题,非常非常推荐你也一起听一听,或读一读。 1. 自我介绍 2. 怎么看强化学习近些年在各领域的发展 3. 创业为什么会选择机器人数据? 4. 如果视频数据有突破动捕数据还重要吗? 5. 3D模态对视频数据的重要性 6. 诺亦腾机器人给社区的贡献 7. 动捕数据和方案对比 8. 动捕+RL在解决操作任务上的机会 Show Notes等博主有空再慢慢完善,详细可参考文字内容,公众号搜索石麻笔记(估计11月15日前后发布)。

    55 min
  5. 07/29/2025

    EP13专访Yilun Du:基于EBM和视频生成的具身智能研究路线

    本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者(Planning with Diffusion),也是第一个提出通过视频预测来做机器人轨迹预测的学者(UniPi)。 和Du Yilun博士的交流让我自己受益匪浅,对于和我一样,最近一直在思考VLA是否可以真的把通用机器人做work的人,请你一定要听听这期播客,看看这期文字整理。 Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授,同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位,导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前,他也在 MIT 获得本科学位,并曾在 OpenAI 担任研究员,在 FAIR和Google DeepMind 担任实习生与访问研究员,并曾获得国际生物奥林匹克金牌。 他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体,以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型,从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下,生成式 AI 面临的关键挑战包括缺乏充足的建模数据,以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战,具体方法是使用能量地形学习(Energy-Based Models, EBMs)这一思想,以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。 以下为本文目录 01:00 自我介绍 02:15 什么是能量图谱? 03:30 学习可组合的能量图谱来构建可泛化系统 07:00 进一步解释能量模型 09:10 Diffusion Model和能量图谱模型的关系 10:20 Diffusion Model和机器人的结合 12:20 为什么会坚持EBM这个方向? 13:30 为什么特别关注可组合性和泛化能力 16:10 怎么理解可组合性?组合的是什么? 20:20 这条路线的受关注度怎么样? 22:10看好具身哪个方向? 23:00 目前基于视频的方法有哪些?关于智能的理解 26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线 28:00 你对“智能”的理解? 29:30  语言和图像的智能实现了吗? 30:30 通用机器人这个AGI的终局远吗?关于具身路线的探讨 32:00 目前具身的路线哪些可以落地? 35:00 怎么看端到端VLA? 39:00 为什么不看好RL? 43:00 你认为目前通用机器人最大的问题是什么? 46:00 为什么具身当下的研究没有新意? 48:00  怎么对比语言和从物理载体中获得的智能? 53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨 56:00 对于新进入这个领域的同学的建议 References: Du Yilun个人主页:yilundu.github.io

    1h 7m
  6. 06/26/2025

    EP11对话吴翼:用打游戏的方式做AI Agent

    强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar,是Open AI击败Dota 2世界冠军战队OG的OpenAI Five,更是DeepMind击败李世石的AlphaGo,但由于在泛化性上的不足,学术与资本的关注度逐渐转冷,直到ChatGPT的出现,让人们发现强化学习与大模型结合所迸发出的泛化能力,强化学习一夜之间重新回到大众视野。在当前的Agent时代,Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候,不可避免的与形同黑箱的环境进行长时间且大量的交互,这种对数据的异步处理方式,越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师,跟我们分享他在用强化学习探索Agent道路上的心得体会。 出生于1992年的吴翼,在高三暑假代表中国参加国际信息奥林匹克竞赛,随后被清华姚班录取。2014年本科毕业后,他前往加州大学伯克利分校攻读人工智能方向,博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前,他加入了OpenAI工作了一年半,参与的游戏项目捉迷藏,是OpenAI 历史上视频点击率最高的视频。2023年,他创立边塞科技,用强化学习为更多人创造更好的智能体验。 2024年底,他受邀帮助蚂蚁集团成立了强化学习实验室。 关于吴翼老师参与的Open AI捉迷藏项目:Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)(openai.com) 本期节目就来听一听吴老师对于当下AI agent智能体发展的看法,吴老师也会提到他们正在构建的开源强化学习(决策模型与服务)平台Areal,这个平台可以支持各种类型的agent的学习和开发,他们团队也已经完成部分agent应用开发,甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。 本期节目由嘉宾主持Tim来Host,节目制作由晨歌完成。 播客文字整理可以在ReSpark同名公众号《ReSpark》上查看(文字版可能发布时间滞后) 时间轴: Part 1:关于智能体与AI Agent 05:34 当我们谈论Agent,我们究竟在谈论什么? 15:55 竞争会驱使Agent向哪里发展? 24:44 创业公司的壁垒在于niche market与唯快不破 35:59 从AlphaGo到GPT o1,强化学习已经走过完整的技术周期 41:32 用打游戏的方式做AI Agent 54:29 用数据和工程迭代解决大模型和Agent的记忆问题 Part 2:AI的热点话题探讨 1:06:56 AGI到底离我们还有多远 1:15:33 AI self-evolution是不是炒作? 1:24:57 Diffusion vs. Autoregression,谁是下一代的版本答案? 1:31:03 世界模型与空间智能的发展 1:45:34 今天的具身智能到了什么阶段?与Agent怎么结合? Part 3:伯克利求学经历与吴翼眼中的Pieter Abbeel 1:51:32 与Stuart Russell和Pieter Abbeel两位大牛合作,从他们身上看到了什么? 1:57:49 普通人如何抓住Agent浪潮的机会

    2h 6m

About

When intelligence reshapes reality, the future sparks now. Welcome to Respark!

You Might Also Like