3 集

在流动性泛滥的年代，我们见证了在狂热资本催熟下层出不穷的改变世界的叙事；褪去的一场场潮水所洗涤和留下的，是我们皈依真正的技术进步和底层创新的信仰。

《出埃及记》希望探讨的不仅仅是技术变革所启发的有关未来的天马行空，更希望秉持科学研究精神和工程师思维，深入分析技术发展的脉络，基于技术的可行性边界来讨论产品创新。

我们会请人工智能等计算机科学或其他交叉科学领域的学者、PhD学生和创业者来分享他们对于事件的认知、所在领域的研究成果、以及他们所看到的未来。我们希望我们的讨论将更好地帮助我们摒弃充斥着情绪和立场先行于事实的噪音，从本源去理解科技的发展进程与实际应用空间，揭示AGI到底是怎样的图景、以及我们该如何去影响未来。

我们不追求速度和追赶热点，但将永远以科技和真理为引，去找寻属于我们的美好、宽阔、流奶与蜜之地。

欢迎订阅我们的节目，我们的音频版也会同步在Apple Podcast和Spotify上线。如果您有任何问题、感兴趣的内容、或者想参与我们的播客，欢迎关注公众号“出埃及记Exodus”或联系邮箱exodus.tech.media@gmail.com

出埃及记Exodus 出埃及记Exodus

- 科技
- 5.0 • 2 个评分

- 2024年4月13日
S1E02｜Figure 01背后的具身智能：解析VLM、基础模型、硬件与交互

S1E02｜Figure 01背后的具身智能：解析VLM、基础模型、硬件与交互

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号。;p
【关于本期】
2024年3月13日，Figure AI与Open AI合作推出的Figure 01人形机器人视频在社交媒体上热传。这段长达2分35秒的视频展示了机器人惊人的理解、判断、行动和自我评估能力。对比他们今年2月发布的机器人双腿行走和拿起塑料箱的视频，最新视频展示的人形机器人具有视觉能力并能表述所见画面，并采用端到端的神经网络，在接受人类的提问后，可以在“思索”2~3秒顺畅作答，手部动作的速度则接近人类。从OpenAI 宣布介入与之合作，到今天它们共同推出一个能够自主对话和决策的机器人，只有13天。
在人工智能领域，国际上已有共识，即下一个重要挑战，就是实现具身智能（Embodied Intelligence），即能理解、推理并与物理世界互动的智能系统。全球范围内AI领域的巨头和风投机构的火力在今年也从软件卷入了门槛更高回报周期更长的硬件。我们也在这一期请到了机器人相关领域的三位博士生小伙伴，来跟我们分享机器人背后的视觉语言模型（VLM）、机器人领域的基础模型（foundation model）以及与之对应的精密的人形机器人都是什么？机器人与人的交互和“世界模型”又是怎样的？机器人精密控制的硬件是如何实现的？
【嘉宾介绍】
蔡易林（推特：@Yilin_Cai98）：佐治亚理工大学机器人学博士生，本硕毕业于上海交通大学和卡内基梅隆大学机器人研究所。研究聚焦于机器人灵巧操作、软体机器人和医疗机器人。江振宇（推特：@SteveTod1998）：德州大学奥斯汀分校计算机系博士生，师从 Yuke Zhu。本科毕业于清华大学电子系。研究聚焦于机器人视觉和机器人学习。目前在英伟达通用具身智能研究部门实习，参与英伟达人形机器人基础模型 GROOT 研发。朱昊（推特：@_Hao_Zhu）：卡内基梅隆大学语言技术研究所博士生，师从Graham Neubig 和 Yonatan Bisk。本科毕业于清华大学计算机系。研究聚焦于提升AI和人类在现实世界中的合作能力。【开降落伞】
背景科普
07:51 具身智能和非具身智能的区别？
09:40 现在AI当中的主动交互是什么？具体是如何实现和环境之间交互的？
10:26 机器人的发展有哪些阶段？
12:04 机器人有哪些未来形态或者应用？除了机器人之外，具身智能还有哪些应用？
16:07 具身智能的未来通向何方？
视觉语言模型与基础模型
20:14 如何让机器人可以理解图像和文字？
22:25 什么是视觉语言模型的基石？
24:11 怎样看待Figure 01背后的VLM?
25:22 3D视觉近期在做什么？
28:38 为什么需要人形机器人？人形机器人和其他的embodiment之间存在一些差异吗？这些差异是什么？
33:52 机器人策略的最终形态会是怎样？
34:50 机器人的基础模型的输入输出模态是什么样的？
36:36 机器人基础模型的数据通过什么方式收集？一个具体的数据飞轮可能是什么样的？
模拟交互环境、人机交互与世界模型
40:53 模拟交互环境的优点?
42:50 现有交互环境的类型和评价体系?
47:07 在机器人和人的交互当中，衡量方式是什么，难点又是什么？
49:43 世界模型是什么？
51:12 世界模型可以怎样帮助具身智能？
机器人硬件
52:22 人形机器人的结构设计、硬件是怎样的？应该包含哪些模块
- 1 小时 16 分钟
- 2024年3月30日
S1E01｜Claude Grok大模型卷生卷死，AI安全性与计算效率路在何方

S1E01｜Claude Grok大模型卷生卷死，AI安全性与计算效率路在何方

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p
【关于本期】
大模型神仙打架卷生卷死，以至于本期播客从我们筹备到录制到剪辑的两三周内前缀都改了三次 XD。3月初Open AI被马斯克起诉，然后Claude 3横空出世横扫排行榜，接着上周（3月17日）xAI宣布Grok-1开源，而前两天（3月27日）Amazon大手一挥又给Claude3背后的Anthropic输血27.5亿美元巨款。热点永远不缺，而热点背后的技术逻辑总是一脉相承，比新动态更值得花时间去研究。
我们怀着科学吃瓜，追本溯源的态度，请到了麻省理工学院的肖光烜和卡耐基梅隆大学的周旭辉两位PhD同学，来跟大家分享学界是怎样看待以Claude 3和GPT4等LLM为代表的自然语言处理研究？在当前大语言模型当中，信息的安全和价值观的一致是如何被保证的？大语言模型的提效是怎样被实现的？现在的大模型有哪些局限性？另外，他们是如何根据自己的研究专长，评价目前的进展及预测未来的趋势的？
【嘉宾介绍】
肖光烜：麻省理工EECS博士生，师从韩松。本科毕业于清华大学计算机系。研究聚焦于现实世界机器学习应用相关的高效算法和系统，特别是基础模型。曾在Meta AI实习。周旭辉：卡内基梅隆大学语言技术研究所博士生，师从Maarten Sap。本硕毕业于南京大学计算机系与华盛顿大学计算语言系。研究聚焦于社交智能人类语言技术及自然语言处理。曾在苹果机器智能部门实习。【开降落伞】
LLM的评价指标
04:06 NLP（自然语言处理）领域有哪些基准来评价LLM性能？
19:05 为什么会存在context window（上下文窗口）？
AI 安全性（Safety）
38:32 什么是 red-teaming? 为什么Open AI以及Anthropic都在重视这个问题？
42:32 Safety相关的举措会影响大模型推理速度吗？
43:27 RLHF（基于人类反馈的强化学习，reinforcement learning from human feedback），作为一种alignment的手段，在大模型训练中扮演了什么至关重要的角色？
47:19 在使用和训练一个大模型的时候，信息安全性如何被保证？预训练模型例如Llama/GPT4可以在多大程度上保护隐私？
50:55 为什么会有AI幻觉？
53:32 除了AI的幻觉(hallucination)之外，还有与之关联欺骗（deception）和操纵（manipulation）。它们分别是什么以及怎么解决？
AI 计算效率（Efficiency）
61:59 部署LLM时，有哪些效率指标值得主要关注？它们有哪些挑战？GPT4/Azure/Claude3在这些指标上的表现如何？
69:45 实际部署LLM的场景有哪些？端（edge）和云（cloud）对efficiency的侧重点有何不同？
73:29 速度和性能之间的需要做权衡的根本原因是什么？
77:17 提升LLM 计算效率的方法有哪些？
86:30 为什么当下decoder-only的架构是主流？看似更合理的encoder-decoder架构的T5(2019) 为什么没有被大规模采用？
92:02 从性能角度考虑，token数量的提升会带来怎样的后果？
展望一下
94:56 有效加速vs超级对齐，怎么看待AGI，两位未来研究方向的侧重点？
【关于主播】
刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。徐胖虎：电子工程本，计算机
- 1 小时 45 分钟
- 2024年3月26日
S1E0 Trailer | 经历过，所以更确信

S1E0 Trailer | 经历过，所以更确信

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p
【关于主播】
刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。
徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型之间的共通之处。
【开降落伞】
00:22 我们从哪里来
04:25 我们要往哪里去
【版权信息】
4U - Mehul Choudhary soundcloud.comMusic promoted by Audio Library bit.ly
- 6 分钟