4 episodes

在流动性泛滥的年代，我们见证了在狂热资本催熟下层出不穷的改变世界的叙事；褪去的一场场潮水所洗涤和留下的，是我们皈依真正的技术进步和底层创新的信仰。

《出埃及记》希望探讨的不仅仅是技术变革所启发的有关未来的天马行空，更希望秉持科学研究精神和工程师思维，深入分析技术发展的脉络，基于技术的可行性边界来讨论产品创新。

我们会请人工智能等计算机科学或其他交叉科学领域的学者、PhD学生和创业者来分享他们对于事件的认知、所在领域的研究成果、以及他们所看到的未来。我们希望我们的讨论将更好地帮助我们摒弃充斥着情绪和立场先行于事实的噪音，从本源去理解科技的发展进程与实际应用空间，揭示AGI到底是怎样的图景、以及我们该如何去影响未来。

我们不追求速度和追赶热点，但将永远以科技和真理为引，去找寻属于我们的美好、宽阔、流奶与蜜之地。

欢迎订阅我们的节目，我们的音频版也会同步在Apple Podcast和Spotify上线。如果您有任何问题、感兴趣的内容、或者想参与我们的播客，欢迎关注公众号“出埃及记Exodus”或联系邮箱exodus.tech.media@gmail.com

出埃及记Exodus 出埃及记Exodus

- Technology
- 5.0 • 1 Rating

- MAY 25, 2024
S1E03 | 英伟达股价遥遥领先，AI算力供应还有新蛋糕吗

S1E03 | 英伟达股价遥遥领先，AI算力供应还有新蛋糕吗

【关于播客】
欢迎大家一同加入出埃及记的旅程!关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或技术背景的初创公司创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
即日起，我们的长视频版本将逐步上线于Youtube和Bilibili，观众老爷们可以更便捷地在长视频中观看带字幕的视频，也便于大家理解对谈中涉及的任何专业语汇。与此同时，我们也将在小红书和视频号发布一些视频切片，呈现采访过程中的灵感时刻。
当然，欢迎关注我们的微信公众号加听友群，跟进更多动态。
【关于本期】
在Nvidia的Q1财报发布后，Nvidia的股价首次飙升至1000美元以上。在AI的算法不断推陈出新的当下，大模型对于算力的需求暴涨令人瞩目，这其中隐藏了哪些机会？本期播客我们邀请三位行业内部人士，从不同的角度切入，共同探讨如何在AI的热潮背景下，从计算效率的角度寻找突破。我们将与教授学者、大厂资深软件研究科学家以及计算机硬件研究博士对话，探究在高昂的算力成本和日益严峻的能源问题面前，如何通过创新思路，例如专用小模型和定制化芯片技术，来实现更高效环保的发展路线。
【嘉宾介绍】
周佩佩（LinkedIn: zhoupeipei)：美国匹兹堡大学电子与计算机工程系助理教授，博导，博士毕业于UCLA计算机系。研究方向包括：芯片电子自动化设计，自动代码生成，编译器优化等。获得2019年计算机体系结构顶刊IEEE集成电路和系统的计算机辅助设计TCAD最佳论文奖(2‰)，2019年UCLA计算机系杰出科研奖，2018年ACM/IEEE计算机辅助设计国际会议ICCAD最佳论文提名，2018年IEEE国际系统和软件性能国际会议ISPASS最佳论文提名。刘泽春（X: @zechunliu）：Meta Reality Labs 高级研究科学家，博士毕业于HKUST计算机系，师从Kwang-Ting Tim CHENG，卡耐基梅隆大学访问学者，师从Marios Savvides与Eric Xing。她的研究方向聚焦端测模型压缩和加速，google scholar论文引用量3900。她的近期研究工作包括 LLM-QAT、LLM-FP4 和 MobileLLM 等，为在移动端设备上部署高效的大型语言模型提供了可行解。樊子辰：密歇根大学电子工程系博士生，师从Dennis Sylvester教授与David Blaauw教授。本科毕业于清华大学电子系。研究方向包括：高能效神经网络加速器设计，低功耗集成电路设计，神经网络模型量化等。他近期主要研究工作包括移动端多任务自然语言和图像处理加速系统设计。他曾在ISSCC，VLSI，ISCA，JSSC等国际顶级会议与期刊发表文章十余篇，曾获得2023年IEEE国际专用系统、架构与处理器会议ASAP最佳论文奖。【开降落伞】
背景科普
05:32 在大模型(LLM)的计算范式中计算效率的重要性
09:11 小公司预训练(Pretrain)大模型的可行性
10:27 训练和推理大模型对硬件的真实需求
软件角度的LLM等人工智能算法加速
11:54 大语言模型的软件层面计算效率优化的新技术
15:17 Scaling law & Scale up and Scale down
18:27 LLM的高效微调(finetune)
20:49 LLM的高效推理(inference)
21:58 小模型和大模型的区别
23:33 小模型的独特架构设计
25:07 LLM架构设计的软硬件结合方法: FlashAttention
27:58 TensorRT和CUDA
30:24 英伟达(Nvidia)的技术壁垒
硬件角度的LLM等人工智能算法加速
31:34 大模型中的长序列输入处理的挑战和解决方法
34:18 传统计算架构中的CPU/GPU/TPU
41:09 近内存计算(Near-Storage Computing)与LLM的适配
43:58 定制化硬件公司Groq和Cerebras的发展和愿景
50:04 摩尔定律缩放减缓对算力
- 1 hr 18 min
- APR 13, 2024
S1E02｜Figure 01背后的具身智能：解析VLM、基础模型、硬件与交互

S1E02｜Figure 01背后的具身智能：解析VLM、基础模型、硬件与交互

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号。;p
【关于本期】
2024年3月13日，Figure AI与Open AI合作推出的Figure 01人形机器人视频在社交媒体上热传。这段长达2分35秒的视频展示了机器人惊人的理解、判断、行动和自我评估能力。对比他们今年2月发布的机器人双腿行走和拿起塑料箱的视频，最新视频展示的人形机器人具有视觉能力并能表述所见画面，并采用端到端的神经网络，在接受人类的提问后，可以在“思索”2~3秒顺畅作答，手部动作的速度则接近人类。从OpenAI 宣布介入与之合作，到今天它们共同推出一个能够自主对话和决策的机器人，只有13天。
在人工智能领域，国际上已有共识，即下一个重要挑战，就是实现具身智能（Embodied Intelligence），即能理解、推理并与物理世界互动的智能系统。全球范围内AI领域的巨头和风投机构的火力在今年也从软件卷入了门槛更高回报周期更长的硬件。我们也在这一期请到了机器人相关领域的三位博士生小伙伴，来跟我们分享机器人背后的视觉语言模型（VLM）、机器人领域的基础模型（foundation model）以及与之对应的精密的人形机器人都是什么？机器人与人的交互和“世界模型”又是怎样的？机器人精密控制的硬件是如何实现的？
【嘉宾介绍】
蔡易林（推特：@Yilin_Cai98）：佐治亚理工大学机器人学博士生，本硕毕业于上海交通大学和卡内基梅隆大学机器人研究所。研究聚焦于机器人灵巧操作、软体机器人和医疗机器人。江振宇（推特：@SteveTod1998）：德州大学奥斯汀分校计算机系博士生，师从 Yuke Zhu。本科毕业于清华大学电子系。研究聚焦于机器人视觉和机器人学习。目前在英伟达通用具身智能研究部门实习，参与英伟达人形机器人基础模型 GROOT 研发。朱昊（推特：@_Hao_Zhu）：卡内基梅隆大学语言技术研究所博士生，师从Graham Neubig 和 Yonatan Bisk。本科毕业于清华大学计算机系。研究聚焦于提升AI和人类在现实世界中的合作能力。【开降落伞】
背景科普
07:25 具身智能和非具身智能的区别？
08:54 现在AI当中的主动交互是什么？具体是如何实现和环境之间交互的？
09:51 机器人的发展有哪些阶段？
11:14 机器人有哪些未来形态或者应用？除了机器人之外，具身智能还有哪些应用？
15:06 具身智能的未来通向何方？
视觉语言模型与基础模型
18:33 如何让机器人可以理解图像和文字？
21:09 什么是视觉语言模型的基石？
22:33 怎样看待Figure 01背后的VLM?
23:30 3D视觉近期在做什么？
27:09 为什么需要人形机器人？人形机器人和其他的embodiment之间存在一些差异吗？这些差异是什么？
32:07 机器人策略的最终形态会是怎样？
33:00 机器人的基础模型的输入输出模态是什么样的？
34:34 机器人基础模型的数据通过什么方式收集？一个具体的数据飞轮可能是什么样的？
模拟交互环境、人机交互与世界模型
37:36 模拟交互环境的优点?
41:13 现有交互环境的类型和评价体系?
45:59 在机器人和人的交互当中，衡量方式是什么，难点又是什么？
49:12 世界模型是什么？
51:00 世界模型可以怎样帮助具身智能？
机器人硬件
52:14 人形机器人的结构设计、硬件是怎样的？应该包含哪些模块
- 1 hr 15 min
- MAR 30, 2024
S1E01｜Claude Grok大模型卷生卷死，AI安全性与计算效率路在何方

S1E01｜Claude Grok大模型卷生卷死，AI安全性与计算效率路在何方

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p
【关于本期】
大模型神仙打架卷生卷死，以至于本期播客从我们筹备到录制到剪辑的两三周内前缀都改了三次 XD。3月初Open AI被马斯克起诉，然后Claude 3横空出世横扫排行榜，接着上周（3月17日）xAI宣布Grok-1开源，而前两天（3月27日）Amazon大手一挥又给Claude3背后的Anthropic输血27.5亿美元巨款。热点永远不缺，而热点背后的技术逻辑总是一脉相承，比新动态更值得花时间去研究。
我们怀着科学吃瓜，追本溯源的态度，请到了麻省理工学院的肖光烜和卡耐基梅隆大学的周旭辉两位PhD同学，来跟大家分享学界是怎样看待以Claude 3和GPT4等LLM为代表的自然语言处理研究？在当前大语言模型当中，信息的安全和价值观的一致是如何被保证的？大语言模型的提效是怎样被实现的？现在的大模型有哪些局限性？另外，他们是如何根据自己的研究专长，评价目前的进展及预测未来的趋势的？
【嘉宾介绍】
肖光烜：麻省理工EECS博士生，师从韩松。本科毕业于清华大学计算机系。研究聚焦于现实世界机器学习应用相关的高效算法和系统，特别是基础模型。曾在Meta AI实习。周旭辉：卡内基梅隆大学语言技术研究所博士生，师从Maarten Sap。本硕毕业于南京大学计算机系与华盛顿大学计算语言系。研究聚焦于社交智能人类语言技术及自然语言处理。曾在苹果机器智能部门实习。【开降落伞】
LLM的评价指标
04:06 NLP（自然语言处理）领域有哪些基准来评价LLM性能？
19:05 为什么会存在context window（上下文窗口）？
AI 安全性（Safety）
38:32 什么是 red-teaming? 为什么Open AI以及Anthropic都在重视这个问题？
42:32 Safety相关的举措会影响大模型推理速度吗？
43:27 RLHF（基于人类反馈的强化学习，reinforcement learning from human feedback），作为一种alignment的手段，在大模型训练中扮演了什么至关重要的角色？
47:19 在使用和训练一个大模型的时候，信息安全性如何被保证？预训练模型例如Llama/GPT4可以在多大程度上保护隐私？
50:55 为什么会有AI幻觉？
53:32 除了AI的幻觉(hallucination)之外，还有与之关联欺骗（deception）和操纵（manipulation）。它们分别是什么以及怎么解决？
AI 计算效率（Efficiency）
61:59 部署LLM时，有哪些效率指标值得主要关注？它们有哪些挑战？GPT4/Azure/Claude3在这些指标上的表现如何？
69:45 实际部署LLM的场景有哪些？端（edge）和云（cloud）对efficiency的侧重点有何不同？
73:29 速度和性能之间的需要做权衡的根本原因是什么？
77:17 提升LLM 计算效率的方法有哪些？
86:30 为什么当下decoder-only的架构是主流？看似更合理的encoder-decoder架构的T5(2019) 为什么没有被大规模采用？
92:02 从性能角度考虑，token数量的提升会带来怎样的后果？
展望一下
94:56 有效加速vs超级对齐，怎么看待AGI，两位未来研究方向的侧重点？
【关于主播】
刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。徐胖虎：电子工程本，计算机
- 1 hr 45 min
- MAR 26, 2024
S1E0 Trailer | 经历过，所以更确信

S1E0 Trailer | 经历过，所以更确信

【关于播客】
欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。
欢迎大家订阅收听，和关注我们的同名微信公众号，追踪最新内容。;p
【关于主播】
刘杰尼：社科传媒本计算机研，Ex高盛TMT投行吗喽，接触过各种行业和国内外项目，混过大厂小厂和创业公司，并有幸（有可能是不幸）经历中国上一个TMT时代的完整兴衰，试图更好地活在科技与人文的交叉点。
徐胖虎：电子工程本，计算机硕博，现加州大学某海景分校论文力工，incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算，试图理解生物人脑和暴力美学的大模型之间的共通之处。
【开降落伞】
00:22 我们从哪里来
04:25 我们要往哪里去
【版权信息】
4U - Mehul Choudhary soundcloud.comMusic promoted by Audio Library bit.ly
- 6 min