本期的嘉宾是 vLLM 团队的李卓翰、Simon Mo、柳晓萱 Lily、游凯超,和真格基金管理合伙人戴雨森。
两年时间,vLLM 从加州大学伯克利分校的一个 Demo 项目成长为全球范围内最受欢迎的开源大模型推理加速框架。AI 技术不断突破极限,大语言模型正处于浪潮之巅。而在开发以外,模型的部署常常受到推理速度过慢、GPU 利用率过低的阻碍。vLLM 以 PagedAttention 核心算法,支持 30+ 生成式大语言模型,多种硬件厂商的适配和前沿的优化,能够做到与 Hugging Face Transformers 相比 24 倍的吞吐量。
昨天,真格基金正式宣布对 vLLM 项目进行捐赠。对于创造未来的重要基石,我们愿尽绵薄之力。本期播客,我们请来了 vLLM 项目的四位主要团队成员以及主导这次捐赠的真格基金管理合伙人戴雨森,聊聊 vLLM 背后的开源故事,以及这个项目是如何在 AI 浪潮中势如破竹的。
在本期节目里,我们聊到了 vLLM 如何在短短两年成为了炙手可热的开源大模型推理加速框架?从学界项目起始,vLLM 团队是如何精准发挥自身优势同时进行适应的?为何 vLLM 开源项目能够建立起如此活跃的技术社区生态,吸引全球人才共创?vLLM 的团队如何看待商业化,他们对作为开源项目的 vLLM 有什么愿景?相信无论你是大模型领域的技术开发者,还是对 AI 的发展与创新感兴趣,抑或是开源社区的经营者,这期节目都能带给你启发。
【本期嘉宾】
戴雨森 真格基金管理合伙人
李卓翰 加州大学伯克利分校博士生, vLLM 创始人之一,目前负责 vLLM 的高层设计与开源社区管理
Simon Mo 加州伯克利分校博士生,目前在 vLLM 承担产品经理/开源社区生态管理的角色
柳晓萱 加州伯克利分校博士生,目前在 vLLM 负责科研导向的设计与改进
游凯超 清华博士生,赴伯克利访问,目前在 vLLM 负责开源内容的维护管理
【时间轴】
02:07 vLLM 项目与团队的基本介绍
12:04 在 vLLM 之前,没有 LLM 推理框架尝试在多请求角度做优化
15:38 从零到一,成为最快、最好用的开源引擎
23:12 「大卫战胜哥利亚」,开源模式和代码质量是核心
30:22 开源传统塑造学界与业界「探索性+实用性」的火花碰撞
32:35 开源发布之后,vLLM 的目标不再是只是速度
35:27 一个模型火了,关于这个模型的 issue 就会疯狂增加
40:20 发论文可以有很多前提条件,但做系统需要解决所有极端情况
43:51 未来大模型会更倾向于场景驱动,探索模型效率的极限
45:52 vLLM 选择做的与选择不做的
50:50 建立起广泛的贡献者生态没有什么诀窍,就是一个一个来
58:32 要抑制自己动手的冲动,让社区慢慢成长起来
01:02:39 PMF 出现在当 PR 开始爆炸性增长而我们没精力去提供新的功能时
01:03:10 在 vLLM 做科研是一个正向迭代的过程
01:07:10 更多硬件和模型支持、更高的性能优化,vLLM 会持续构建和维护开源
01:11:43 我们很高兴能做一个非商业化的项目,让大家都能更好地商业化
01:16:57 vLLM 团队关注的新鲜开源项目与书籍分享
【相关资料】
vLLM 项目 GitHub 网址:https://github.com/vllm-project/vllm
vLLM 项目:vLLM 是大语言模型的推理与服务引擎。简单来说,vLLM 的主要功能是将训练好的模型部署到生产环境里,着重于效率与成本,让模型推理变快,让 GPU 更能物尽其用,最终让 AI 产品落地更
信息
- 节目
- 发布时间2024年7月3日 UTC 01:53
- 长度1 小时 23 分钟
- 单集3
- 分级儿童适宜