1 小时 52 分钟

15. 向量数据库,不只是「大模型的海马体」——对话Zilliz创始人星‪爵‬ 出海相对论

    • 创业

数据,是数字时代的石油。
根据 IDC 的预测,到2025年,全球数据总量中将有超过80%的数据是非结构化数据。向量数据是非结构化数据的抽象数学表达,向量数据库顾名思义就是专门处理向量数据的数据库。
众所周知,AI 三要素包括:算力、算法和数据。向量数据库作为一种专门用于存储和检索向量数据的数据库系统,是将非结构化数据转化为机器可以理解的语义的关键所在。随着 AI 尤其是大模型技术的快速发展,向量数据库的价值也愈发凸显了出来。
红杉美国发布的著名博客《生成式 AI 第二幕(Generative AI’s Act Two)》和 A16Z 发布的《LLM 应用的新兴架构(Emerging Architectures for LLM Applications)》两篇文章中一致提到:向量数据库是重要的生成式人工智能基础设施。A16Z 甚至认为:从系统的角度来看,预处理管道中最重要的部分就是向量数据库。

根据市场研究机构 MarketsandMarkerts 预测:2023年-2028年,全球向量数据库市场规模预计将从15亿美元增长到43亿美元,预计年复合增长率为23.3%。当然,在极速变化的科技行业中,预测总是落后于市场的。回顾过去数十年的科技发展史,我们可以发现:每一代新技术架构的出现都预示着数据范式的改变,也会催生出多家百亿甚至千亿级美金数据平台的诞生。
从大型计算机到个人计算机的转变导致了结构化数据的兴起,从而催生了 Oracle、MySQL 等关系型数据库;互联网和移动互联网导致云应用程序产生的非关系数据量爆炸式增长,从而催生了 MongoDB、Elasticsearch 等 NoSQL 数据库;而企业内部「大数据」的出现则催生了用于存储、管理和分析大量结构化和半结构化数据的云数据库,并产生了 Snowflake、Databricks 等云原生数据库。
AI 时代的到来,向量作为机器理解世界的数据形式,也可能会让向量数据库成为新的重要基建,理论上也会诞生 AI 时代的大型数据库公司。
今天我们有幸邀请到的嘉宾,就是全球第一家提供开源向量数据库产品的公司,也是最被广泛采用的全球领先的向量数据库厂商之一 —— Zilliz 的创始人兼 CEO 星爵,请他和我们深入聊聊向量数据库、AI、RAG、开源、全球化等话题。
【主播】
Jay,《出海相对论》主理人,独立播客制作人。消费互联网创业&投行背景,长期关注消费、科技、AI 等领域的出海全球化创新创业。
佳芮,句子互动创始人,微软人工智能最具价值专家(AI MVP),对话式营销开创者。《福布斯》30 Under 30、36kr S级创业者,Y Combinator 校友,全球最大对话式交互 RPA SDK 开源框架 Wechaty 联合作者。著有《Chatbot 从0到1:对话式交互实践指南》(第一版)(第二版)。
【嘉宾】
星爵,Zilliz 创始人&CEO
星爵是一位拥有超过20年经验的数据库专家,2020-2021年担任 Linux 旗下基金会 LF AI & Data 董事会主席。在创办 Zilliz 之前,星爵在 Oracle 美国总部工作多年,负责 Oracle 关系型数据库系统研发,是 Oracle 12c 云数据库项目的创始工程师。星爵拥有威斯康星大学麦迪逊分校的计算机科学硕士学位和华中科技大学的学士学位。
【你将听到】
00:04:13 星爵自我介绍与 Zilliz 简介
00:06:34 Zilliz 与英伟达、OpenAI、Intel 等建立官方合作伙伴关系背后的故事
00:10:05 Oracle 的经历对创立 Zilliz 有什么影响?当时看到了什么机会?
00:19:20 向量数据库最被低估和高估的各是什么?
00:33:57 向量数据库如何解决大模型幻觉问题?是否是目前最佳方案?
00:42:20 Milvus 2.4版本实现了哪些技术创新,如何做到较以往50倍性能提升?
00:49:00 为什么一开始就选择开源?如何

数据,是数字时代的石油。
根据 IDC 的预测,到2025年,全球数据总量中将有超过80%的数据是非结构化数据。向量数据是非结构化数据的抽象数学表达,向量数据库顾名思义就是专门处理向量数据的数据库。
众所周知,AI 三要素包括:算力、算法和数据。向量数据库作为一种专门用于存储和检索向量数据的数据库系统,是将非结构化数据转化为机器可以理解的语义的关键所在。随着 AI 尤其是大模型技术的快速发展,向量数据库的价值也愈发凸显了出来。
红杉美国发布的著名博客《生成式 AI 第二幕(Generative AI’s Act Two)》和 A16Z 发布的《LLM 应用的新兴架构(Emerging Architectures for LLM Applications)》两篇文章中一致提到:向量数据库是重要的生成式人工智能基础设施。A16Z 甚至认为:从系统的角度来看,预处理管道中最重要的部分就是向量数据库。

根据市场研究机构 MarketsandMarkerts 预测:2023年-2028年,全球向量数据库市场规模预计将从15亿美元增长到43亿美元,预计年复合增长率为23.3%。当然,在极速变化的科技行业中,预测总是落后于市场的。回顾过去数十年的科技发展史,我们可以发现:每一代新技术架构的出现都预示着数据范式的改变,也会催生出多家百亿甚至千亿级美金数据平台的诞生。
从大型计算机到个人计算机的转变导致了结构化数据的兴起,从而催生了 Oracle、MySQL 等关系型数据库;互联网和移动互联网导致云应用程序产生的非关系数据量爆炸式增长,从而催生了 MongoDB、Elasticsearch 等 NoSQL 数据库;而企业内部「大数据」的出现则催生了用于存储、管理和分析大量结构化和半结构化数据的云数据库,并产生了 Snowflake、Databricks 等云原生数据库。
AI 时代的到来,向量作为机器理解世界的数据形式,也可能会让向量数据库成为新的重要基建,理论上也会诞生 AI 时代的大型数据库公司。
今天我们有幸邀请到的嘉宾,就是全球第一家提供开源向量数据库产品的公司,也是最被广泛采用的全球领先的向量数据库厂商之一 —— Zilliz 的创始人兼 CEO 星爵,请他和我们深入聊聊向量数据库、AI、RAG、开源、全球化等话题。
【主播】
Jay,《出海相对论》主理人,独立播客制作人。消费互联网创业&投行背景,长期关注消费、科技、AI 等领域的出海全球化创新创业。
佳芮,句子互动创始人,微软人工智能最具价值专家(AI MVP),对话式营销开创者。《福布斯》30 Under 30、36kr S级创业者,Y Combinator 校友,全球最大对话式交互 RPA SDK 开源框架 Wechaty 联合作者。著有《Chatbot 从0到1:对话式交互实践指南》(第一版)(第二版)。
【嘉宾】
星爵,Zilliz 创始人&CEO
星爵是一位拥有超过20年经验的数据库专家,2020-2021年担任 Linux 旗下基金会 LF AI & Data 董事会主席。在创办 Zilliz 之前,星爵在 Oracle 美国总部工作多年,负责 Oracle 关系型数据库系统研发,是 Oracle 12c 云数据库项目的创始工程师。星爵拥有威斯康星大学麦迪逊分校的计算机科学硕士学位和华中科技大学的学士学位。
【你将听到】
00:04:13 星爵自我介绍与 Zilliz 简介
00:06:34 Zilliz 与英伟达、OpenAI、Intel 等建立官方合作伙伴关系背后的故事
00:10:05 Oracle 的经历对创立 Zilliz 有什么影响?当时看到了什么机会?
00:19:20 向量数据库最被低估和高估的各是什么?
00:33:57 向量数据库如何解决大模型幻觉问题?是否是目前最佳方案?
00:42:20 Milvus 2.4版本实现了哪些技术创新,如何做到较以往50倍性能提升?
00:49:00 为什么一开始就选择开源?如何

1 小时 52 分钟