嘉宾:
Enoch 朱永钉 | 硅谷 AI 公司 Orbifold AI 的创始人,前谷歌、阿里数据专家 。
Meta豪掷近150亿美元收购数据公司Scale AI ,一家“数据标注”公司凭什么能撑起近300亿美金的估值 ?数据在AI时代究竟有多贵?
为解答这些疑问,我们请来了身处一线的硅谷AI公司Orbifold AI创始人、前阿里和谷歌数据专家Enoch,为我们揭开数据炼金术的神秘面纱。
在这期节目中,你将听到:
天价收购揭秘:这笔交易中,买的究竟是数据,还是价值50亿美金的创始人 ?
冰火两重天:中美数据服务市场为何一个高估值一个难赚钱 ?
数据的真相:数据真的枯竭了吗 ?还是每家公司都坐拥一座尚未开采的金矿 ?
实战方法论:传统企业如何将自己杂乱的历史数据,转化为能训练AI的“燃料” ?
出海避坑指南:华人创始人在硅谷创业,成功的秘诀和要避开的“坑”是什么 ?
关键结论
Meta收购案的核心是“人+公司”:Meta的天价收购不仅是购买Scale AI的数据处理能力和市场地位,更是高价“购买”其创始人Alexandr Wang的领导力、视野和执行力,以期扭转其在AI竞争中的被动局面 。
数据服务的商业模式决定价值:美国数据公司之所以估值更高,是因为其商业模式倾向于可规模化的平台或SaaS服务,利润率可以随规模提升。相比之下,国内市场更多是定制化的“保姆式”项目服务,限制了其估值天花板
数据是AI时代的核心资产和护城河:高质量、独特且垂直的专有数据是企业在AI时代构建核心竞争力的关键 。数据处理和准备能力正从边缘的“脏活累活”转变为AI价值链的中心环节。
关键认知
数据枯竭是伪命题,企业数据是金矿:公众普遍担心的高质量公开数据即将用尽,但这忽略了企业内部积累的海量、独特的非公开数据 。这些数据是训练垂直领域AI模型的宝库,其价值挖掘才刚刚开始。
AI训练需从“正反两面”入手:Pre-training(预训练)主要让模型从“正确”的样本中学会做正确的事。而Fine-tuning和Post-training(后训练)则更侧重于通过负样本和人类反馈(RLHF)告诉模型什么是“错误”的,从而减少幻觉,提升可靠性 。
“超级对齐”是终极难题:让AI的价值观与人类对齐(Super Alignment)极其困难。AI会无意识地学习训练数据中隐含的偏见,例如在英文语料中“rock”的出现频率远高于“scissor”,导致AI玩剪刀石头布时出石头的概率畸高 这揭示了数据层面对齐的深层挑战。
数据服务的未来是平台化:数据创建(Data Curation)的终极形态将是一个综合性的数据平台,类似于上一代的Data Bricks或Snowflake。它将为企业AI Agent提供数据ETL、管理和工具箱,尤其是在多模态时代,其价值将比传统BI时代大百倍 。
行动指南
对拥有数据的企业的建议:
从终局思考:先明确要解决的业务问题,再反向推导需要什么数据、如何处理数据 。
寻找“好坏案例”:要训练客服AI,就去分析绩效最好的客服和最差的客服记录,将其分别作为正、负样本来训练模型,这样最有效 。
用Q&A范式处理非结构化数据:面对会议录音、访谈等非结构化数据,可以设计一套标准化的问卷(Q&A Pair),用AI或人工从原文中提取答案,形成结构化的“特征-答案”对,作为高质量的微调数据集 。
对缺乏初始数据的AI创业者的建议:
先跑起来,积累数据飞轮:利用现有的基础大模型(如Llama、Deepseek等)快速构建产品原型,先服务用户,在服务过程中积累自己独特的、有价值的数据,形成正向循环 。
花钱买时间:如果想快速启动,可以寻找专业的“数据交易”公司,向传统行业里拥有数十年数据积累的企业购买或授权使用其数据集 。
对计划出海的华人创始人的建议:
创始人必须肉身在场:对于To B业务,创始人在美国本地是获取客户信任的基础,远程服务几乎行不通 ()。
追求团队与资本的多元化:有意识地让团队、投资方更多元化,吸纳本地人才和VC,这不仅能获得本土化支持(如销售),也能更好地融入当地商业生态,避免被贴上“中国公司”的标签 。
建立共识,拥抱PLG:要理解美国创投圈从创始人到投资人都有一个共同目标,即最终要把公司做成“产品驱动增长”(Product-Led Growth)的模式。所有服务和定制化都是为了打磨产品、最终实现规模化的过程 。
时间轴
01:19 嘉宾介绍:欢迎本期嘉宾Enoch,他在数据领域经验丰富,现在硅谷创业,公司名为Orbifold AI 。
03:21 专业解读Scale AI:Scale AI究竟是做什么的?Enoch将其核心业务总结为三点:人工众包标注、Fine-tuning支持(如RLHF)和多模态数据准备(Data Curation) 。
07:11 Meta为何天价收购Scale AI?:Enoch分析了三大原因:创始人Alexandr Wang出色的执行力与客户服务能力 、公司最早进入该领域的成熟经验 ,以及其掌握的行业数据机密 。
10:48 数据的真实价值:数据为何能值百亿美金?这笔收购中,大约100亿是买公司,50亿是买创始人Alexandr Wang本人 。
13:37 数据枯竭是伪命题:公众普遍担心的数据枯竭尚未发生,企业内部积累的数据是一个巨大的宝库,其使用才刚刚开始。
17:03 Vertical AI的独特价值:通用大模型无法在所有垂直领域都做到专家级别 ,垂直领域的专业数据对于训练深度、精准的AI至关重要。
19:51 中美数据公司的价值差异:为何美国数据公司估值远超国内?核心在于商业模式不同,美国公司倾向于做成可规模化的平台或SaaS服务,而国内更多是项目制的“保姆式”服务。
28:00 Orbifold AI做的是什么?:Enoch介绍自己的公司更侧重于Scale AI的第三项业务——数据创建(Data Curation),通过API和工作流深度嵌入企业,帮助他们将多模态数据准备成AI可用的格式,但不做人工标注。
34:25 传统企业的“数据债”:AI应用在传统企业面临巨大挑战,数据混乱、系统老旧、信息无法关联是普遍现象 。
53:22 如何为新的AI应用寻找数据?:启动阶段可以先用基础模型跑起来积累数据 ,或者寻找专业的“数据猎头”公司花钱购买特定数据集 。
58:09 企业如何有效利用自有数据?:Enoch提出一个实用方法论:设计针对性的Q&A对(特征提取),从现有资料中生成大量的问答对作为训练集,进行模型微调,效果往往超出预期 。
01:04:25 在中美做数据业务的体感差异:工作本质相似,但商业文化不同 。美国创投圈对“产品驱动增长”(Product-Led Growth)有共识,发展路径更清晰 。
01:07:38 给华人创始人的出海建议:做To B业务,创始人肉身在硅谷是建立信任的基础 。同时,要注意投资方和团队成员的多元化与平衡。
01:16:16 AI Agent的数据挑战与“超级对齐”:Agent的训练数据更难获取 。这引出了“超级对齐”(Super Alignment)的概念,即如何让AI的决策和价值观与人类对齐,这是数据层面需要解决的核心难题 。
欢迎订阅「AI 炼金术」的播客,以及同名公众号、视频号
「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地,我们会邀请一线创业者、产品产品和科研学者,深入探讨 AI 如何重塑行业、变革生活,以及如何从 0 到 1 打造 AI 原生产品。
我们的讨论会涵盖多个话题:从 AI 如何改变世界的未来,到如何找到 AI 创业的 PMF;从如何利用 AI 降本增效,到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣,这里有满满的干货和一线实战经验,欢迎关注并推荐给你的朋友,共同探索未来的无限可能!
商务合作:公众号 「AI炼金术 」菜单栏中【商务】获取联系方式
节目主理人:
徐文浩:某AI创业公司联合创始人,正在面向全球市场开发AI应用。连续创业者,参与过多家创业公司,拼多多早期员工。广告科技公司MediaV的算法和数据负责人,后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和 海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。
任鑫:云九资本合伙人,主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者,曾经打造“
Information
- Show
- FrequencyUpdated weekly
- Published17 July 2025 at 12:09 UTC
- Length1h 25m
- Episode1
- RatingClean