57 min

E152|对话NVIDIA和五源资本:“具身智能”能带领这波机器人热走多远‪?‬ 硅谷101|中国版

    • Technology

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血,让它们变得越来越聪明,行动能力越来越强,越来越像人。 “具身智能”的出现,让机器不再仅仅是被动的计算设备,而是能够主动与物理世界互动的智能体。
从创业公司到科技巨头,从软件平台到硬件开发,这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas,这些类人形机器人展现了无与伦比的交互能力,实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结,即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高,人形机器人的商业化应用是否已近在咫尺?在这场竞赛中,哪类玩家能够抢占先机?
本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen),与大家分享他们对机器人行业的见解,讨论AI加持下的机器人行业有哪些新的工具和技术,还需要经历哪些挑战,才能真正实现规模化和商业化。
【主播】泓君Jane,硅谷101创始人,播客主理人【嘉宾】李雨倩 (Lily Li) ,NVIDIA中国区机器人业务负责人陈哲 (Peter Chen),五源资本董事总经理
【你将听到】03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展06:19 SayCan,PaLM-E,RT-2等大模型是突破的关键08:58 NVIDIA做机器人早有积累:从训练、仿真到推理15:52 大火的“具身智能”关键在于智能体与外界有交互21:14 机器人一定要像人吗?有时三个手臂更实用,但“人形”是人类文明的形象承载26:14 中国的机器人开发者最关心什么时候可以用上GR00T31:31 物理世界 or 仿真平台:不管在哪里训练机器人,都离不开真实世界数据37:03 泼个冷水:通用机器人尚无商业化案例38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机45:37 现在做通用机器人,难度大于在2005年做特斯拉46:15 十年:当通用机器人商业化时间超过一家基金的存续期47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖51:18 各有所长:中国领先供应链和垂直落地场景、美国擅长探索通用能力55:10 做机器人要有长期主义心态,在低谷期建立复原能力56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会
【相关音频】E113 | 大模型来了,但机器人研究依然很难,商业化更难
【相关补充信息】
具身智能Embodied Artificial Intelligence,是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。
Project GR00TNVIDIA 于今年3月发布的人形机器人通用基础模型,GR00T 驱动的机器人(00代表通用机器人00技术)将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型(Embodied Multimodal Language Model)。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中,从而在单词和感知(

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血,让它们变得越来越聪明,行动能力越来越强,越来越像人。 “具身智能”的出现,让机器不再仅仅是被动的计算设备,而是能够主动与物理世界互动的智能体。
从创业公司到科技巨头,从软件平台到硬件开发,这场机器人竞赛的参与者越来越多。从特斯拉的Optimus到波士顿动力的Atlas,这些类人形机器人展现了无与伦比的交互能力,实现了从视觉到动作的端到端神经网络闭环。这些进展似乎预示着“莫拉维克悖论”的终结,即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高,人形机器人的商业化应用是否已近在咫尺?在这场竞赛中,哪类玩家能够抢占先机?
本期《硅谷101》邀请到了NVIDIA中国区机器人业务负责人李雨倩 (Lily Li) 和五源资本董事总经理陈哲 (Peter Chen),与大家分享他们对机器人行业的见解,讨论AI加持下的机器人行业有哪些新的工具和技术,还需要经历哪些挑战,才能真正实现规模化和商业化。
【主播】泓君Jane,硅谷101创始人,播客主理人【嘉宾】李雨倩 (Lily Li) ,NVIDIA中国区机器人业务负责人陈哲 (Peter Chen),五源资本董事总经理
【你将听到】03:32 大模型、仿真训练和巨头的入场加速了复杂形态机器人的发展06:19 SayCan,PaLM-E,RT-2等大模型是突破的关键08:58 NVIDIA做机器人早有积累:从训练、仿真到推理15:52 大火的“具身智能”关键在于智能体与外界有交互21:14 机器人一定要像人吗?有时三个手臂更实用,但“人形”是人类文明的形象承载26:14 中国的机器人开发者最关心什么时候可以用上GR00T31:31 物理世界 or 仿真平台:不管在哪里训练机器人,都离不开真实世界数据37:03 泼个冷水:通用机器人尚无商业化案例38:49 垂直品类的机器人主要在扫地、仓储搬运、无人机45:37 现在做通用机器人,难度大于在2005年做特斯拉46:15 十年:当通用机器人商业化时间超过一家基金的存续期47:57 让机器人“学会拿杯子”就可以拿诺贝尔奖51:18 各有所长:中国领先供应链和垂直落地场景、美国擅长探索通用能力55:10 做机器人要有长期主义心态,在低谷期建立复原能力56:37 “技术泡沫”也意味着顶级聪明人的聚集和新的商业机会
【相关音频】E113 | 大模型来了,但机器人研究依然很难,商业化更难
【相关补充信息】
具身智能Embodied Artificial Intelligence,是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。
Project GR00TNVIDIA 于今年3月发布的人形机器人通用基础模型,GR00T 驱动的机器人(00代表通用机器人00技术)将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。PaLM-E
PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型(Embodied Multimodal Language Model)。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中,从而在单词和感知(

57 min

Top Podcasts In Technology

Lenny's Podcast: Product | Growth | Career
Lenny Rachitsky
Lex Fridman Podcast
Lex Fridman
Waveform: The MKBHD Podcast
Vox Media Podcast Network
Tech Won't Save Us
Paris Marx
Home Assistant Podcast
HK Media
Apple Events (audio)
Apple