AI Next

微软亚洲研究院

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。

Episodes

  1. S1E5:当AI不再只是工具:我们真的准备好和它做“伙伴”了吗?

    JAN 23

    S1E5:当AI不再只是工具:我们真的准备好和它做“伙伴”了吗?

    节目介绍: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。 作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。 当 AI 深度参与我们的工作、学习和生活,人与技术的关系也在悄然发生着改变。在第五期《AI Next》中,我们邀请到微软亚洲研究院副院长谢幸博士,从日常使用 AI 的真实场景出发,与大家探讨 AI 在效率提升背后暴露出的偏见、安全与价值对齐等问题。围绕 Societal AI(社会责任人工智能) 这一研究方向,我们将进一步讨论当 AI 成为人类社会的“伙伴”时,应如何更好地融入人类社会?我们又该如何与 AI 共建未来? 嘉宾介绍: 谢幸博士 谢幸博士现任微软亚洲研究院副院长,其研究团队目前专注于数据挖掘、社会计算与负责任人工智能等领域,致力于推动前沿技术的发展与跨学科融合。 谢幸博士在国际学术界具有广泛影响,曾获得一系列重要奖项,包括:2019年 ACM SIGSPATIAL 十年影响力论文奖、中国计算机学会“青竹奖”,2020年 ACM SIGSPATIAL 十年影响力论文荣誉奖,2021年 ACM SIGKDD China 时间检验论文奖,2022年 ACM SIGKDD 时间检验论文奖,2023年 IEEE MDM 时间检验论文奖与中国计算机学会自然科学一等奖,并于同年入选 DeepTech“中国智能计算科技创新人物”。2025年,谢幸博士被授予“北京市劳动模范”荣誉称号。 谢幸博士是国际计算机学会会士(ACM Fellow)、电气电子工程师学会会士(IEEE Fellow)和中国计算机学会会士。他曾多次受邀在全球顶级学术会议上担任大会主题报告讲者,并长期担任多个全球学术期刊的编委。此外,他还曾担任多个全球顶级学术会议的程序委员会共同主席。 本期技术名词: 负责任的人工智能(Responsible AI): 负责任的人工智能关注的不是“AI 能不能做”,而是“AI 应不应该这样做”。它强调在设计和使用 AI 时,要尽量避免伤害、减少偏见、保护隐私,并确保 AI 的决策对人类是公平、可靠、可控的。 可解释性: AI 的可解释性指的是当 AI 给出一个结果时,人类能不能理解它判断、运行的原因。可解释性研究的目标,就是让 AI 的决策过程更透明,让人类在关键场景下能看懂它,而不是盲目相信它。 社会责任人工智能(Societal AI): 社会责任人工智能是一个新兴的跨学科研究领域,聚焦于 AI 与全球社会系统和公共生活的复杂交互关系。它主要关注两个方面:一是,AI 对教育、就业和治理等领域带来的影响;二是,在 AI 能力不断演进的过程中,AI 系统所面临的新兴的内在挑战。它的目标是引导 AI 发展与社会系统相协调,能够更好地融入现实世界。 价值观罗盘(Value Compass): 价值观罗盘是微软亚洲研究院正在进行的一项研究。其研究的核心问题是,当 AI 被用在不同国家、不同文化、不同人群中时,它是不是能理解并尊重这些差异。研究员们希望构建一套评测方式,去衡量 AI 在价值观上的表现,让 AI 学会在不同语境下,做出更合适的判断。研究员们从交叉学科的角度切入,充分借鉴伦理学和社会学中的理论,从而解决 AI 对价值观的定义、评测和对齐问题。 内容提要: 05:29 AI 走进日常生活:效率提升背后的变化 07:39 AI 也会“出错” 09:03 什么是 社会责任人工智能? 13:28 AI 的“价值观”从何而来? 17:10 AI 出现偏见与风险的根源 18:06 从可解释性到可预测性,建立与AI间的信任 24:33 跨学科合作推动AI发展 27:25 理想的社会责任人工智能 互动方式: 公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院 相关阅读: 文章:微软亚洲研究院发布社会责任人工智能白皮书,助力构建以人为本的AI系统 白皮书:Societal AI: Research Challenges and Opportunities 文章:Value Compass Benchmarks自进化评测框架,深度剖析大模型“三观” 项目页面:价值观罗盘评估中心Value Compass Benchmarks 论文:价值观罗盘评估中心:面向人机交互的大模型价值观评测平台 文章:价值观罗盘:如何让大模型与人类价值观对齐? 文章:人工智能评测新范式:解锁AI性能的可解释力与预测力 文章:跨学科合作构建具有社会责任的人工智能声明: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。 作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:msrc.microsoft.com

    30 min
  2. JAN 9

    S1E4:人工智能的下一代前沿:从规模化到学习范式的革命

    节目介绍: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。 作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。在《AI Next》第四期中,我们邀请到微软亚洲研究院首席科学家韦福如,从第一性原理出发,与大家探讨当前 AI 发展中最核心、具有争议的前沿问题。为何 Scaling 仍是 AI 的第一性原理,但必须走向“科学规模化”;为什么 AI 已能很好地解决 In-Distribution 问题,却仍未真正学会“学习本身”;为何下一次决定性跃迁,来自学习范式而非单纯工程优化。从基础研究到产业化路径,让我们共同开启这场关于 AI 下一代范式迁移的深度对话。 嘉宾介绍: 韦福如博士 韦福如博士现任微软亚洲研究院首席科学家、微软杰出科学家,领导团队从事基础模型、自然语言处理、语音处理和多模态人工智能等领域的研究。近年来,他还致力于领导和推进通用人工智能的基础研究和创新。 近年来,韦福如博士和团队在基础模型和通用人工智能领域发表和开源了一系列开创性、有影响力的论文和模型,例如 UniLM, InfoXLM, XLM-E, MiniLM(-2), (m)E5, Layout(X)LM(-3), WavLM, BEiT(-3), Kosmos(-2), VALL-E, DeepNet, LongNet, MiniLLM / On-Policy Distillation, (Gated) RetNet, YOCO / Decoder-Decoder Architecture, 1-bit LLMs / BitNet (b1.58 | a4.8 | b1.58 2B4T | v2 | BitDistill | bitnet.cpp), Q-Sparse / Fully Sparsely-Activated LLMs, MH-MoE / 1-bit MoE, Differential Transformer, LatentLM / Multimodal Latent Language Modeling, RPT / Reinforcement Pre-Training, VibeVoice, TPT / Thinking Augmented Pre-Training, Agentic Organization / Asynchronous Thinking, Generative Adversarial Distillation / Black-Box On-Policy Distillation 等。 韦福如博士在顶级会议和期刊上发表了200多篇研究论文(被引用超过70,000次,H-Index 120),并获得 AAAI 2021 年最佳论文提名奖以及 KDD 2018 最佳学生论文奖。 韦福如博士分别于2004年和2009年获得武汉大学学士学位和博士学位。2017年,他因对自然语言处理的贡献入选《麻省理工技术评论》中国35岁以下创新者年度榜单(MIT TR35 China), 2018年入选中国AI英雄风云榜技术新锐奖榜单。2019年“统一自然语言预训练模型与机器阅读理解”入选世界互联网领先科技成果奖,2024年 LayoutLM 荣获国际基础科学大会前沿科学奖。2020年入选北京市劳动模范。 本期技术名词: 规模法则(Scaling Law): 规模法则 Scaling Law 可谓是 AI 领域的“摩尔定律”。简单说 Scaling Law 就是模型越大,即参数越多、训练数据越多、算力越强,它的能力通常就越强。比如早期的 AI 模型参数量大幅增加的话,它回答问题、写代码、总结文本的能力肉眼可见地变强。 Transformer 架构: 如果把 AI 模型比作“大脑”,那当前几乎所有主流 AI 的”脑回路”都是基于 Transformer 架构的。它就像积木中的基础模块,无论是语言模型、视觉模型还是语音模型,都能用同一套积木搭建的方法。 评测基准(Benchmark): Benchmark 是判断 AI 模型能力的基准。科学家们会针对不同能力设计一些“考试题”,比如数学题、逻辑推理题、代码生成题,或者让 AI 根据一段文字回答问题。早期的评测可能比较简单,之后难度会逐步升级。 低比特量化: 随着模型越做越大,用 Transformer 架构搭建的模型越来越耗费算力和能源。低比特量化就好比给 AI 模型节能瘦身。原本 AI 计算时用的是8位、16位的复杂数据,现在低比特量化将其压缩成1位、4位这样更简单的形式,以此来降低计算量和能耗。 内容提要: 05:24 在信息爆炸时代,研究者如何跟上 AI 前沿步伐? 06:44 规模化是否真的见顶了? 09:34 刷榜的意义是什么? 10:25 Transformer 到底是不是瓶颈?数据荒背后,真正稀缺的是什么? 14:34 向大脑学习:记忆、神经可塑性与持续学习 21:47 模型架构、系统与硬件的协同进化 24:16 从“语言思考”走向“多模态思考” 36:46 通用模型 vs 垂直定制:如何做出正确选择? 40:07 第二增长曲线,仍在继续 互动方式: 公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院 相关阅读: 论文:Reinforcement Pre-Training(RPT) 论文:BitNet: Scaling 1-bit Transformers for Large Language Models 论文:You Only Cache Once(YOCO): Decoder-Decoder Architectures for Language Models 论文:Differential Transformer 论文:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 项目页面:VibeVoice: A Frontier Open-Source Text-to-Speech Model 文章:VibeVoice实现90分钟、多角色播客生成,拓展语音合成新边界 论文:Thinking Augmented Pre-Training 论文:DeepNet: Scaling Transformers to 1,000 Layers 论文:LongNet: Scaling Transformers to 1,000,000,000 Tokens 论文:The Era of Agentic Organization: Learning to Organize with Language Models 论文:BEiT: BERT Pre-Training of Image Transformers 论文:Multimodal Latent Language Modeling with Next-Token Diffusion 署名文章:人工智能基础创新的第二增长曲线声明: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。 作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:msrc.microsoft.com

    43 min
  3. 12/26/2025

    S1E3:Agentic AI 会成为智能自主体吗?

    节目介绍: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。本期节目,我们将目光投向近年来发展迅速的 agent(智能体)和 Agentic AI,与微软亚洲研究院首席研发工程师杨玉庆与高级研究员王韵,共同探讨 AI 如何从对话式“助手”演进为能够被人放心委托任务的智能“伙伴”。 Agentic AI 与传统软件、 AI 助手究竟有何本质不同?当 AI 开始理解人的思考过程,我们的工作方式、协作模式,乃至对智能的理解,又将会发生怎样的改变?图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。本期节目,我们将目光投向近年来发展迅速的 agent(智能体)和 Agentic AI,与微软亚洲研究院首席研发工程师杨玉庆与高级研究员王韵,共同探讨 AI 如何从对话式“助手”演进为能够被人放心委托任务的智能“伙伴”。 Agentic AI 与传统软件、 AI 助手究竟有何本质不同?当 AI 开始理解人的思考过程,我们的工作方式、协作模式,乃至对智能的理解,又将会发生怎样的改变? 嘉宾介绍: 杨玉庆博士 杨玉庆博士现任微软亚洲研究院首席研发工程师,带领系统与工程组专注于大模型系统和多模态系统的研究。他的研究兴趣包括大模型的高效计算和智能体系统的顶层设计等。相关研究成果多次发表于 OSDI、SOSP、EuroSys、ATC、CVPR、ICCV、NeurIPS 等国际顶级会议。杨玉庆分别于2006年和2011年获得复旦大学的学士学位和博士学位。 王韵博士 王韵博士是微软亚洲研究院的高级研究员。她的研究主要关注媒介如何作为一种基础结构,塑造人类的理解、表达、创造与协作方式,并进一步探索 AI 作为一种底层能力融入时,媒介与知识工作的基本形态如何发生变化。过去十余年中,王韵博士围绕数据分析、内容创作与知识工作等实践情境,持续推动不同媒介形式与表达结构的发展。她在复旦大学与香港科技大学获得了软件工程和计算机科学的学士与博士学位。她的相关研究成果曾发表于IEEE TVCG、ACM CHI、IEEEVIS、ACM UIST等国际顶级学术会议与期刊,同时,她也长期担任相关大会和期刊的程序委员会成员(Program Committee, Associate Chair)及审稿人。 本期技术名词: Agentic AI: 如果把传统 AI 比作一个“问一句、答一句”的工具,那么 Agentic AI更像一个真正能托付事情的智能助理。用户只需交代目标,agent 就会自动查询所需的资料、调用所需的工具,并在过程中不断检查、纠错,直至交付结果。Agentic AI 不仅仅是执行指令,而是理解用户的意图并主动行动。 智能体强化学习(Agent Reinforcement Learning): 强化学习(Reinforcement Learning)是 AI 学习的一种方式,核心是试错学习。对于 agent 来说,当它成功完成一个复杂任务,或者采取了一个正确的步骤,它就会得到一个奖励信号,这个信号将帮助 agent 记住这个好的行为。 Agent  Lightning: Agent Lightning 是微软亚洲研究院推出的一款灵活可扩展的框架,专为弥合 agent 开发与优化的鸿沟而设计。它就像是 agent 的训练加速器,无需修改原来的程序,即可让 agent 在真实的交互数据中学习、优化,从而适应多轮对话、复杂任务和动态环境,有效提升 agent 在复杂场景中的性能与适应性。 元认知: 元认知原本是人类心理学的概念,指的是对自己认知过程的认知,比如人在解题时能意识到“我为什么卡在这一步?”“我之前的思路哪里错了?”如今,在与 agent 的交互中,我们可以把脑子里默默进行的思想活动告诉 AI,变成指挥 AI 的语言信号。这将让 agent 与我们对齐思考节奏,真正理解人在怎么思考。 Vibe coding: Vibe coding 是随着 AI 发展出现的一种新的表达方式。它不再要求用户写出精确的代码,而是用自然语言甚至“感觉”来表达编程意图。比如,“我想要一个简约、大气的网页界面。”“简约、大气”这些听起来含糊的描述就是一种意图。Agent 能读懂这种高层语义,自动生成符合用户偏好的代码。 内容提要: 04:00 快速了解与 agent、Agentic AI 相关的核心概念 06:48 从工具到数字“伙伴” 09:32 AgenticAI 的三阶段进化 14:05 能够被人放心委托任务的智能“伙伴”需要具备哪些关键能力? 18:25 推进 Agentic AI 发展的主流研究路径有哪些? 21:28 Agentic Media:为协作而生的新型媒介 25:27 人机协作的方式正在发生变化 27:30 Agentic Media:为协作而生的新型媒介 32:46 如何让多个 agent 高效配合? 36:28 为什么 agent 不能是黑箱? 42:05 真正被需要的 agent 是什么样? 互动方式: 公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院 相关阅读: GitHub Repo: agent-lightning 文章:Agent Lightning:零侵入强化学习,为任意AI智能体插上优化的翅膀 项目页面:Agent Lightning Blog: Agent Lightning: Adding reinforcement learning to AI agents without code rewrites Tech Report: Agent Lightning: Train ANY AI Agents with Reinforcement Learning 论文:Interaction, Process, Infrastructure: A Unified Framework for Human–Agent Collaboration声明: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:msrc.microsoft.com

    45 min
  4. 12/12/2025

    S1E2:当 AI 学会理解世界:从世界模型到具身智能,它还缺什么?

    节目介绍: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。 作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在生成合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face上 开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。在第二期节目中,我们将与微软技术院士、微软亚洲研究院常务副院长郭百宁博士和副院长边江博士一起探讨具身智能领域的最新研究进展以及未来的应用方向。为什么具身智能必须通过行动来理解世界?具身智能又是如何通过与世界交互来学习的?世界模型为什么是迈向具身智能的关键?AI 正在从“能回应”迈向“会做事”,这一跃迁将推动智能在现实的复杂场景中更好地辅助人类,也将促使人们重新思考未来创新、生产力与人机协同的边界。 嘉宾介绍: 郭百宁博士 郭百宁博士,“微软杰出科学家”之一,现任微软亚洲研究院常务副院长。郭百宁博士拥有美国康乃尔大学硕士和博士学位,北京大学学士学位。他是加拿大皇家科学院院士,也是美国计算机协会会士(ACM Fellow),以及电气电子工程师学会会士(IEEE Fellow)。 郭百宁博士的研究领域包括计算机图形学、几何建模,虚拟现实和计算机视觉。他的研究集中在三个方向:三维图形学和成像中的深度神经网络模型、纹理和外观建模的统计模型,以及几何建模。他的工作被广泛应用于虚拟现实、视频通信、数字内容创建,和视频游戏等多个领域。郭百宁博士发明的计算机图形和视频游戏核心技术被全世界数以千万计的用户使用。 郭百宁博士是许多计算机图形学和视觉计算大会的主题演讲人,包括 ACM/SIAM 三维物体和物理建模大会(SPM)、IEEE 三维物体建模国际大会(SMI)、IEEE 虚拟现实大会(IEEE-VR)、IEEE 多媒体博览会(ICME)、IEEE 视觉通信和图像处理大会(VCIP)、太平洋图形学大会(PG)、计算机动画和社交智能体大会(CASA)和 IEEE ICASSP。他曾在许多国际计算机图形会议的程序委员会任职,并担任多种全球计算机图形学期刊的编辑委员会成员。 边江博士 边江博士,现任微软亚洲研究院副院长,主要负责微软亚洲研究院机器学习组和产业创新中心。他所带领的团队研究领域涉及基于大语言模型的智能体系统、强化学习、具身智能等,以及人工智能在金融、能源、物流、制造、医疗健康、可持续发展等垂直领域的前沿性研究和应用。他曾在国际顶级学术会议(ICLR, NeurIPS, ICML, KDD, WWW等)和期刊上(TKDE,TIST, TOIS, TKDD等)发表过上百篇学术论文,并获得数项美国专利。他还是现任 NeurIPS、KDD、AAAI 等国际顶级学术会议的领域主席。过去几年,他的团队成功将基于人工智能特别是大语言模型的预测和优化技术应用到金融、物流、医疗等领域的重要场景中,并将相关技术和框架发布到开源社区。 边江博士本科毕业于北京大学,获计算机科学学士学位,之后在美国佐治亚理工学院深造,获计算机科学博士学位。 本期技术名词: 世界模型(World Model): 世界模型是人工智能领域近几年特别火的一个概念。简单来说,它让 AI 在“脑子里”构建出一个关于外部世界的理解和模拟。就像我们人在做决定时,会在脑海里先想一遍各种可能性。比如下雨了要不要出门?路上会不会堵车?AI 的世界模型就是在模拟未来,学习环境怎么变、预测接下来会发生什么,甚至理解因果关系。 具身智能(Embodied AI): 具身智能是让 AI 真正走出屏幕,去接触真实世界的重要一步。传统的机器人靠程序干活,比如工厂里的机械臂,只会一遍遍重复同一个动作。而具身智能则更像是让 AI 自己学会“感知-推理-行动”的闭环。它能用视觉、听觉、触觉去理解环境,然后自主决定怎么应对。这样的机器,不只是“能做事”,而是“知道为什么要这么做”。 灵巧手: 灵巧手可以被理解为 AI 的“人类级手指”。传统的“夹爪”只有两三个关节,只能夹固定形状的东西。而灵巧手有更多的自由度,还有触觉传感器,能完成像拧瓶盖、捏起小零件、甚至操作工具这样的精细动作。也就是说,它不只是“抓住”物体,更能“理解”物体的形态和质感。 VLA模型(Vision Language Action model): VLA 模型是“视觉-语言-动作”一体化的大模型。顾名思义,它就是让 AI 能同时理解“看见的内容”、“听到的语言”,以及“要做的动作”。举个例子,当你对它说:“把红色的杯子放到桌子右边”时,它会先识别出哪个是红色的杯子,再理解“右边”是什么意思,最后控制机械手去完成动作。这就是让 AI 真正做到“看、想、做”三位一体的智能。 内容提要: 03:26 与“AI 理解世界”密切相关的核心概念都有哪些? 06:27 AI 理解物理规律了吗? 08:18 AI 要真正理解世界,还需要哪些能力? 12:43 世界模型为何再次成为焦点? 16:13 具身智能与传统机器人的不同 21:53 为什么游戏是世界模型的最佳“训练场”? 25:37 实现具身智能最后一公里的关键技术是什么? 33:10 未来三到五年,具身智能最先突破的应用场景 互动方式: 公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院 相关阅读: 文章:NeurIPS上新 | 生成式AI与具身智能:从像素到物理世界的交互 文章:MaaG:迈向世界模型,解决生成式游戏中的数值与时空一致性难题 论文:Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training 论文:Dyn-O:Building Structured World Models with Object-Centric Representations 论文:Image as a World: Generating Interactive World from Single Image via Panoramic Video Generation 论文:Omnidirectional 3D Scene Reconstruction from Single Image 论文:One-Step Diffusion-Based Image Compression with Semantic Distillation 论文:VideoVLA: Video Generators Can Be Generalizable Robot Manipulators 论文:What Do Latent Action Models Actually Learn?声明: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。 作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由 AI 技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报:msrc.microsoft.com

    38 min
  5. S1E1:推理,是大模型的天花板还是新起点?

    12/05/2025

    S1E1:推理,是大模型的天花板还是新起点?

    节目介绍: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。 作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在生成合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。 《AI Next》的第一季主要聚焦当今智能发展的核心议题,探索前沿趋势。首期节目将对话微软亚洲研究院资深首席研究员杨凡博士,探讨 AI 推理的本质:它如何在速度与正确性之间权衡,如何实现“既有直觉、又讲逻辑”,以及智能体推理(agentic reasoning)如何为未来的智能突破铺平道路。这不仅是一场关于技术发展的交流,更是一场关于思考方式的探索。当 AI 学会“推理”,人类或许也将重新理解智能的边界。 嘉宾介绍: 杨凡博士现任微软亚洲研究院资深首席研究员,系统研究组负责人。他目前负责系统方向的研究战略规划,协调、管理系统组的研究、产品转化,以及公司内外的合作项目。他个人的主要研究兴趣为计算机系统,特别是大型分布式系统。他目前主要关注新兴应用 (如人工智能模型等) 及其所产生的新型计算机系统原理、设计和实现。他的多项技术成果都已开源并在微软公司 Bing、Azure、Office 等部门落地,其中多项成果均发表在系统顶级会议(如 OSDI/SOSP)上。 本期技术名词: AI 推理(AI Reasoning): 与依靠逻辑、常识和经验,从已知条件出发,逐步得出结论的人类推理不同,AI 推理的过程类似于从已有信息里,分析出合理的结果,甚至能够延伸出新的可能性。比如,你对一个智能助手说:“今天下雨了,我要出门”,它如果只回答“带伞”,这其实还不算推理;但如果它能继续想到“可能要穿防水外套”,“雨天路滑可以考虑公共交通”,这就是在做更接近人类的推理。 在 AI 发展的历史中通常把 AI 推理分为两个主要阵营。第一个是“符号推理”(symbolic reasoning)。它的优点是严谨、可解释,可以清楚地知道 AI 是怎么得出结论的。但它的缺点也很明显,现实世界太复杂,很难穷尽所有规则,在面对不确定的、模糊的问题时,它束手无策。 第二个是“非符号推理”(non-symbolic reasoning),这主要基于数据进行学习,通过神经网络发现数据中的隐藏模式。它不像符号推理那样有一条条清晰的逻辑链,更像是一种“直觉”。它在海量数据中看到了无数次“下雨”和“带伞”的关联,所以当说“下雨”时,它就能“直觉”地给出“带伞”这个答案。它的优点是擅长处理复杂、开放的问题,但有时也会犯一些低级错误,甚至给出看似合理但实际上是错误的回答,也就是“幻觉”。 这两种方法各有优势和短板。而现在最前沿的研究,就是如何把它们结合起来,让 AI 既能有强大的“直觉”,又能进行严密的“逻辑”思考。 内容提要: 02:36-05:10  什么是 AI 推理? 05:27-08:55 推理的本质:AI 与人类思维的差异 08:55-10:33 “想得快”和“想得对”之间的取舍 10:33-12:43  推理新范式:神经符号推理(Neural Symbolic Reasoning) 12:43-17:43 从 自我博弈(self-play) 到自我验证(self-verification) 17:43-22:30 当算力与数据的规模定律( scaling law)进入瓶颈,AI 推理如何向“智能体”演化? 22:30-23:26 AI 推理如何真正提升生产力? 23:26-25:00 为什么数学是“通用智能”的训练场? 25:00-26:24 推理不仅是逻辑,更是创造。AI 如何借鉴人类的思维机制? 26:24-27:37 当 AI 能真正理解“因果”,智能的边界将被重新定义。 互动方式: 公众号/ 小红书/ 知乎/ 微博:微软亚洲研究院 相关阅读: 文章:从直觉到“深度思考”:多维进化的大模型推理能力 对话张丽:大道至简,rStar-Math让小语言模型具有更强的推理能力 文章:如何泛化AI的深度推理能力? 论文:rStar-Math: Small LLMs can master math reasoning with self-evolved deep thinking 论文:Logic-RL: Unleashing LLM reasoning with rule-based reinforcement learning 论文:Proving Olympiad inequalities by synergizing LLMs and symbolic reasoning 论文:Autoformalizing mathematical statements by symbolic equivalence and semantic consistency 论文:Neuro-symbolic data generation for math reasoning 论文:Chain-of-Reasoning: Towards unified mathematical reasoning in LLMs via a multi-paradigm perspective 论文:CPL: Critical plan step learning boosts LLM generalization in reasoning tasks声明: 《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。 作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。 随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。 所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由 AI 技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站进行举报: 🔗 msrc.microsoft.com

    30 min

About

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。我们希望让听众在体验微软亚洲研究院最新研究成果的同时,聆听技术专家对 AI 发展的解读和深度洞察,在理解与思考中迎接 AI 的未来。

You Might Also Like