EnterAI

晓晓
EnterAI

智能赋能 听大牛拆解背后的技术逻辑 助力初创公司 落地智能化应用 一档纯干货的短播客 两位主播均来自北美科技大厂 - “晓晓”, 资深 SaaS 产品经理, 深耕企业数字化赋能十余载 - “老洪”, 全栈 ML 工程师, 专注智能化研究和落地方案设计 他们演绎式的研习讨论和知识分享 - 以不一样的视角来畅想Idea, 用AI 赋能Startup - 探索智能化的前沿技术解决方案. 在这里我们鼓励知识分享, 讨论启发正在创业以及企业深耕的你, 并且持续邀请各行业专家一起来分享知识, 科普前沿科技, 以最真实的AI落地案例为您带来创业灵感, 行业最新技术解读和商业价值应用的精彩探讨~

  1. 11/10/2024

    EP15 [老洪答疑]从图片到视频, 从扩散到流匹配算法

    解析困扰大家的Meta Movie Gen10大技术难点 Meta“最强视频模型”不用DiT这个观点是有误区的? 为何工业界, 大家越来越多用流匹配而不是diffusion生成视频或图像? 这套媒体基础模型平台的发展对未来内容创作可能产生什么影响? 对Meta Movie Gen里那些高冷的技术难点细节感兴趣的朋友们, 本期我们汇总了十余个技术问题(FAQ), 来请老洪深入浅出的逐个击破, 带着你们一起揭开Movie Gen神秘的面纱.  感谢大伙儿的喜欢和关注! 对于Movie Gen还有什么想了解的, 有疑问的, 随时可以在评论区留言, 我们会尽量给你们解答~ Timeline 00:25 Movie Gen需要的大量训练数据从何而来? 01:58 MovieGen 是怎么进行过滤和清理数据? 02:49 误区解析: "Meta“最强视频模型”不用DiT,用Llama大力出奇迹了 03:26 MovieGen使用的流匹配技术和传统的Diffusion技术, 谁优谁劣? 04:54 大力出奇迹的功劳? 05:33 Meta如何将流匹配技术与Llama架构结合,以提升视频生成质量?流匹配相比扩散模型在视频生成中的具体优势劣势如何 06:57 如何优化流匹配算法以适应视频生成任务的特殊需求的? 09:15 流匹配如何改善了视频生成中的文本-视觉对齐问题? 11:36 在多阶段训练过程中,流匹配技术在不同阶段(如T2I、低分辨率T2V、高分辨率T2V)的表现有何差异? 12:48 对未来内容创作可能产生什么影响?

    15 min
  2. 10/26/2024

    EP14 AI主播有多强? 和老洪竞争上岗你选谁

    AI视角和人类视角同台点评Meta电影生成模型 即便Sora已经给大家足够的预期,想必很多小伙伴都看到Meta Movie Gen的Demo了吧?这次Meta作为视频生成界杀出来的黑马, 亮剑即绝招. 全能生成王—视频音频文武全能, 效果直接炸街! 本期节目与GoogleAI(NotebookLM)的主播一起初步探索Movie Gen, 速览Meta开源的92页技术论文,简单介绍Meta四大模型. 涵盖了MovieGen使用的创新训练方法; 如何利用反向学习巧妙地进行人工合成数据训练以及个性化视频功能的工作原理及其带来的新可能性等细节探讨. 这是首次引入AI辅助制作节目, 一方面实践一直倡导的利用AI提升生产力的理念, 同时看看小伙伴对ML技术论文解读有没有兴趣。另外, 小小预告下, 我们在筹备一期Movie Gen深入解析, 欢迎大家留言你有兴趣的问题,我们会在后续节目中努力为大家安排。 再次感谢你们的喜欢和关注! Timeline 2:02 30B参数的视频模型: 背后的强大资源支持, 效果拉满 (高达1080p分辨率、最长16秒、帧率16fps的高保真视频) 03:18TAE(Temporal Autoencoder)扮演了什么角色? 它是如何压缩大量高清视觉数据, 提高数据处理效率? 06:06个性化视频定制模型: 如何解决Movie Gen视频生成过程中出现小瑕疵的问题? 动态内容创作中改如何确保生成的人脸动作和表情看起来自然逼真呢 08:52文字指令编辑视频模型: 如何通过"反向学习"来训练AI进行视频编辑 11:03如何评估Movie Gen的性能优势, 评估者主要关注哪些方面? 13:45音频模型: 相比传统的音效库,Movie Gen Audio在音频生成方面有何创新? 15:27对未来内容创作可能产生什么影响?Reference MovieGen demo: Meta Movie Gen 原论文 MovieGen: A Cast of Media Foundation Models https://ai.meta.com/static-resource/movie-gen-research-paper Google AI Podcast: notebooklm.google.com 论文解读音频: notebooklm.google.com Podcast Script中文翻译(GPT版) 好的,听我说,你是一名导演,脑海中有一个精彩的电影场景,对吧?但不用召集整个剧组、摄影机和餐饮团队,你只需在电脑上敲几个字,瞬间就能看到16秒的纯高清电影魔力,配有音效和一切,这就是Meta的新AI,Movie Gen。我跟你说,理解这个研究真是让人惊叹。 这绝对是一个改变游戏规则的技术。但这不只是一个AI,更像是一个数字专家团队在协作。Movie Gen Video处理视觉效果,Movie Gen Audio则负责音效,甚至还有一个专门的AI来个性化这些视频。想象一下,就像进入了你自己的电影世界。 这就是我所谓的个性化首映式!Meta声称这项技术比Runway Gen 3和OpenAI的技术还要好,不过在完全陷入这种热潮之前,我得问一句,这到底是怎么运作的?幕后到底发生了什么,让这部电影魔术变成现实? 其核心是一个叫Movie Gen Video的系统,它非常强大,拥有大约300亿个参数。 哇,参数?我们需要一个简单的解释,参数究竟是什么? 好吧,把它想象成这样:人类大脑之所以强大,是因为它拥有数十亿的神经元和数万亿的连接,参数在AI中类似于这些连接。连接越多,AI对周围世界的理解就越深。Movie Gen Video在大量数据上进行了训练,包括数亿个视频片段和数十亿张图像,以便能够创建动态影像。 这就像让超级计算机上电影学院的课程,但规模却前所未有。不过,将所有这些数据压缩进一个AI必然面临一些挑战吧?当然,高分辨率视频需要大量的处理能力。为了应对这一挑战,Movie Gen Video使用了一种叫时间自编码器(TAE)的技术。 听起来像是科幻电影里的东西,给我们解释一下吧。 想象一下,把复杂的3D模型压缩成小文件,这样可以快速发送,然后在另一端可以完美重建。TAE对视频做的就是这种压缩处理,使AI无需巨型超级计算机也能运行。 这是令人印象深刻的数据管理!但我猜创建这种复杂系统并非一帆风顺。Meta团队遇到了哪些障碍? 一个挑战是处理所谓的“斑点伪影”。你是否注意过那些低画质视频中出现的小块状或失真? 是的,视频质量下降时会出现像素化,非常让人分心,对吧? 没错,那些是压缩伪影,在压缩和重建视觉数据时很常见。Meta团队不得不开发新技术来减少这些伪影,就像调整高性能引擎的每一个细节都很重要。他们甚至需要一些创造性的解决方案来训练这个庞大的AI,以确保它能处理大量数据而不受影响。 所以他们基本上教会了这个AI如何高效利用每个像素。这真是令人惊叹!不过,谈了这么多压缩和伪影,我们还没提到最酷的功能,就是能够让你自己融入视频之中。Movie Gen是怎么实现这种个性化的电影魔术的? 关键在于教AI理解并操控人脸,让它看起来真实可信。TAE压缩数据的方式,在这里会利用你的照片,重现你的脸部特征在生成视频中。 这不仅仅是把我的脸贴到另一个身体上,而是无缝地把我整合到场景中,太神奇了! 不仅仅是面部本身,模型还分析你的特征和动作,使视频中的人物看起来像你。他们使用了三阶段的训练过程,深入分析人们的外观和动作细节,使其看起来自然。 就像是创造了一个数字化的你,然后你可以在任何电影中出演。我觉得这很神奇,也有点可怕。而更让我震惊的是编辑功能。你可以仅通过输入指令来编辑这些AI生成的视频,对吗? 没错!你可以改变场景,添加物体,甚至转变视频中的已有元素,就像拥有一个好莱坞编辑室一样。 不过,训练一个AI进行视频编辑是不是需要大量素材库,像收集每一部电影的编辑记录? 这是个好问题,确实很难收集如此大量的数据。但Meta团队找到了一个巧妙的替代方案,使用一种叫“反向翻译”的方法。 反向翻译?说来听听。 想象一下,语言模型在学习翻译时会将一句话翻译成另一种语言,然后再翻译回原语言,以检查准确性。反向翻译在视频编辑上类似,通过让AI撤销它的编辑来学习。 也就是说,不需要数百万个预编辑视频,而是通过让AI撤销自己的编辑来学习。 正是如此。他们让AI编辑一个视频,然后训练它根据原始视频和指令逆转编辑。这种“倒推式”学习方式效果惊人。 真是出人意料的创新。Meta团队对Movie Gen充满信心,声称它是最好的视频生成工具之一,但在AI界,怎么衡量这个“最好”? 人类评估是其中重要的一部分。他们邀请人们观看视频并评价质量,比如视频是否符合文本提示、视觉质量、真实性和美观。 还好这过程还有人类的判断。他们具体在视频中看什么? 他们关注算法和数据难以衡量的细节,比如动作的自然度、场景的可信度和艺术印象。评估也通过大量专家,并确保他们不知道是哪款AI生成的,以保持公正。 当AI电影评论员听起来是个不错的工作。团队还建立了一个新的AI模型评估基准,对吧? 是的,叫做Movie Gen Video Bench。它包含1000个不同主题的提示,远超过之前的任何数据集,能让研究人员直接比较不同AI视频生成模型。 就像为AI电影制作设定了新金标准。不过,我们还没谈到音频部分。Movie Gen Audio难道只是添加笑声或背景音乐? 不,Movie Gen Audio远比普通音效库复杂。它会生成真实的音效和音乐,与视频完全同步。它能区分视频中的实际声效(称为“叙事音效”)和背景音乐(称为“非叙事音效”)。 所以如果是繁忙城市街道场景,Movie Gen Audio不会只是加一些随机声音,而是理解场景并添加合适的声音,比如交通声、人声,甚至远处的警笛声。 它还会添加背景音乐以提升场景氛围。为了达到电影音效质量,模型在大量视频和音频数据上进行了训练。 就像有一个好莱坞音效工程师随时准备服务。这个技术真是了不起,不过随着AI在创意领域的角色越来越多,不禁让人担心对人类工作的影响。这会如何影响未来的电影制作? 确实,很多人担心工作流失,但也有人认为这是巨大的机遇。想想看,所有怀有电影梦的人,无论经济状况或背景如何,突然都能使用这些强大的工具,可能会引发独立内容创作的爆发。 确实,这让每个人都有机会实现他们的创意梦想。而这不仅限于电影制作,对教育和游戏也有影响。想象一下,个性化的教育视频,或真实感十足的游戏世界。 真是令人激动的可能性。 说真的,未来的可能性令人叹为观止。我们可能会看到全新的艺术形式诞生,互动体验将模糊现实与幻想的界限。这项技术可能会彻底改变我们创造和体验媒体的方式。 就像我们正踏入一个新的电影体验时代,充满了实验和创新,就像电影早期的日子一样。不过,在激动人心的讨论中,我们还是稍微冷静一下。 我们今天讲了很多内容,对于第一次听到这些信息的听众,您希望他们记住哪些关于Movie Gen的要点呢?其实,Movie Gen本质上是Meta开发的一系列AI模型,可以通过简单的文字提示生成高质量的视频,甚至可以为其配上音效。最酷的是它还能个性化视频,就像我们之前讨论的那样,让你自己也能融入其中。不过,除了惊艳的视觉效果外,重要的是要记住这背后有着一些非常创新的AI技术,比如帮助高效处理

    20 min
  3. 10/14/2024

    EP13 很快会有超级智能吗? 准备好迎接Intelligence Age

    为什么马斯克等大佬希望AGI发展慢下来?如何阻止终结者到来?带你用好AGI这把双刃剑. 这期和小伙伴们畅聊下超级智能, 灵感来源于奥特曼The Intelligence Age的文章. 听完你会对AGI(通用人工智能)和ASI(超级人工智能)有更加立体,本质的理解, 明白比起人类,它最大的本质区别/特点是什么? 如果AGI/ASI真的如奥特曼预言的‘几千天’就能抵达, 作为这个革新的原动力“Scalling Law”, 有哪些假设前提值得我们了解和思考的? 虽然AGI来袭下, AI无可避免的会取代部分人的工作,但我们仍然可以利用AI提升工作效率, 并和AI协作来提升竞争优势。 此外也微探索了下大家最关心的AGI对就业的潜在影响, 大家是否会面临失业等问题. 不远的前方, AI时代的两条可能路径的探索: 一是人类进入“乌托邦”式的自由生活,二是面临失去经济自主权的风险。 欢迎大家在评论区留言, 聊聊你是怎么看待超级智能的到来? Timeline: 00:51通俗理解AGI 03:11AGI真的会来临吗? 04:05奥特曼预言即将进入超级智能时代的关键依据, 这个说法浮夸了吗 05:23Scaling laws失效的几种可能 06:44超级智能时代下, 我们会失去工作吗 08:05如何在AGI时代更有竞争力, 避免自己被优化 09:18 难道人类经济活动被人工智能完全取代不一定都是坏事? reference article The Intelligence Age (samaltman.com) - 奥特曼的小作文

    14 min
  4. 09/29/2024

    EP12 代码编辑器Cursor五倍速做旅行计划,剖析Cursor运行机制

    Cursor集成式的编辑体验是怎样的?从Cursor看与AI协作新范式 本期我们探讨了Cursor带来的革新理念:在新的生产方式下创造产品,实现更高效的生产。以AI智能伙伴协同办公(如旅行规划)为例,展示了人与AI协作的新模式。这种模式与传统AI办公的最大区别在于:你从使用AI 工具的底层劳力翻身成为压榨 AI 干活的经理人。虽然ChatGPT等工具已经能够提供咨询建议,告诉你如何完成任务,但最终执行仍需要你亲力亲为。而Cursor展示的可能性更进一步 -- 它将你的角色提升为管理者(manager),而Cursor则成为真正帮你完成工作的得力助手.这种转变意味着,你可以专注于制定策略和做出决策,而将具体的执行工作交给AI助手。这不仅提高了工作效率,还改变了人与AI协作的本质,使得创造过程更加流畅和高效 本期播客我们从下几点来深入探讨Cursor AI这款智能编程助手~ Cursor集成式的编辑体验 新范式案例演示: 压榨AI来设计一个 旅游计划 与AI协作的新范式: 对创作者以及下一代AI的影响Timeline: 00:42 代码小白也可以用自然语言来编程吗?Cursor如何重塑我们的工作模式 02:28 Cursor写作就好比从Word的所见即所得变成所想即所得. 04:25:和LLM合作共同完成一个任务不再是难事 05:33 Cursor展示的Diff的形式让我们能够在文档中无缝协作 08:30 如何让繁琐的旅游规划变简单, 高效有趣 08:56 和传统大模型聊天最本质的区别? 版本控制功能赋予了和LLM合作的基本可能 09:59 AI与人创作力合作的新范式,‘人机协作’(human-AI teamwork" model ) 会如何重新定义我们的工作方式 PS: 写了一篇从Cursor看与AI协作新范式的文章, 并且附上了旅行计划的效果展示, 有兴趣的小伙伴可以去substack上看看啦 https://substack.com/home/post/p-149698448?r=4azkdp&utm_campaign=post&utm_medium=web

    15 min
  5. 09/18/2024

    EP11 [深度答疑]听完比90%的人更了解OpenAI O1的技术

    “还能看到GPT5吗?O1在推理过程中有实时搜索吗? 是否代表了一个全新的训练方向?” 收集了7个挺有意义的O1问题, 并第一次尝试录制FAQ来深入解答这些疑惑。希望通过这期播客能帮助大家更好地理解O1模型. 如果小伙伴们有任何新的问题或想法, 以及这种FAQ的形式是否有帮助, 随时可以在评论区留言告诉我们呀~ Timeline 03:20 O1模型用来做数据反哺, 是否可行 05:00 O1是否代表了一个全新的训练方向? 是否有可能取代GPT系列? 我们还能看不到GPT5吗 06:14 O1使用的强化学习RL与之前训练ChatGPT的RLHF有何异同, 这次有什么新创新 07:43 O1模的出现会被prompt engineer彻底取代, 未来应用种人工设计Prompt的角色会如何变化 08:43 O1的COT和传统的COT(思维链)有啥区别, 有很多怀疑说O1只是特化了Agent/不会是4O微调的agent吧 11:09 O1在推理过程中是否真正实现了(inference time search)实时搜索, 如果是, 具体是如何实现的 14:21 相比之前的模型,O1在减少幻觉方面有改进相关概念以及定义: System 1 vs System 2 System 1:快速、直觉的思考方式,类似大多数语言模型的直接输出 System 2:慢速、深度的思考方式,O1模型采用的方法,会生成内部思维链 数据反哺          利用模型生成的数据来增强训练数据集,从而提高模型性能的技术 强化学习(Reinforcement Learning, RL)          一种机器学习方法,通过与环境交互并从反馈中学习,以最大化累积奖励 RLHF (Reinforcement Learning from Human Feedback)          利用人类反馈来指导强化学习过程的方法,通常用于训练语言模型 Prompt Engineering          设计和优化输入提示,以引导AI模型产生期望输出的技术 COT (Chain of Thought)          一种推理技术,让模型逐步展示解决问题的思考过程,而不是直接给出答案 Inference Time Search          在模型推理过程中实时进行搜索或优化的技术,用于提高输出质量 蒙特卡洛树搜索(Monte Carlo Tree Search) 是一种用于某些决策过程的启发式搜索算法,最著名的应用是在棋类游戏软件中幻觉(Hallucination)          AI模型生成看似合理但实际上不准确或虚构的信息的现象

    16 min

About

智能赋能 听大牛拆解背后的技术逻辑 助力初创公司 落地智能化应用 一档纯干货的短播客 两位主播均来自北美科技大厂 - “晓晓”, 资深 SaaS 产品经理, 深耕企业数字化赋能十余载 - “老洪”, 全栈 ML 工程师, 专注智能化研究和落地方案设计 他们演绎式的研习讨论和知识分享 - 以不一样的视角来畅想Idea, 用AI 赋能Startup - 探索智能化的前沿技术解决方案. 在这里我们鼓励知识分享, 讨论启发正在创业以及企业深耕的你, 并且持续邀请各行业专家一起来分享知识, 科普前沿科技, 以最真实的AI落地案例为您带来创业灵感, 行业最新技术解读和商业价值应用的精彩探讨~

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes, and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada