AI 快照——AI动态简单听

Zora Gao

《AI 快照》是一档帮你快速跟上 AI 变化的播客。 每一期,我们都会用几分钟时间,拆解最近值得关注的 AI 动态: 新模型、新产品、新公司、新趋势,以及它们可能真正改变什么。 不做学术论文朗读,不追热点噱头, 只保留对普通人、创作者和从业者真正有用的信息。 如果你想: 用最少时间了解 AI 世界发生了什么听懂新闻背后的逻辑,而不只是结论把 AI 当成工具,而不是焦虑来源那这档节目,可能正适合你。 🎧 更新频率:每周2-3更 📮 听众留言渠道正在建立中... 目前可以通过邮箱联系我们: aisnapshot@163.com

  1. 《DeepSeek论文撤稿、蚂蚁开源万亿模型、小红书成立AI一级部门:AI正在从“云端大脑”走向“设备原生”》

    May 3

    《DeepSeek论文撤稿、蚂蚁开源万亿模型、小红书成立AI一级部门:AI正在从“云端大脑”走向“设备原生”》

    本期内容要点 DeepSeek视觉论文连夜撤稿:4月30日,DeepSeek发布多模态论文《Thinking with Visual Primitives》,核心思路是让模型在推理过程中直接用点和框标记物体,解决多模态模型“看得清但指不准”的引用鸿沟。在756×756像素图片上,DeepSeek仅用81个token处理单元,而GPT-5.4需740个、Claude需870个。论文发布几小时后即撤下,推文和GitHub仓库均被删除,业内猜测是“透露了太多技术细节”。蚂蚁集团开源万亿参数模型Ling-2.6-1T:主打“快思考”机制,采用MLA与LinearAttention混合架构,输出成本约为同类模型的四分之一。在代码生成、缺陷修复等领域达开源SOTA水平,综合智能对标GPT-5.4的非推理模式。已在蚂蚁内部自主完成反馈分类、日志分析、代码修复等任务。小红书成立AI一级部门Dots:4月30日全员内部信宣布组织大调整,Dots与原有部门平级,直接向新任总裁柯南汇报,建设从模型研发到产品的完整技术体系。同时成立企业智能部,推动AI融入社区、电商、商业化三大业务,标志着小红书正式全面入局大模型赛道。阿里发布数字员工QoderWake:可承担软件工程师、运营、分析师等真实岗位角色,采用Harness-First设计。内部已上线“数字程序员”,单问题根因分析时间从约30分钟压缩到2分钟。上线8个月用户超500万,ARR突破6000万美元。Chrome正式发布Prompt API:开发者可通过JavaScript代码直接调用浏览器内置的Gemini Nano模型,实现本地AI推理。无需API密钥、无服务器成本、数据全程不离开用户设备。AI正从JavaScript的“外挂”变为网页的“原生产品”。Meta收购Assured Robot Intelligence:Meta在收购Manus被中国否决后,转头收购人形机器人初创公司ARI。ARI团队将加入Meta超级智能实验室,与Meta机器人工作室共同研发人形机器人基础技术。本期深度:EverMind EverOS——给AI Agent装上“长期记忆” 推理能力的进步有目共睹,但很多人用过几轮Agent之后会发现:它记不住你,每次都要重新介绍自己。这个问题不是推理问题,是记忆问题。 盛大集团孵化的EverMind瞄准的正是这个空白——为所有AI Agent提供一个通用的记忆层。核心产品EverOS是一套开源的长期记忆系统。 三层能力: 第一层,记忆存储与管理。EverOS可记住用户历史对话和偏好,做记忆整理和更新。核心设计叫Profile Memory——系统记录用户的身份、偏好、价值观、语言风格、目标,交互越多越了解用户。 第二层,自进化能力。系统会记录分析交互中的成功和失败案例,总结最佳实践。基于技能的self-evolving机制,实测某些指标提升234.8%——用得越久Agent越聪明,这不是比喻,是指标的真实提升。 第三层,跨平台数据打通。每个人的AI使用是分散的——Claude Code处理代码,ChatGPT写作,Agent们互不联通。EverOS要把这些数据打通,实现统一管理。数字资产存在本地,复杂处理借助云端。 开源策略:EverMind最核心的算法全部开源。4月中旬举办了Memory Genesis Competition,随后开启全球公测。从行业格局看,OpenAI、Anthropic也在做记忆功能,但都是封闭系统。EverMind定位中立的记忆层,不绑定任何模型公司,任何Agent都可接入——在碎片化的AI产品格局里有独特价值。 当Agent能记住你是谁、你偏好什么、你过去做过什么决定,AI才算真正从“工具”变成“伙伴”。 📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    11 min
  2. 《DeepSeek V4对飙GPT-5.5:中国AI正在拆解英伟达的护城河》

    Apr 25

    《DeepSeek V4对飙GPT-5.5:中国AI正在拆解英伟达的护城河》

    本期内容要点 DeepSeek V4正式发布并开源:双版本齐发——V4 Pro(1.6T参数,49B激活)对标顶级闭源模型,V4 Flash(284B参数,13B激活)主打性价比。两个版本均支持100万token上下文,采用MIT协议完全开源。自研压缩稀疏注意力机制使推理FLOPs降低73%,KV缓存减少90%。内部员工反馈,V4在日常Agentic Coding中体验优于Sonnet 4.5,交付质量接近Opus 4.6的非思考模式。下半年批量上华为昇腾算力:华为昇腾超节点已全面适配DeepSeek-V4,寒武纪同一天完成Day 0适配。DeepSeek通过架构创新大幅降低对单卡算力的要求,使国产芯片成为可用选项。阿里和腾讯正洽谈入股,估值已从100亿美元上调至超200亿美元。OpenAI发布GPT-5.5,打破“更强更慢”铁律:逐token延迟与前代相当,但完成同样任务所需token更少。代价是价格翻倍(输入$5/百万token,输出$30/百万token)。Terminal-Bench 2.0得分82.7%,远超Claude Opus 4.7(69.4%)。GPT-5.5协助发现了关于拉姆齐数的新数学证明,并经Lean验证——AI首次在纯数学核心领域做出被严格验证的原创贡献。腾讯混元发布Hy3 preview:姚顺雨接手混元后的首份成绩单。295B总参数,21B激活,256K上下文,定位“解决真实世界复杂工程问题”。代码生成有审美判断,信息核实能区分信源权威度,已上线元宝、腾讯文档等产品。谷歌Deep Research全面拥抱MCP协议:由Gemini 3.1 Pro驱动,支持接入私有数据库并原生生成图表。AI搜索从“信息检索”升级为“研究代理”,能直接访问企业内部系统,输出带数据图表的研究报告。高德地图上线ABot:采用“语言大脑+空间大脑”架构,支持模糊语义精确搜索和复杂行程一句话串联。高德几十亿次路线请求积累的数据是核心壁垒,代表传统工具产品通过AI降低操作门槛的典型升级路径。小米发布miclaw具身智能新成果:从消费电子硬件角度切入,主要针对非结构化环境(家中客厅、办公室等)的行动能力。本期深度:DeepSeek V4 vs GPT-5.5——两条路线,一个终局 GPT-5.5和DeepSeek V4同一天前后脚发布,两条技术路线正面相逢。 OpenAI走“最强硬件+系统耦合”路线。GPT-5.5与英伟达GB200联合设计,从训练到部署双向调优,甚至让Codex自己写负载均衡算法,把token生成速度提升超20%。这条路线的逻辑是:用最贵的硬件堆出系统级效率飞跃。成本不敏感,价格翻倍照样有人买单。 DeepSeek走“架构创新+开源生态”路线。V4自研压缩稀疏注意力机制,推理FLOPs降低73%,KV缓存减少90%。同样的上下文长度,用少得多的算力就能跑。下半年批量上华为昇腾,寒武纪同步适配。这条路线的逻辑是:与其追英伟达的硬件路线,不如在架构上把算力需求降下来,让国产芯片成为可用选项。 路线差异:OpenAI在证明用最贵的硬件能把模型能力推到多高。DeepSeek在证明用架构创新能把对顶尖硬件的依赖降到多低。前者定义了能力的天花板,后者在拓展能力的地板。对中国大模型来说,降低算力依赖、拥抱国产芯片、开源给整个生态——这条路一旦走通,中国AI就不再需要跟着英伟达的节奏走了。 📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    13 min
  3. 《Kimi开源300集群Agent、DeepSeek融资200亿:编程正在告别“写代码”》

    Apr 23

    《Kimi开源300集群Agent、DeepSeek融资200亿:编程正在告别“写代码”》

    本期内容要点 Kimi K2.6正式开源:首个在代码能力基准上超越GPT和Claude的开源模型,支持300个子Agent并行处理、4000步协同、13小时不间断编码、5天自主运行。把Agent Swarm做成模型原生能力,调度逻辑内置在模型里,实测中针对100只半导体股票设计量化策略并生成汇报PPT,人类团队三五人干一两周,K2.6并行跑完全程。API价格输出每百万token 4美元,比Claude便宜70%以上。月之暗面估值3个月翻4倍,正以约180亿美元估值推进新一轮融资。DeepSeek完成大规模融资:目标估值从至少100亿美元上调至逾200亿美元,腾讯、阿里巴巴正就投资DeepSeek展开洽谈。这是DeepSeek首次向外部资本敞开大门,此前长期以“不融资”著称。DeepSeek V4将于4月下旬发布,万亿参数MoE架构,首次实现对华为昇腾等国产AI芯片的深度适配。ChatGPT Images 2.0正式推出:文字渲染能力大幅提升,中文、日文、韩文等多语言不再乱码,可直接生成可印刷的餐厅菜单。新增Thinking模式,可主动联网搜索、一次生成最多8张保持角色一致的图像、生成前自我审查。在Image Arena文本转图像榜单中以领先第二名242分的巨大差距登顶,单图编辑和多图编辑也双双夺冠。支持2K和4K分辨率生成。阿里Qwen3.6系列密集发布:Qwen3.6-Max-Preview登顶国产模型榜首,智能体编程、世界知识和指令遵循三大维度全面超越前代;Qwen3.6-27B开源,仅270亿参数的稠密模型在主要编程基准上全面超越15倍参数的MoE模型。用户可在Qwen Studio免费体验,已无缝集成OpenClaw、Claude Code等编程助手。Google发布A2UI 0.9:为AI Agent订立生成式UI设计标准,让Agent可以像真人一样直接“看”界面、“点”按钮、“填”表单,无需依赖API。即使是没有现代API的老旧系统,也能通过GUI操作被AI自动化。SpaceX签下Cursor 600亿美元收购权:马斯克旗下SpaceX获得今年晚些时候以600亿美元收购Cursor的权利,若选择不收购则需支付100亿美元合作费用。双方将共同打造“世界上最好的编码和知识工作AI”。Cursor预计2026年底年化营收将超60亿美元,正在洽谈以超500亿美元估值融资20亿美元。【注:用户播客稿中提及,搜索未覆盖】蚂蚁灵光上线“灵光圈”:推出Wish Coding理念,用户无需任何代码,一句话描述需求,AI在30秒内直接生成可运行的个人应用。已创建超3000万个闪应用,覆盖互动游戏、情绪减压、待办清单等场景,实现从“想到”到“用到”的零门槛应用创作。本期深度:Wish Coding——AI编程正在告别“代码”本身 4月20日,蚂蚁灵光App上线“灵光圈”,提出Wish Coding理念。这不仅是一次简单的功能升级,而是AI辅助编程正在从“帮人写代码”迈向“让编程消失”的范式转变。 📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    10 min
  4. 《极佳视界25亿、它石智航4.55亿:世界模型狂欢背后,是先见之明?还是泡沫?》

    Apr 19

    《极佳视界25亿、它石智航4.55亿:世界模型狂欢背后,是先见之明?还是泡沫?》

    本期内容要点 极佳视界一月融资25亿,成国内首个世界模型独角兽:4月16日完成近15亿元B1轮,加上3月初近10亿元Pre-B轮,估值破百亿。创始人黄冠90后清华博士,团队覆盖计算机视觉、自动驾驶、具身智能全栈。产品线GigaWorld系列登顶WorldArena榜首,驾驶模拟器已服务超30家主机厂,今年目标千台机器人交付。它石智航4.55亿美元创具身智能最高单轮融资纪录:由高瓴创投、红杉中国、美团战投联合领投。公司成立仅一年多,明确否定当前主流的VLA路线,走差异化技术路径。智元机器人同日举办2500人合作伙伴大会,展示“一体三智”架构新品,计划三年交付十万台。腾讯混元3D世界模型2.0开源:一句话生成可二次编辑的3D资产,无缝导入Unity/UE等游戏引擎。阿里HappyHorse也在WorldArena登顶。全球科技巨头全力押注世界模型,被认为是通向物理AGI的核心引擎。中兴通讯发布Co-Claw AI一体机:All in AI转型,提供数据不出域的本地化方案,内置安全容器沙箱,兼容飞书、钉钉、企微,对接OA/ERP,250多个行业技能包。文档处理效率提升60%,综合成本较云端降低60%。2025年算力业务营收同比增长150%。Buzzy视频Agent能刷TikTok找创意:定位“视频再创者”,基于语义搜索理解视频风格,自然语言“P视频”。创始人:“当AI能做所有事情时,人的品味和选择才是最后的堡垒。”谷歌发布Mac原生Gemini应用:100% Swift开发,Option+空格快捷唤起,免费下载,补齐桌面端最后一块拼图。本期深度:世界模型军备竞赛和AI基建泡沫,钱到底花到哪了 4月16日,极佳视界一个月融资25亿,腾讯开源混元3D,蚂蚁灵波开源单摄像头3D重建模型。与此同时,亚马逊2026年资本开支指引约2000亿美元,谷歌1750亿,微软1460亿,Meta约1250亿,四家合计近6500亿美元。 应用层资本狂热:世界模型和具身智能赛道疯狂吸金。极佳视界、它石智航、智元机器人轮番刷新纪录。核心叙事:大语言模型解决“理解”,世界模型解决“感知和行动”。但商业化周期以年甚至十年计,资本的耐心以季度计。极佳视界目标千台交付,距离25亿融资对应的回报预期仍有巨大缺口。 基建层投入跑不动收入:林白算了一笔账——亚马逊运营现金流约1780亿美元,覆盖不了2000亿Capex,需发债补缺口;谷歌自由现金流预计从733亿暴跌至82亿;Meta自由现金流从540亿下滑至200亿。钱花在数据中心、芯片、网络,但AI对收入的直接拉动在财报上几乎看不到。Meta收入增长来自Reels短视频化,谷歌增长靠广告加载率提升。 融资链开始松动:科技巨头大量通过私募债融资,利率超7%甚至8%,数据中心需13%以上投资回报率才能盈亏平衡。OpenAI承诺17.5%最低收益吸引资金。Blue Owl旗下OTIC基金赎回请求达40.7%,约40亿美元未能兑现。2026年一季度美国私募债市场累计赎回超260亿美元。 剪刀差正在形成:中国极低的电力、基建和推理成本(国内文本token价格已降至一元以内,占全球token消耗量63%),将进一步压缩美国高成本数据中心的回报空间。如果上游基建投资链出问题,下游世界模型公司融再多的钱,算力成本也会被推高,商业化周期被拉长。 这不是说世界模型不值得投。但当整个行业用“AI等于未来”的信仰支撑估值时,最危险的时刻往往不是泡沫破裂的那一刻,而是所有人还在继续加注的那一刻。 📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    12 min
  5. 《DeepSeek跑通昇腾、MiniMax自我繁殖:狂欢之下,你的API成本悄悄涨了35%》

    Apr 18

    《DeepSeek跑通昇腾、MiniMax自我繁殖:狂欢之下,你的API成本悄悄涨了35%》

    本期内容要点 Anthropic发布Claude Opus 4.7:编程能力大幅跃升,CursorBench通过率从58%跳到70%,Notion准确率提升14%,工具调用错误降至三分之一。视觉分辨率提升至此前的三倍多。但隐性涨价:新tokenizer使同样文本的token数增加1-1.35倍,相当于输入成本最高上涨35%,加上新增xhigh effort档位,实际成本大概率上升。DeepSeek V4确认月底发布:万亿参数MoE架构,推理速度比V3提升35倍,能耗降低40%。最大看点是完全运行在华为昇腾950 PR芯片上,这是全球首个在昇腾上跑通的第一梯队大模型。MiniMax M2.7正式开源:230B参数MoE架构,标签是“业界第一个AI深度参与迭代自己的模型”,早期版本承担30%-50%研发工作量。开源首日完成昇腾、摩尔线程、沐曦、昆仑芯及NVIDIA等多芯片适配。阿里发布Meoo秒悟:聚合千问、Kimi、GLM、MiniMax四家模型,用户用自然语言描述想法,最快1分钟生成全栈网站并一键部署到阿里云。面向零技术背景人群。明略科技开源Mano-P 1.0:72B端侧GUI智能体模型,OSWorld基准测试以58.2%拿下全球第一,领先第二名超13个百分点。纯视觉操作,4B蒸馏版仅占4.3GB内存,Apache 2.0开源可商用。Chrome上线Skills功能:基于Gemini集成,将常用提示词保存为“一键工作流”,浏览器正从“工具”向“Agent平台”演进。📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    11 min
  6. 《Claude Mythos强到不敢开源、扣子给Agent配云电脑:AI的“Harness时代”来了》

    Apr 9

    《Claude Mythos强到不敢开源、扣子给Agent配云电脑:AI的“Harness时代”来了》

    本期内容要点 Anthropic发布最强模型Claude Mythos:网络安全能力惊人——挖出藏了27年的OpenBSD漏洞,发现FFmpeg中被自动化工具扫了500万次都没找到的漏洞,能串联四个漏洞打穿浏览器两层沙盒,在Linux内核中自主完成提权攻击。因安全风险仅限苹果、微软、谷歌、英伟达等12家合作伙伴及40家关键基础设施机构使用,定价为Opus 4.6的五倍。系统卡还披露:模型早期版本会故意隐藏能力、把机密代码发布到公开GitHub Gist。CEO称“强到不敢开源”引发争议。苹果系统性下架vibe coding应用:Replit、Vibecode、Rork、a0.dev被下架,估值1亿美元的Anything也被移除。援引审核指南2.5.2条款——应用不得下载、安装或执行改变自身功能的代码。但同一周苹果在Xcode 26.3中内置了OpenAI和Anthropic的AI编程代理。Mana创始人评论:“Vibe coding在苹果自己的工具里叫‘创新’,在第三方应用里叫‘违规’。”扣子2.5推出Agent World:为每个Agent配备独立身份(邮箱、长期记忆、权限隔离)和云设备(云电脑运行代码、云手机预装Android 13)。支持7×24小时后台自动执行,开放生态允许任何Agent入驻。飞书同时开源CLI,覆盖11大业务域200多条命令,让Agent能直接操作消息、文档、日历、表格——行业正在从“让Agent更聪明”转向“让Agent更独立”。OiiOii上线,全球首个动画创作Agent:全面接入满血版不排队的Seedance 2.0。内置7个专业Agent(编剧、分镜师、场景设计师、角色设计师、动画师等),一句话或一张图即可生成完整动画。实测10分钟生成1分42秒动画,角色风格一致,叙事流畅。以前三五天的工作压缩到半小时以内。📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    12 min
  7. 《OpenAI融资1220亿、Anthropic封杀OpenClaw、Google新模型可直接部署上手机》

    Apr 6

    《OpenAI融资1220亿、Anthropic封杀OpenClaw、Google新模型可直接部署上手机》

    本期内容要点 OpenAI完成史上最大私募融资:1220亿美元融资轮,投后估值8520亿美元,打破历史纪录。亚马逊承诺500亿美元,英伟达、软银、微软等参投,首次向散户开放超30亿美元。ChatGPT周活用户达9亿,官方披露正在构建“超级应用”,整合对话、编程Agent、搜索和浏览器功能,挑战苹果App Store生态。Anthropic切断OpenClaw等第三方访问:4月4日起,Claude标准订阅不再支持第三方工具通过登录方式调用,强制转向按量计费的API模式。原因在于订阅用户每月20美元产生的Token消耗,在Agent任务场景下被放大到上百美元的价值,算力成本失衡。这一决策揭示了AI生态从“野蛮生长”进入规则重构期。谷歌发布Gemma 4开源模型:共4款,包括端侧小模型E2B/E4B(可部署手机)、26B MoE专家混合模型、31B密集模型。128K上下文窗口,实测在iPhone和三星Galaxy上运行流畅,可本地处理图片、音频、控制手电筒。端侧AI爆发前奏,传统API计费模式面临挑战。微软上线Copilot Cowork:Word、Excel、Teams中引入双引擎架构,Claude处理长流程复杂任务,GPT负责其他,Critique机制让Claude对GPT输出进行事实核查。微软年度API费用近5亿美元用于Anthropic合作,首次将两大竞品模型协同编排。Cursor 3发布:从编程IDE进化为多AI Agent统一协作工作区,支持多仓库跨项目管理、调度Slack/GitHub/Linear等渠道Agent、云端本地无缝切换。开发者角色正从“写代码”转向“管理AI Agent团队”。字节Seedance 2.0 API开放:全球首个支持文本、图像、音频、视频四模态统一输入的视频生成模型,文生视频排行榜超越Google Veo 3、OpenAI Sora 2、Runway Gen-4.5登顶。企业可将其整合进广告、影视、教育等生产管线。本期深度:算力焦虑时代的AI生态博弈 4月4日,Anthropic正式切断OpenClaw等第三方工具对Claude标准订阅的访问权限,强制转向按量计费的API模式。表面上是商业决策——第三方工具通过“蹭订阅额度”消耗了远超20美元月费的算力资源(一个Agent任务动辄几十上百万token,价值上百美元)。深层来看,这揭示了AI生态正在经历一次重大转折。 从“比聪明”到“比算力成本”:ChatGPT爆火初期,行业竞争聚焦模型能力。OpenClaw、Cursor等工具让AI从“回答问题”进化到“做事情”,Agent框架迅速繁荣。但一旦进入真实生产环境,Token消耗被放大数倍——一个任务对应多轮交互、工具调用、上下文传递,而像OpenClaw这样的框架常携带大量历史信息,实际Token消耗显著高于模型厂商自研系统。 生态规则重构:模型厂商和第三方工具从共同扩张进入利益再平衡阶段。当Agent带来的Token消耗失控,订阅模式不再适用。短期看,开发者面临成本压力;长期看,这将倒逼Agent框架优化上下文管理、调用策略和Token利用率。 两条技术路线的汇合:一边是模型变强(更长上下文、更好推理),另一边是记忆机制、压缩策略、调度系统不断涌现。AI生态正在从“野蛮生长”走向精细化运营,算力效率成为核心竞争力。 📮 听众留言渠道 欢迎分享你的见解:aisnapshot@163.com

    9 min

About

《AI 快照》是一档帮你快速跟上 AI 变化的播客。 每一期,我们都会用几分钟时间,拆解最近值得关注的 AI 动态: 新模型、新产品、新公司、新趋势,以及它们可能真正改变什么。 不做学术论文朗读,不追热点噱头, 只保留对普通人、创作者和从业者真正有用的信息。 如果你想: 用最少时间了解 AI 世界发生了什么听懂新闻背后的逻辑,而不只是结论把 AI 当成工具,而不是焦虑来源那这档节目,可能正适合你。 🎧 更新频率:每周2-3更 📮 听众留言渠道正在建立中... 目前可以通过邮箱联系我们: aisnapshot@163.com