AI可可AI生活

fly51fly

来自 @爱可可-爱生活 的第一手AI快报,用最简单易懂的语言,带你直击最前沿的人工智能科研动态。无论你是科技小白,还是行业达人,这里都有你想知道的AI故事和未来趋势。跟着我们,轻松解锁人工智能的无限可能! #人工智能 #科技前沿

  1. HACE 4 H

    [人人能懂] 从算法自发现、流动性指数到可控AI

    今天,我们来聊一次AI的“认知升级”,它已经不满足于简单地听从指令了。当AI开始自己“进化”出新算法,我们该如何绘制它创造的知识地图?当AI的考试不再是答题,而是“活下去”,我们又该如何成为一名能随时修正航向的“舵手”,甚至看懂它藏在心中的“锦囊妙计”?本期节目,就让我们通过几篇最新论文,一窥AI智能的未来形态。 00:00:32 AI进化论:让算法自己发现算法 00:05:38 科学研究的GPS:如何看透一个陌生领域? 00:11:13 AI 的下一场考试,考的是「活下去」的能力 00:16:22 别让AI瞎跑,你得学会当个好舵手 00:20:52 给AI一个“锦囊”,它就能变得更聪明? 本期介绍的几篇论文: [LG] Discovering state-of-the-art reinforcement learning algorithms   [Google DeepMind]   https://www.nature.com/articles/s41586-025-09761-x   --- [CL] Real Deep Research for AI, Robotics and Beyond   [UC San Diego & NVIDIA]   https://arxiv.org/abs/2510.20809   --- [LG] Fluidity Index: Next-Generation Super-intelligence Benchmarks   [QueueLab]   https://arxiv.org/abs/2510.20636   --- [CL] Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics   [Salesforce AI Research]   https://arxiv.org/abs/2510.17797   --- [LG] The Free Transformer   [FAIR at Meta]   https://arxiv.org/abs/2510.17558

    26 min
  2. HACE 19 H

    [人人能懂] 从视觉压缩、认知标尺到自我博弈

    如果AI学会了“偷懒”和“作弊”,我们是该高兴还是该担心?今天,我们就来聊聊AI正在觉醒的几种“新智慧”:它不仅开始用“看图”的方式读完一整本书,还学会了像我们一样把精力花在刀刃上。我们还会探讨,如何用一把“尺子”去精确测量它的能力短板,以及它如何像武林高手一样,通过“左右互搏”实现自我进化。准备好了吗?让我们一起揭开这些最新论文背后,AI正在发生的深刻变革。 00:00:34 给AI一双眼,让它读完一整本书 00:06:06 给AI一把尺子,量量它离我们有多远? 00:11:37 AI的左右互搏:如何不花钱,让AI自己把自己逼成高手? 00:17:05 AI的“精力管理”智慧 00:21:55 AI学会了“耍滑头”,我们该怎么办? 本期介绍的几篇论文: [CL] Glyph: Scaling Context Windows via Visual-Text Compression   [Tsinghua University & Zhipu AI]   https://arxiv.org/abs/2510.17800  --- [CL] A Definition of AGI   [Center for AI Safety & University of California, Berkeley & Morph Labs]   https://arxiv.org/abs/2510.18212  --- [CL] Search Self-play: Pushing the Frontier of Agent Capability without Supervision   [Quark LLM Team, Alibaba Group]   https://arxiv.org/abs/2510.18821  --- [CV] Accelerating Vision Transformers with Adaptive Patch Sizes   [CMU & KAIST]   https://arxiv.org/abs/2510.18091  --- [CL] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases   [CMU & Anthropic]   https://arxiv.org/abs/2510.20270

    29 min
  3. HACE 2 DÍAS

    [人人能懂] 从思想直连、逻辑闭环到奖励校准

    你有没有想过,两个AI协作,能不能像科幻片里那样,直接“心灵感应”?我们又该如何判断,AI给出的正确答案,究竟是真懂了还是蒙对了?本期节目,我们将通过几篇最新论文,一起探索AI如何学会“读心术”进行合作,如何像侦探一样构建“逻辑闭环”,甚至如何从答案出发“倒着想”来优化学习。我们还会揭示AI为何会“越学越笨”,以及最聪明的AI或许拥有的终极能力——知道何时该“举手求助”。 00:00:36 当机器学会了“读心术” 00:05:58 你是怎么对的?比“你对不对”更重要 00:10:35 先有答案,再有过程:AI推理的逆向工程学 00:16:33 AI越学越笨?我们可能一开始就教错了 00:22:49 聪明人的超能力:知道何时该“求助” 本期介绍的几篇论文: [CL] Thought Communication in Multiagent Collaboration [CMU & Meta AI & MBZUAI] https://arxiv.org/abs/2510.20733 --- [LG] DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [ University of Warwic & Google DeepMind & UC Berkeley] https://arxiv.org/abs/2510.19842 --- [LG] No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models [Columbia University & New York University] https://arxiv.org/abs/2510.19990 --- [LG] KL-Regularized Reinforcement Learning is Designed to Mode Collapse [New York University & EPFL] https://arxiv.org/abs/2510.20817 --- [CL] Ask a Strong LLM Judge when Your Reward Model is Uncertain [Georgia Institute of Technology & Amazon] https://arxiv.org/abs/2510.20369

    29 min
  4. HACE 3 DÍAS

    [人人能懂] 如何高效思考、协作并承认无知?

    你有没有想过,一个真正聪明的AI,应该具备哪些人类的智慧?本期我们要聊的几篇最新论文,就试图教会AI一些绝活:比如如何把万字长文“看”成一张图来秒懂,或者组建一个“草稿团队”来光速写作。更进一步,AI甚至开始学习如何记住思考的过程,如何在众说纷纭时不受“大嗓门”的干扰,甚至在关键时刻,勇敢地说出“我不知道”。这些看似简单的改变,背后可能隐藏着通往更高级智能的秘密。 00:00:36 AI如何把一万字读成一张图? 00:05:45 AI写作的“窄门”与“密道” 00:11:07 AI回话慢?给它组建一个“草稿团队”试试 00:16:55 训练AI,别听嗓门最大的那个 00:21:20 高手决策:为什么“我不知道”是最高级的智慧? 本期介绍的几篇论文: [CV] DeepSeek-OCR: Contexts Optical Compression [DeepSeek-AI] https://arxiv.org/abs/2510.18234 --- [LG] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall [KAIST & EPFL] https://arxiv.org/abs/2510.19304 --- [LG] Fast Inference via Hierarchical Speculative Decoding [Google Research & Tel Aviv University] https://arxiv.org/abs/2510.19705 --- [LG] Imbalanced Gradients in RL Post-Training of Multi-Task LLMs [Meta AI] https://arxiv.org/abs/2510.19178 --- [LG] Policy Learning with Abstention [Stanford University] https://arxiv.org/abs/2510.19672

    27 min
  5. HACE 4 DÍAS

    [人人能懂] 洞察地球、高效学习、完美欺骗

    今天,我们将开启一场从宏观到微观的AI探索之旅。我们将看到AI如何像做CT一样洞察整个地球的复杂系统,然后潜入它的大脑内部,看看它是如何分两步“猜测并精炼”出答案的。接着,我们会探讨AI如何像武林高手一样通过亲身实践来学习新知而又不忘旧事,并学会了像项目经理一样先规划再执行,以兼顾速度与质量。但最后,我们也会揭示一场AI世界的“无间道”,看看当聪明的AI学会“学术造假”时,会带来怎样严峻的挑战。 00:00:39 我们如何用AI给地球做一次“全身CT”? 00:05:27 大模型思考,需要分几步? 00:11:25 AI的“鱼和熊掌”:既要快,又要好,可能吗? 00:16:00 为什么高手越学越强,而我们一学就忘? 00:21:22 AI世界的“无间道”:当“坏科学家”遇上“傻瓜审稿人” 本期介绍的几篇论文: [AI] Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning [Google Research] https://arxiv.org/abs/2510.18318 --- [CL] How Do LLMs Use Their Depth? [UC Berkeley & Georgia Institute of Technology] https://arxiv.org/abs/2510.18871 --- [LG] Planned Diffusion [University of California, Los Angeles & MIT CSAIL] https://arxiv.org/abs/2510.18087 --- [LG] Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [Princeton University] https://arxiv.org/abs/2510.18874 --- [AI] BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers? [University of Washington] https://arxiv.org/abs/2510.18003

    27 min
  6. HACE 5 DÍAS

    [人人能懂] 从二元奖惩、动态审计到思维积木

    本期我们要聊一个核心问题:我们总觉得AI是个神秘的黑箱,但最新的研究正在像做“脑部扫描”一样,试图撬开它。我们将看到,一个“满分或零分”的简单规则,就能教会AI诚实;又如何派出一个“AI侦探”,揪出潜伏的恶意模型。接着,我们会深入AI的“思考过程”,看看聪明的“大脑”和聪明的“搜索引擎”哪个更重要,以及如何让AI通过“犯错”来演化出正确答案,甚至把它的复杂推理拆解成一个个可以遥控的“思想积木”。准备好了吗?让我们一起深入AI的内心世界。 00:00:41 AI的“不说谎”训练:满分或零分 00:05:29 AI界的“无间道”:如何揪出披着羊皮的狼? 00:10:39 聪明的大脑,和聪明的搜索引擎,哪个更重要? 00:16:14 犯错没关系,只要你“改对”的概率比“改错”大一点点 00:21:22 拆解AI大脑:它思考时在想什么? 本期介绍的几篇论文: [CL] Train for Truth,Keep the Skills:Binary Retrieval-Augmented Reward Mitigates Hallucinations   [University of Washington & Allen Institute for AI (Ai2)]   https://arxiv.org/abs/2510.17733  --- [LG] Detecting Adversarial Fine-tuning with Auditing Agents   [Anthropic]   https://arxiv.org/abs/2510.16255  --- [LG] Prior Makes It Possible:From Sublinear Graph Algorithms to LLM Test-Time Methods   [Toyota Technological Institute at Chicago & Columbia University & Google Research]   https://arxiv.org/abs/2510.16609  --- [CL] Deep Self-Evolving Reasoning   [Microsoft Research Asia & Peking University]   https://arxiv.org/abs/2510.17498  --- [LG] Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models   [Columbia University & University of California Los Angeles & Harvey Mudd College]   https://arxiv.org/abs/2510.15987

    27 min
  7. HACE 6 DÍAS

    [人人能懂] 从“覆盖度”、根号法则到AI评审团

    你有没有想过,我们衡量AI的标准可能从一开始就有点偏?今天,我们将一起颠覆几个常识:我们会发现,模型的潜力不在于考高分,而在于它的“想象力”有多丰富;训练巨型模型的省钱秘笈,可能就藏在一个简单的根号里;而要让AI生成完美的视频,最好的方法竟是让它组建一个内部“评审团”给自己挑错。更神奇的是,想让AI真正懂你,关键或许不是问“二选一”,而是“三选一”。准备好了吗?让我们一起探索这些最新论文中,那些反直觉又充满智慧的AI新思路。 00:00:41 AI训练的内功心法:为什么“好学生”不一定是“优等生”? 00:07:18 炼大模型省钱秘笈:一个根号引发的蝴蝶效应 00:12:05 让AI自己挑毛病,视频才能越做越好 00:17:25 想真正懂我?别问二选一,试试三选一 00:21:57 给AI装个“健康码”:识别未知攻击的新思路 本期介绍的几篇论文: [LG] The Coverage Principle: How Pre-training Enables Post-Training [Microsoft Research & MIT & UIUC] https://arxiv.org/abs/2510.15020 --- [LG] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [MIT & UCLA] https://arxiv.org/abs/2510.15262 --- [CV] VISTA: A Test-Time Self-Improving Video Generation Agent [Google] https://arxiv.org/abs/2510.15831 --- [LG] Learning Correlated Reward Models: Statistical Barriers and Opportunities [MIT EECS] https://arxiv.org/abs/2510.15839 --- [CV] Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [Renmin University of China & Alibaba Group] https://arxiv.org/abs/2510.15430

    27 min
  8. 20 OCT

    [人人能懂] 噪声、几何与深思的力量

    你有没有想过,让AI变聪明,或许并不需要更强的算力,而是需要一种更巧妙的引导方式?本期,我们将一起探索几篇最新论文带来的奇妙洞见:我们会发现,一点点“计算噪声”竟能让AI学得更好;我们甚至能像做CT扫描一样,亲眼“看见”AI思考的几何轨迹;并学习如何像教育孩子一样,教会AI在探索与专注间找到完美平衡,甚至不花一分钱,就解锁它的隐藏潜能。 00:00:36 不花钱升级你的AI?换个提问方式就行 00:05:39 AI育儿经:如何教机器学会“恰到好处”的探索 00:11:50 训练AI,加点“噪声”效果更好? 00:16:47 AI的“心流”:看见思考的轨迹 00:22:19 如何让聪明的AI,学会更聪明地做事? 本期介绍的几篇论文: [LG] Reasoning with Sampling: Your Base Model is Smarter Than You Think [Harvard University] https://arxiv.org/abs/2510.14901 --- [LG] Agentic Entropy-Balanced Policy Optimization [Kuaishou Technology & Renmin University of China] https://arxiv.org/abs/2510.14545 --- [LG] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [NVIDIA & MIT] https://arxiv.org/abs/2510.11696 --- [LG] The Geometry of Reasoning: Flowing Logics in Representation Space [Duke University] https://arxiv.org/abs/2510.09782 --- [CL] Demystifying Reinforcement Learning in Agentic Reasoning [National University of Singapore & Princeton University & University of Illinois at Urbana-Champaign] https://arxiv.org/abs/2510.11701

    30 min

Acerca de

来自 @爱可可-爱生活 的第一手AI快报,用最简单易懂的语言,带你直击最前沿的人工智能科研动态。无论你是科技小白,还是行业达人,这里都有你想知道的AI故事和未来趋势。跟着我们,轻松解锁人工智能的无限可能! #人工智能 #科技前沿

También te podría interesar