长途巴士🚌

牧田

这是一档从自我觉察出发,以心理学与社会观察为视角的播客。主创牧田做过《人物》记者与字节运营,主创梓彤正在北大心理学博士在读

  1. MAR 22

    【长途巴士25】deepseek对自我养育的启示,拒绝虚假的密集奖励

    大家好~本期我们讨论了deepseek带给我们的变化,模型与人类认知的发展,大模型的迭代与人对学习的认识存在着相似的演化过程,从对大模型的演化中也可以得到对自我训练的启示—— 声音地图 00:00 deepseek对我们提供的帮助-我们都问过哪些问题!    02:13 朋友妈妈问deepseek如何共情自己的博士孩子    07:40 模型对非传统知识问题的回答 13:07 模型的发展过程与人类认知理论的发展过程    14:59 deepseek的推理创新重要来源,使用稀疏奖励的训练方式    31:44 联想到教育中的例子 47:29 对我们生活中自我养育的启示    47:29 从认知层面主动剔除虚假奖励    54:11 练习耐受长期无反馈的缓慢过程    59:06 不需要基于反馈频繁调整方向    01:04:03 进入真实世界模型发展时间线 2017年,OpenAI的Paul F. Christiano等人在的一篇论文中正式提出的「强化学习」(RLHF)的概念,它指的是,通过人工标注的偏好数据训练模型,指导模型生成符合人类价值观的文本。 2023年,思维链(Chain-of-Thought)技术被广泛应用,通过将复杂任务分解为多步推理,模型仅通过少量示例即可学习到任务内在逻辑,从而减少对每一步反馈的需求,初步降低了对密集奖励的依赖。 2024年12月,OpenAI发布强化微调技术(Reinforcement Fine-Tuning, RFT),让模型通过少量示例学习推理模式,而非简单模仿输入数据。RFT通过稀疏奖励(如任务完成度的二元反馈)驱动模型自主探索解决方案,显著提升了复杂任务的泛化能力。 2025年,DeepSeek R1模型验证了后训练阶段稀疏奖励的scaling law,即模型规模扩大后,稀疏奖励仍能有效提升性能。这打破了传统密集奖励对数据量的依赖,推动大模型向更复杂、开放的任务发展。人类学习认知相关理论 「刺激-反应」理论,也称作「学习的联结理论」,认为学习是通过刺激和反应之间的联系形成的。这个理论强调重复和条件反射在学习中的作用。代表人物伊万·巴甫洛夫(Ivan Pavlov)、约翰·华生(John B. Watson)、斯金纳(B.F. Skinner)。 顿悟学习,它不是通过反复尝试或条件反射,而是通过突然意识到问题的解决方法。代表人物沃尔夫冈·苛勒(Wolfgang Köhler) 建构学习,学习是一个主动构建知识的过程,而不是被动接受信息。你通过自己的经验、思考和与环境的互动,逐步建立起对世界的理解。这个理论强调学习者主动参与和个性化理解,每个人的学习过程都是独特的。代表人物让·皮亚杰(Jean Piaget)和列夫·维果茨基(Lev Vygotsky)相关概念 虚假自体与真实自体真实自体,是一个人真实的自我,包括他/她的真实感受、想法和需求。真实自体是人在没有外界压力或伪装的情况下自然表现出来的状态。 虚假自体,是为了适应外界环境或满足他人期望而表现出来的自我。虚假自体可能掩盖了真实的情感和需求,通常是为了获得认可或避免冲突。 内部动机与外部动机内部动机,指的是一个人因为内心的兴趣、满足感或成就感去做某件事。比如,一个人因为喜欢画画而画画,而不是为了得到别人的夸奖或奖励。 外部动机,是为了获得外部的奖励或避免惩罚而去做某件事。比如,一个人为了得到奖金或避免批评而工作。 主体性,指的是一个人作为独立个体的自主性和自我意识。拥有主体性的人能够独立思考、做出决定,并对自己的行为负责。一个人能够意识到自己是自己行为的主人,而不是被动地受外界影响。 鲁棒性,指的是一个系统或物体在面对外界干扰或变化时,仍然能够保持稳定和正常运作的能力。 趋同进化,在生态学中,亲缘关系较远的生物,在相似环境中独立演化出了相似形态或者功能的现象。相关内容 【长途巴士02】欢迎来到真实世界 《deepseek模型训练给人类的启示——拒绝密集的虚假奖励》 牧田基于本期主题的写作文章 🎵开头 Explosions in the Sky - Your Hand in Mine (The Polish Ambassador Remix) The Polish Ambassador 中间垫乐 Sæglópur迷失大海  Sigur Rós 结尾 星际穿越(钢琴版)Jcy East 剪辑制作 by 认真负责可爱的Daisy 我们是谁牧田,一个具有好奇心和生命力的人,心理学与自然博物深度爱好者,互联网从业者,也曾做过人物记者,对AI持续探索中,也希望为这个世界建立更多连接 梓彤,以深入理解世界、与人建立深度关系为长期目标的正念练习者 关于播客「长途巴士」是一档从生活体验出发,借助心理学与更多维度视角,尝试找到更深入的理解已经与之共处方法的播客。我们愿意走入真实世界,愿意进行长途旅行。 如果你想跟我们建立更长期的关系,欢迎加入社群(售票员微信:changtubus),一起远行。 此外我们已经建立微信公众号「长途巴士播客」并在微信「听一听」中同步发布播客内容,欢迎订阅,一起出发!

    1h 13m
  2. JAN 12

    【长途巴士24】2024年终总结——现代人的命运 健康的攻击性 与拖延探索

    朋友们新年好!在美剧《this is us》(中文名:我们这一天)中,叔叔送给侄女一幅自己的画,上面是很多条线纵横交错,他解释这就像人生一样,有一些关系在不断变化,也有一些课题在出现,它们总是在不断地交织变化。 今年年初,牧田和梓彤重新回顾了过去一年,我们发现我们各自有记录和回顾这一年的方式,感到活得更清楚,也在碎片化的记录中,逐渐的看到一些线正在产生神奇的变化,因此我们分享自己的记录方式与课题的探索,以及创造一点年度仪式感。 祝大家新年快乐,对生活有更清楚的感知与更具体的期待,与自己生命中出现的线共舞。 💡【声音地图】 00:29 记录一年的方式,life wiki,五年日记,情绪日记 21:00 课题之一,接受现代人的命运 38:45 课题之二,建立健康的攻击性 1:03:36 课题之三,探索拖延 1:11:30 形成对具体的行动、复杂的过程的很深的信任 1:21:49 牧田的年度人物 孙颖莎 刘小样 1:27:01 梓彤的年度之书 《不原谅也没关系》 1:36:10 对未来一年的具象期待 👀【文中提到】 《笔记的方法》刘少楠 刘白光 《不原谅也没关系》[美]皮特·沃克 牧田分享的life wiki模板life wiki模版共享 🎵 Welcome To The Jungle - Guns N' Roses Thunder - Imagine Dragons Running Up That Hill (A Deal With God) - Kate Bush 卡农(木吉他独奏版) - Various Artists Letting Go - Hollow Coves 🎤【本期制作】 牧田,博物与心理学爱好者,大厂产品运营、曾为人物记者,希望携带这些创造出新的东西。致力于为世界创造出更多的「弱连接」。 梓彤,北大心理学博士在读,持续正念修行者,不断与情绪共处 【加入社群】 如果你想跟我们建立更长期的关系,欢迎加入社群,一起探索更多,售票员微信:changtubus。 🚌【关于播客】 这是一档从生活出发,从心理学视角观察,并尝试找到与之共处方法的播客。这也是一场长程旅程,欢迎与长途巴士以及乘客们一起,踏上旅途。

    1h 50m
  3. 10/21/2024

    【长途巴士23】攀岩×心理,我把保守拉开,跃入不确定性,探索省力的哲学

    hey朋友们,本期是由「长途巴士」开始攀岩一年半的牧田与「问题不大」的主播不二串台一起聊了聊攀岩所带来的改变与启发,我们从如何面对自身的恐惧,建立自我效能感,聊到了如何与不确定性共处,以及从攀岩中获得的「省力的哲学」与对「专注」的治疗,甚至在攀岩中扩展自己思维边界的探索。这像是一场借助攀岩的具象感知,进行自我扩展和拉伸的探索之旅。 💡【声音地图】 00:02:43 Part 1 面对自己的恐惧 基因里的警铃 效能感的积累00:20:14 Part 2 与不确定性相处 对保守的拉伸 「大脑觉得做不到」和「真实能不能做到」的区分00:32:49 Part 3 省力的哲学 「找到适合你的省力的方式」 冲刺一阵休息一阵更符合人类特性 复利的重点在于不要打断复利00:46:46 Part 4 专注的治疗 心流与无我的状态 正念的小练习00:59:50 Part 5 思维的边界 语言的边界 主动的选择语言来影响思维方式 身体思维的边界01:12:33 Part 6 攀岩正念团体的活动尝试 「在场」的体验 建立更多的「弱连接」👀【文中提到】 纪录片《徒手攀岩》导演 金国威、伊丽莎白·柴·瓦沙瑞莉 《我与攀岩》by 牧田 (公众号 牧田的探索之旅) 🎵 片头:The Answer-UNKLE / Big in Japan 中间部分  Sunset Wednesdays 2019 Sonic Experience-Laraaji 片尾:我要的幸福-孙燕姿 🎤【本期制作】 主播 牧田@长途巴士,攀岩一年半的练习者,希望增加世界上的弱连接 主播 不二@问题不大,尝试知行合一的心理学发烧友,小红书@不二爱心理 剪辑制作 在深圳看到了烟花的Daisy 【加入社群】 如果你想开启自己的攀岩&自我探索体验,欢迎加入社群,我们会在社群中不定期举办攀岩体验活动,并且大家也可以在社群中相互结伴寻找搭子。 加群方式:添加长途巴士售票员(微信:changtubus)或不二工作微信(微信:buerwonder),备注加入攀岩社群 特别感谢香蕉攀岩为听友提供10张价值99元的入坑体验券,可以由专业教练带领大家开启攀岩。香蕉攀岩的北京上地店、北京768店,深圳后海汇店,长沙珠江星环店都将可以进行体验。 我们将在上述社群中抽奖送出。

    1h 25m
  4. 05/06/2024

    【长途巴士 21】应对无力感的有力武器:习得乐观

    Hello大家好!好久不见!我们回来啦!这一期是窝在牧田新家的沙发上录的!我们聊了无力、孤独、失控、疲惫的感受,也聊了很多应对无力感的有力武器,我们从很多小的行动改变中获得了逃出无力漩涡的巨大力量,最后半段越聊越有力,越聊越嗨!也希望把这种力量传递给大家!!❤️ 那么,在这期节目,你将听到: 我们的无力像是:匆忙的通勤、滚筒洗衣机、巨大的漩涡 我们的有力的来源:和反刍思维辩论、习得乐观、真实具体的小行动替代过度思考、向大脑输入积极样本、与每天遇到的人增加真实连接💡【声音地图】 00:03 先导 03:46 我们的无力和失控:像是永远在匆忙的通勤、失控地被卷入滚筒洗衣机甩干、习得性无助实验中无论如何努力都于事无补的狗 12:54 “外在未来处境没有希望”和“内在自己的能力不足”,我们好像更容易接受后者,随后陷入习惯性反刍 20:28 所有事情到最后,我们都有能主动选择的空间,最后最后,我们也能选择对事情的看法 22:24 让身体行动走在过度思考的大脑之前,给大脑输入正向的样本去平衡那些负性的想象,调节大脑的预测模型 29:37 从每天都会遇到的人开始,我们可以和他们建立些真实的连接:和保安小哥打招呼,和快递小哥笑着说谢谢 33:32 牧田在岩馆里交朋友:主动建立连接,鼓励支持陌生人 35:23 除了习得性无助,我们也可以习得乐观! 👀【延伸阅读】 【本刊项飙专访(上)】年轻人如何从现实中获得力量? 【本刊项飙专访(下)】年轻人在寻找自己在这个世界上的存在方式和意义 马丁·塞利格曼著作:《习得性无助》《真实的幸福》《持续的幸福》 🚌【关于播客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑 🎤【本期主播】 牧田,曾做过《人物》记者与字节运营,在gap后刚刚重新上班啦~(公众号:牧田的探索之旅)元认知,如何影响与改变我们 梓彤,北大心理学博士在读,四年&未来持续正念修行者 当然啦,我们首先是我们自己~ 📢【重要通知】 「长途巴士🚌」已经建立听友群啦~欢迎加售票员微信「changtubus」,一起远行!

    40 min
  5. 03/19/2024

    【长途巴士20】这是一份大厂gap1年9个月的诚实报告

    朋友们~好久不见,更新一个小进展,我(牧田)要重新开始大厂工作了 在此之前,我进行了历时1年9个月的gap探索之旅,这之中经历了非常丰富的体验,像婴儿学习走路一般学习休闲;像被给予充足阳光和水分的植物一样发展兴趣;同时也时刻体会着只有自己了解的苦涩,孤独之苦,惶恐之苦,直面自己的阴影,再也找不到替罪羊之苦...这些经验和体会都让我感觉一步一步走进真实世界,满身泥泞,为自己负责。 非常想坦诚地把这个历程分享出来,本期邀请了同样经历了gap历程并依然在进行中的「除你武器」主播小吴,让我们一起深入探讨碰撞其中感受。 (对了,播客还会持续更新的,别担心~保持联络!!!) 🎧【本期主播与嘉宾】 牧田:曾经的互联网从业者,练习时长1年9个月的gap行路人,即将回归互联网,也将创造出更多可能性(公众号@牧田的探索之旅) 小吴:媒体人,练习时长六个月的gap新人,一个依然成为了媒体人的理科状元,两次获得国际非虚构标杆奖项「全球真实故事奖」提名(微博@吴可奉告_) 📝【本期要点】 —— 1.0阶段:离开前传 —— 04:52 外面的进度条拉到GPT-4了,我怎么还困在原地 13:13 鸭脚木都能长成一棵小树,如果给我阳光和水,我会长成什么样子? 16:12 不知道要去哪,只知道我要出发 17:45 听说我入职大厂,二叔站起来敬了我一杯 —— 2.0阶段:关掉导航 —— 18:54 上班是点特惠套餐,gap就得自选了 21:21 裸辞第一个月,我沿用OKR,把自己累得够呛 25:56 好学生就是接球接太好了,忘了自己可以不接球 32:33 盲盒开出来大便,但体验能记得一辈子啊 33:44 在十字路口的路线有无数种,因为随时可以折返 —— 3.0阶段:直面自我 —— 39:22 Sorry!真没办法骂老板了 42:31 为了逃避人生,我躲进工作里 46:23 离开封闭的办公室,我第一次感受到流动的风 52:33 转过头面对自己的恐惧,原来恐惧会消失 01:01:18 “只有……才……”的句式,在我这儿不成立了 —— 4.0阶段:把手弄脏 —— 01:11:06 当预言家很爽,因为不用实干啊 01:13:57 gap第二年,我在小红书上卖货了 01:21:27 我的精神洁癖被满身泥点子治好了 01:23:03 走出来,才发现自己只窥见世界的门缝 01:25:07 竞争和要赢对我是有限游戏里的旧词了 —— 5.0阶段:重新接入 —— 01:26:10 我不再觉得有happy ending,但会一直连载下去 01:28:20 面对世界,我的工具箱里不再只有一件装备 01:34:54 清醒的苦,孤独的苦,都是我自己选的路 01:36:01 回去上班,怎么就不算一种选择呢 📚【本期提到】 《攒够一百万我就会有松弛感了吗》 《不原谅也没关系》 皮特·沃克 《历史的面孔》 徐涛 《怪奇物语》 肖恩·利维、马特·达菲🎵 All music credits to: 片头:迷路天才 - 薛凯琪 片尾:淋雨一直走 - 张韶涵 ✂️【本期剪辑】 小舟:一个可爱的宝宝,梦想变成萨摩耶 📢【重要通知】 「长途巴士🚌」已经建立听友群啦~欢迎加售票员微信「changtubus」,一起远行! 🚌【关于播客】 这档播客是基于自我觉察与探索,心理学知识,以及社会观察为视角进行的聊天,选题始于观察与困惑,与乘客一起向内探索

    1h 40m

    About

    这是一档从自我觉察出发,以心理学与社会观察为视角的播客。主创牧田做过《人物》记者与字节运营,主创梓彤正在北大心理学博士在读

    You Might Also Like

    Content Restricted

    This episode can’t be played on the web in your country or region.

    To listen to explicit episodes, sign in.

    Stay up to date with this show

    Sign in or sign up to follow shows, save episodes, and get the latest updates.

    Select a country or region

    Africa, Middle East, and India

    Asia Pacific

    Europe

    Latin America and the Caribbean

    The United States and Canada