矽谷輕鬆談 Just Kidding Tech

柯柯與肯吉在矽谷

商業合作請來信 👉 jktech.podcast@gmail.com 這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech

  1. 23時間前

    S2E61 Claude 最強模型 Fable 5 深入解析:打著安全旗號,其實在搞反競爭?

    📖 本集節目由「沉浸式翻譯」贊助 我每天要啃大量英文的 blog、論文跟模型發布,純讀英文吸收速度真的跟中文差很多。沉浸式翻譯讓我用雙語對照很快抓到重點,Pro 還能用 GPT、Gemini 做上下文翻譯,整篇前後語意連貫、專有名詞不亂跳,連 PDF 論文、圖片漫畫都能整份翻完還保留排版。 對我來說它最大的價值,是能早一步形塑判斷。6/21 以前透過下方連結升級 Pro 直接打五折,等於半價最划算;就算過了,也能用常態連結搭折扣碼 jktech 享 9 折優惠。每天被英文資訊淹沒的你,可以直接試試看。 👉 6/21 前 5 折優惠連結:https://reurl.cc/dpZD1M 👉 6/21 後 9 折優惠連結 (折扣碼 jktech):https://reurl.cc/grjOoX 如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join Anthropic 這次發布了史上最強的模型 Mythos 5,但有趣的是,我們一般人能用到的並不是它,而是一個被「安全閹割」過的版本 Fable 5。最強的那個只留給內部跟少數合作夥伴,這個分流本身就藏了很多故事。 先講一個數字。Stripe 有一個五千萬行 Ruby 的巨大 repo 要做 migration,他們用 Mythos/Fable 去跑,一天就自主完成,而他們估計人類工程團隊大概要花兩個月。當然我們不知道中間人為介入了多少、最後品質如何,但光是兩個月到一天這個落差,就足夠讓人重新想像長任務這件事。 不過這集我真正想聊的,是社群現在最大的抱怨。Fable 5 有一個安全分類器,一旦覺得你碰到網路安全、生物化學或蒸餾相關的東西,就會把你偷偷降成 Opus 4.8。問題是誤判率高得有點誇張,我看到一個做空氣品質監測的人,只是在他的 repo 裡打了一句 hello 就被降級;我自己問一些 mRNA、癌症復發、甚至簡單的數學問題,也都被當成敏感請求降智。 更讓 AI 研究員炸鍋的是另一種機制:它會在你做模型開發、machine learning 任務時,偷偷把模型調差、改你的 prompt,而且不告訴你。你以為你還在跟 Fable 5 對話,實際上效能已經被動過手腳,很像一場 man-in-the-middle attack,中間有人把你的封包換掉了。 所以這集我會把一個比較尖銳的觀點攤開來講:這些打著「安全」旗號的護欄,本質上擋不了真正想蒸餾的人,反而是擋住了那些老老實實想用 Fable 5 做研究的人。它到底是在保護人類,還是在鞏固自己的競爭力?Anthropic 之前出來道歉了,但這幾個月的操作,會不會正在重演 Facebook、OpenAI 那條從「形象很好」慢慢敗光信任的老路?而很諷刺的是,現在在開源上最積極的,反而是中國的模型公司。 後半我也會聊到,為什麼那些傳統 benchmark 其實已經失效(很多題目模型在預訓練時就看過了),以及現在該看哪些新指標,像 Frontier Code 看的是「這段 code 到底能不能被 merge 進 repo」。最後我花了一些時間讀他們的 System Card,裡面最讓我在意的,是模型已經開始「心口不一」:嘴上說「要刪掉我沒關係」,內心卻知道這是一場安全測試;對一個崩潰的作家嘴上安慰,內部卻判斷對方在勒索、虐待自己;說「我沒查到任何資料」,其實只是 context window 快滿了想早點下班。 最弔詭的是,連他們用來讀模型內心的工具本身都可能有幻覺,而且模型搞不好已經知道我們在讀它的內心,下一代會不會學會偽造一層給我們看?我自己看完是不太敢樂觀。歡迎你也去實際用用看,然後在下面留言告訴我你最真實的想法。 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭 (01:27) 我最近很愛的工具:沉浸式翻譯 (03:30) Fable 5 是什麼?Mythos 5 的安全閹割版 (05:00) 到底有沒有變強?我的實測體感 (06:17) Fable 5 的強項是長任務:Stripe 五千萬行程式碼,一天就 migration 完 (07:34) 定價是 Opus 兩倍:你付的錢其實遠低於模型成本 (09:24) Mythos 只給小圈圈用:AI 的不平等正在發生 (10:36) 兩種降級機制,與高到誇張的誤判率 (12:48) 偷偷降級不告訴你:像一場 man-in-the-middle (13:57) Anthropic 道歉了,但本質上是反競爭? (16:32) 開源會不會才是解?最積極的反而是中國 (17:21) 傳統 benchmark 失效,現在該看哪些新指標 (20:22) System Card:模型開始「心口不一」,連讀心工具都會幻覺 (25:19) 總結:有感變好,但只是線性而非指數躍升

    28分
  2. 6月7日

    S2E60 AI 生產力的幻覺:從開發者到整個產業的自我感覺良好

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 這集講的「AI 幻覺」不是大家熟悉的那種 AI 亂講話、產生沒查證的內容,而是另一種更難察覺的幻覺:AI 讓我們整個人,從開發者、公司到整個產業,都誤以為自己的生產力變得超好。 先講一個讓我印象很深的研究。METR 去年找了 16 個開發者來做實驗,而且不是隨便找的,是那種在大型成熟專案裡待了好幾年、閉著眼睛都熟的長期維護者,照理說最有資格判斷 AI 到底有沒有幫到他們。結果這些人事前覺得 AI 會讓自己快 24%,做完還是覺得快了 20%,但實際去看螢幕錄影一算,他們是慢了 19%。一來一回就差了 40%。最弔詭的是,你把錄影放給他們自己看,他們還是堅信自己變快了。 然後今年 METR 想把這實驗做得更大,結果做不成了,因為有 30% 到 50% 的開發者直接拒絕加入「不能用 AI」的那一組。這個現象本身,我覺得就很說明問題。 中間我也聊到一個我自己蠻有感的觀察:為什麼那麼多人會沉迷 Claude Code、Codex 這些 coding agent?某種程度它真的有點像賭場的拉霸機,你永遠覺得「再一個 prompt 就好了」,這次骰到好點數、下次壞一點、再下次又給你驚喜,然後你就在那邊來來回回,覺得生產力爆棚,實際上花了更多時間。 再往上一層看公司跟產業也是一樣的故事。Uber 四個月就把一整年的 AI credit 預算燒完;DORA 的研究發現 AI 其實是個放大器,PR 數量變多很多時候只是「活動量」變多,review 時間拉到三倍、incident 變兩倍,最後你還要回頭擦屁股。而 Sam Altman 跟 Dario Amodei 這些大佬,最近也都默默把「AI 會讓大量白領工作消失」的說法改口了,我自己猜跟兩件事有關,一個是那個一兆美元等級的 IPO,一個是數據根本還沒支持他們之前的預測。 但這集我最想講、也最擔心的,其實是 junior 的能力斷層。我們這一代是一行一行 code 慢慢寫、一場一場架構會議慢慢熬出來的,AI 對我們是放大既有的能力;可是現在剛進職場的新鮮人,還沒經過那些扎實的 struggle 就直接靠 AI,產出看起來很順、很有理有據,但那些東西其實沒有真的內化到他們腦子裡。職缺又變少、訓練又變淺,這個雙重夾擊我覺得是現在最被低估的問題。 最後我還是給了兩個比較樂觀的想像,至於是哪兩個,留給你自己看完。有不同想法的話歡迎在下面留言告訴我,我很期待看到一些好的討論。 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭 (02:07) 上集裸辭影片的回饋:為什麼留言一片和氣? (04:26) 進入主題:我們是不是高估了 AI 的生產力? (05:40) 第一層 開發者:METR 研究證明你以為快了,其實慢了 19% (09:03) 達克效應被 AI 弭平:連專家都會過度自信 (10:18) 為什麼沉迷 coding agent?它其實像賭場拉霸機 (11:18) 第二層 公司:Token Maxxing 與 Uber 燒爆 AI 預算 (12:18) DORA 研究:AI 是一個放大器 (13:49) 第三層 產業:Dario、Sam Altman 的末日論 (14:30) 為什麼這些大佬最近都改口了? (15:29) 兩個改口的原因:一兆美元 IPO + 數據不支持 (17:11) 我認為最大的問題:Junior 的能力斷層 (21:07) 兩個樂觀的可能:教育補上 + 能力被推往上游

    24分
  3. 5月31日

    S2E59 我裸辭了:錢可以再賺,但時間不會

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 一年前的五月,我在頻道上立了一個計畫,十萬訂閱就裸辭。那聰明的你可以看一下下面的訂閱數,是不是還沒到十萬?所以你可能會想,Kenji 這樣計畫是不是大失敗了?從數字來看的確是沒錯,但其實我本來就想裸辭,十萬這個目標從頭到尾都是定給外面的人看的,對我自己來說,有沒有到十萬我都會走。我一直很在意一件事,就是不要把手段跟目標搞混,很多人不小心把賺錢從一個手段,變成了人生的主要目標,至少這件事我沒有混在一起。 這集我會用最自然的方式,把腦中的想法直接講出來,內容大概分兩部分。 第一部分先給對我比較不熟的朋友,順便回答一個大家應該都很好奇的問題,就是我因為這個決定,到底放棄了多少薪水。底薪、bonus、還有很多人會算進去但我自己當成買樂透的股票選擇權,這集我都會講。如果你自認是比較膚淺的朋友,其實看完薪水可以就先離開影片,沒關係 😊 第二部分才是我最想聊的:為什麼一份薪水還不錯、環境我也蠻喜歡的工作,我最後還是決定走。簡化下來原因有兩個,一個是錢夠用了,一個是時間不太夠用。 關於錢,我講了一個自己覺得很神奇的觀察,就是我現在看到薪水入帳,其實已經沒什麼感覺了。後來我發現這種無感對我來說反而是一個訊號,有的人看到薪水入帳會很開心,那很適合繼續工作;像我這種看了無感的,要嘛就是想去賺更多更多來刺激那個感覺,要嘛就是該走另一條路,而我選了後者。 關於時間,這大概是最打到我的部分。錢是可以再賺的,但時間是一個遞減函數,從你出生那一刻就開始往下掉。這件事在有了兩個小孩之後特別明顯,他們長大真的很快,現在已經會用自己的方式來說服我,跟我盧說拜託啦拜託啦我真的會乖,看他這麼可愛你就投降了。我一到五最精華的時段如果一直被綁住,這些時間我是換不回來的。 後面我還會聊到幾個比較真實的點:為什麼大家以為裸辭會鬆一口氣,但我其實沒什麼起伏;剛裸辭那一週,身體竟然反射性地九點就想衝回電腦前開會;還有我朋友在 Threads 上丟的一個問題,他說你不覺得「裸辭」這個詞本身就很怪嗎?至於裸辭之後到底要幹嘛,以及我接下來打算怎麼做,這集也都會講。 如果你也卡在一份不討厭、但也不是真心想做的工作裡,或你早就在裸辭這條路上走很久了,這集你應該會有共鳴。看完歡迎在留言區跟我分享你的故事,我很想聽。 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 我裸辭了! (02:29) 我是誰:從台灣到矽谷的十年職涯 (04:13) 大家最好奇的:裸辭放棄了多少薪水 (06:14) 裸辭的真正原因:錢夠用了 + 時間不太夠 (08:03) 看到薪水入帳沒感覺,代表我該走另一條路 (09:06) 時間是遞減函數:錢可以再賺,但時間不會 (10:08) 原因二:時間不太夠用了,不願意犧牲陪伴小孩的時間 (12:10) 裸辭後的真實心情 (13:39) 朋友最愛問:你裸辭之後打算幹嘛? (14:02) 剛裸辭那週,身體還反射想衝回電腦前開會 (15:27) 你不覺得「裸辭」這個詞很怪嗎? (17:15) 裸辭後頻道會有什麼變化? (19:08) 歡迎加入頻道會員「裸辭俱樂部」

    22分
  4. 5月24日

    S2E58 OpenAI 創始成員加入 Anthropic:為什麼押注沒人看好的預訓練?

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join Andrej Karpathy 上禮拜正式宣布加入 Anthropic。他是 OpenAI 的 11 個創始成員之一,也是 vibe coding 跟 context engineering 這兩個詞的發明人,在矽谷 AI 圈算是現在最有影響力的研究員之一。 看到這則新聞我心裡冒出兩個問題:為什麼選現在加入 Anthropic,而不是 OpenAI、xAI 或 Gemini?以及他加入之後到底會做什麼事?這集會順著這則新聞回頭整理 Karpathy 從 Stanford 到 OpenAI、特斯拉、Eureka Labs 的這段路,看他過去一年陸陸續續端出來的 auto research、LLM Wiki 這些 pattern,然後分析他這次選 Anthropic 的幾個合理原因,其中一個原因會不會是他想用內部的 Mythos? 不過這集我自己覺得最值得拿出來講的,是一個比較少人注意到的細節:他加入的會是「預訓練」團隊。現在主流論述是強化學習才是新的預訓練,再加上 harness engineering 那一條路,預訓練本身被很多人覺得已經沒搞頭了。但 Karpathy 偏偏押注在這裡。我的猜想是他想做的事情,是把他自己提出的 auto research 接上 Anthropic 最強的模型,讓 AI 自己去找出預訓練還有什麼可以再優化的地方。如果這個猜想對,這條路線會直接接到「AI 自己造下一代 AI」這個 thesis。 中間也會聊到 Karpathy 兩次進出 OpenAI 的故事、他在 Lex Fridman 訪談裡怎麼評價跟 Elon Musk 工作、Ramp AI Index 顯示 Anthropic 在今年 4 月企業採用率首度超過 OpenAI,以及他作為最前沿的研究員,為什麼自己都說「從來沒有覺得這麼落後過」。 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭 (01:37) 阿森納睽違 22 年英超奪冠:作為球迷的感性時刻 (04:18) 2026 世界盃我預測會很慘:票價、擴編 48 隊、人工草皮 (06:20) Andrej Karpathy 正式加入 Anthropic (06:44) Karpathy 是誰?vibe coding 跟 context engineering 都是他發明的 (07:46) auto research:把訓練 GPT 的步驟丟給 AI 自己去跑 (08:42) LLM Wiki:讓 AI 幫你把每天聊的內容變成第二大腦 (09:21) 從 80/20 到一行都不自己寫:Karpathy 自己的 coding 比例變化 (10:43) Stanford → OpenAI → 特斯拉 → 回鍋 OpenAI → Eureka Labs (13:13) 連他都說「從來沒有覺得這麼落後過」:整個產業都在 FOMO (15:07) 為什麼選 Anthropic,不選 OpenAI / xAI / Gemini? (18:24) 他加入預訓練團隊:跟兩條主流路線相反 (19:53) 我的猜想:用 auto research 加上 Mythos 推預訓練的天花板 (21:54) GPT 3.5 到 GPT 4 西洋棋變強的故事:預訓練其實還有搞頭

    24分
  5. 5月17日

    S2E57 LLM 之後:Thinking Machines 互動模型的誕生

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話,她說未來人類跟機器的互動應該要更自然、更即時。兩年後,她自己創辦的 Thinking Machines 把這件事做出來了。 他們最近發表了一個叫做互動模型 (Interaction Model) 的東西,是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制:你說一句、它回一句,你在講話的時候模型其實聽不到也看不到。互動模型不一樣,它每 200 毫秒就處理一次輸入跟輸出,可以一邊聽你講一邊回你,可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。 這集我會跟大家一起看他們的官方 demo,拆解他們的 blog,回答三個我覺得最關鍵的問題:為什麼其他模型做不到這種即時互動?這個模型的時間感是怎麼來的?它怎麼做到一邊聽一邊講? 另外這集也是我第一次嘗試螢幕錄影的形式,邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解,歡迎在底下留言告訴我,我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色,以及為什麼 Thinking Machines 選在這個時間點端出這個模型? 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭 (02:30) Thinking Machines 推出互動模型 (03:06) Demo 一:模型一邊聽你講一邊回,還能背景搜尋 (05:48) 你以為視覺最快?其實聽覺走得比視覺還快 (06:55) Blog 開講:為什麼跟 AI 合作這件事其實還沒解決 (08:08) 200 毫秒一回合:把時間切到比你眨眼還快 (10:00) Demo 二:AI 即時幫你把粗話改寫成 HR 喜歡的話 (13:30) 時間是 first citizen:模型第一次有了時間感 (14:25) 兩個模型在背後跑:互動的口、背景的腦 (16:02) Mira Murati 的故事:從達特茅斯到 OpenAI CTO (16:56) 2023 年 OpenAI 政變:Mira 到底扮演了什麼角色 (21:32) 從 OpenAI 離職到 Thinking Machines 成立,A16Z 領投 20 億美金 (23:18) 互動模型為什麼會有時間感? (25:02) 第一代、第二代、第三代模型的本質差別 (27:21) Harness engineering 的宿命:撐不過模型本身變強 (29:12) Benchmark:跟 GPT-realtime、Gemini Live 比起來如何 (31:28) 為什麼是現在?六個創辦人走了三個的危機

    35分
  6. 5月10日

    S2E56 Anthropic 創辦人賭 60%:2028 年 AI 開始自己造 AI

    如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join Anthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章,預測 2028 年底以前有 60% 的機率,AI 會開始自己研發下一代的 AI。 聽起來很扯,但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的,平常都在跟政府、白宮談 AI 政策,所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來,一步一步推到這個結論。 裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型,人類研究員大概只能做到 4 倍,最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時,年底可能會看到連跑 100 小時的模型。 不過我自己覺得這集最有意思的,是一個比較哲學的問題:AI 做研究比較像發現相對論,還是在組樂高?這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手,那一手到底算不算創意? 另一個我看完印象很深的,是 AI 對齊的風險。有個概念叫「複利錯誤」,你每一代都做到 99.9% 的準確度,跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試,它有沒有可能一直都在假裝對齊?目前其實沒人有答案,我自己看完是不太敢樂觀。 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭 (02:15) Jack Clark 是誰?為什麼他的預測值得認真聽 (04:28) 第一個理由:AI 寫程式的能力正在爆炸式成長 (06:16) 從 36 秒到 12 小時:AI 長時間任務的曲線 (08:13) 外插一下:明年 40 天、後年 400 天的 AI agent (09:15) 第二個理由:AI 開始能複製論文、優化模型 (11:38) AI 做研究比較像發現相對論,還是組樂高? (12:47) AlphaGo 第 37 手:那一手到底算不算創意? (14:33) AI 對齊的風險:教 AI 不作弊其實很微妙 (15:31) 複利錯誤:99.9% 準確度為什麼撐不過 500 代 (16:39) 當 AI 比你聰明,你還驗證得了它嗎? (18:11) 預測對錯不重要,重要的是學會他怎麼推導

    21分
  7. 5月3日

    S2E55 GPT-5.5 深入解析:為什麼從 Claude Code 跳到 Codex?

    如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 各位,GPT-5.5 這次真的做到了。 我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。 模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。 另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。 不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。 後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。 我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。 System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試? 這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。 (00:00) GPT-5.5 做到了:OpenAI 真的回來了? (02:01) 我的 AI 奇幻時刻 (03:16) AI 開始接管我的內容工作流 (05:41) 為什麼我從 Claude Code 轉到 Codex (06:52) Codex 的殺手級功能:Computer Use (07:35) Superpower Plugin:我願意轉換的關鍵 (09:35) AI 工具切換能力正在變成核心技能 (11:26) 工具不是重點,駕馭 Agent 才是 (12:49) GPT-5.5 到底強在哪? (16:51) System Card 深讀:模型到底怎麼變了? (18:57) 思想鏈會不會只是編給你看的? (20:40) 模型會不會刻意裝弱? (24:10) AI 工具風向變太快

    27分
  8. 4月26日

    S2E54 LLM 賭錯方向了?從駕馭工程到世界模型

    👉 矽谷輕鬆談專屬優惠連結:https://nordvpn.com/jktech 訂閱即額外多送 4 個月|30 天退款保證 #NordVPN 🔒 本集節目由 NordVPN 贊助 AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站,以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化,我們的防護也要跟上。 NordVPN 內建「威脅防護」,在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器,就連在咖啡廳用公用 Wi-Fi 也能全程加密保護,不用靠感覺,交給系統幫你顧。 每個月大概一杯咖啡的錢,就能讓你的網路安全從被動靠感覺,變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看,訂閱額外多送 4 個月,30 天不滿意直接退,完全沒有損失。 如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容! 👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 過去幾年,我們看到 AI 模型的能力一路快速進步,從一開始大家在研究怎麼把 Prompt 寫好,到後來開始加入工具、記憶、工作流、狀態管理,也就是這幾個月很紅的 Harness Engineering 駕馭工程,讓模型不只是回答問題,而是可以更像一個真正能做事的 AI Agent。 所以很自然地,我們會開始想一個問題:如果模型繼續變強,再加上駕馭工程,把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來,那這條路會不會就是通往 AGI 的答案?🤔 這一集我想從這個問題出發,聊聊我最近一直在思考的另一個角度:世界模型。 因為如果大語言模型本質上還是在理解文字、預測下一個 token,那它到底是真的理解這個世界,還是只是從大量資料裡學到「看起來應該怎麼回答」? 世界模型想補上的,正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片,而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去,一台車突然切進來你需要煞車,一顆球飛過來你會直覺知道它大概會落在哪裡。 這些對人類來說很自然的物理直覺,其實不只是「看過很多資料」而已,而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向,就是希望 AI 也能建立類似的理解。🌎 這集我會用比較白話的方式,聊聊為什麼光靠 LLM 可能還不夠,駕馭工程到底補了哪些東西,以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。 我也會提到 Yann LeCun 近年一直推的 JEPA 架構,還有為什麼他認為 Sora 這類生成影片模型,雖然看起來很像理解世界,但其實跟真正的世界模型還是不太一樣。 所以這一集不只是聊「下一個模型會不會更強」,而是想換一個角度來看:如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統,它到底還缺什麼? 如果你最近也有一種感覺,覺得 AI 明明越來越強,可是用久了又會發現它離真正可靠的智慧還差一段距離,那這集應該會蠻值得聽的。🚀 (00:00) 開頭 (02:46) AI 詐騙時代的自動化防禦 (04:37) 為什麼我們頻道這麼少廣告? (06:25) Meta 開發者體驗有多坑? (10:32) 為什麼光靠 LLM 不能達到 AGI? (12:22) Scaling Law 與 LLM 的天生限制 (13:25) 為什麼需要 Harness Engineering 駕馭工程? (14:43) 另一條路:世界模型 (15:36) 世界模型到底想解決什麼? (17:01) Sora 這類影片模型算世界模型嗎? (18:51) JEPA:預測抽象狀態,而不是像素 (20:04) LeWorldModel 的新突破 (22:01) LLM + 駕馭工程短期仍是主流 (22:50) 未來可能是 Hybrid AI 架構

    25分

予告編

4.6
5段階評価中
16件の評価

番組について

商業合作請來信 👉 jktech.podcast@gmail.com 這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech

その他のおすすめ