EasyVibeCoding Podcast

EasyVibeCoding

輕鬆Vibe Coding — Anthropic 官方文章翻譯、Claude API 與 Prompt Engineering 實作心得、X 技術社群精選的中文音訊版。

  1. 23 hr ago

    @ClaudeDevs:Claude Managed Agents 推出五項 API 更新強化代理控制。 Anthropic 針對 Claude Managed Agents 進…

    Claude Managed Agents 推出五項 API 更新強化代理控制。 Anthropic 針對 Claude Managed Agents 進行了多項功能升級,旨在提升開發者在建構 Agent 應用時的靈活性與監控能力。開發者現在可以透過 Claude Code 內建的 claude-api skill 進行探索,並參考官方提供的 roadtripplanner 範例專案(https://github.com/anthropics/claude-cookbooks/tree/main/managedagents/roadtrip_planner)。 Claude Managed Agents API 推出五項最新功能更新,包含串流會話、代理覆寫、部署 Webhooks、反向分頁及憑證注入範圍控制。 核心功能更新 本次更新重點在於提升 API 的互動效率與配置彈性: Streaming sessions:支援即時串流模型輸出,開發者可透過 /v1/sessions/{id}/events/stream 端點,利用 event_delta 逐步接收並呈現處理結果。 Agent overrides:允許使用者在啟動特定會話時,針對該次會話覆寫預設的 Agent 設定,包含模型名稱、系統提示詞、工具、mcp_servers 或 skill。若傳入空陣列 [] 則可清除該項設定。 這張圖展示了如何透過程式碼設定「Agent overrides」功能,以在特定對話階段中自訂代理程式的行為與模型參數。 Deployment webhooks:新增 /v1/webhooks 訂閱機制,可即時獲取部署生命週期事件(如失敗或暫停),無需再透過輪詢方式確認狀態。 Reverse pagination:支援反向分頁功能,透過 prev_page 參數即可在會話列表中進行向後瀏覽。 Credential injection scoping:強化安全性,允許開發者精確控制機密憑證的注入範圍,例如限制僅在 headers 中注入,避免敏感資訊洩漏至請求主體。 監控與可觀測性 除了 API 功能外,Anthropic 同步在 Console 中新增了「Managed Agents Observability」標籤頁。此介面提供會話層級的詳細指標,包含輸入與輸出的 token 使用量以及各項工具的呼叫頻率,協助開發者更精確地追蹤與優化 Agent 的執行效能。 Claude Console 新增了 Managed Agents 的 Observability(可觀測性)分頁,提供工作階段層級的指標,例如輸入/輸出 token 使用量與工具使用次數(如 bash 呼叫了 2,235 次)。 Claude Managed Agents API 推出五項最新功能更新,包含串流會話、代理覆寫、部署 Webhooks、反向分頁及憑證注入範圍控制。 影片中的 Prompt 與操作: 操作步驟: 1. (00:06)呼叫 `/v1/sessions/{id}/events/stream` 端點進行串流。 2. (00:17)展示代理設定覆寫機制。 3. (00:25)呼叫 `/v1/webhooks` 訂閱部署事件。 4. (00:32)呼叫 `/v1/sessions` 進行反向分頁操作。 5. (00:40)設定憑證注入範圍為 `headers`。 原文:https://easyvibecoding.app/curated/2272

    2 min
  2. 1 day ago

    @cursor_ai:Cursor 與 Devin 導入 Claude Sonnet 5 提升程式開發效能。 Cursor 的效能評估 Cursor 官方宣布 Claude …

    Cursor 與 Devin 導入 Claude Sonnet 5 提升程式開發效能。 Cursor 的效能評估 Cursor 官方宣布 Claude Sonnet 5 已正式上線,並透過自家的「CursorBench」進行評測。根據數據顯示,Claude Sonnet 5 在該基準測試中取得 57% 的成績,相較於前代 Claude Sonnet 4.6 的 49% 有顯著提升。 在 CursorBench 3.1 基準測試中,Claude Sonnet 5 相比於 Sonnet 4.6 取得了顯著的進步(57% 對比 49%);下圖進一步展示不同模型在各種推理設定下的成本與分數權衡曲線。 使用者可透過 Cursor 官方評測頁面 查看完整的模型排名。 Devin 的工程實測 Cognition 旗下的 Devin Desktop 與 Devin CLI 同步支援 Claude Sonnet 5,並強調該模型以更具競爭力的成本,提供達到前沿水準的程式開發效能。根據 Cognition 針對真實工程任務所設計的「FrontierCode (Extended)」基準測試,Claude Sonnet 5 在程式碼可合併性(mergeability)與品質評分上表現優異: Claude Sonnet 5 取得 53.8% 的分數,並具備 57.6% 的通過率,表現超越 Claude Opus 4.8。 在 FrontierCode Extended 基準測試中,Claude Sonnet 5 以 53.8% 的得分超越了 Claude Opus 4.8(51.8%)及其他模型。 Cognition 特別提醒,隨著未來對 FrontierCode 基準測試的調整,相關排名數據可能會有些微變動。 使用優惠與相關資訊 為了鼓勵使用者體驗新模型,Cognition 提供限時的配額優惠: 即日起至 2026 年 8 月 31 日止,在 Devin Desktop 與 Devin CLI 中使用 Claude Sonnet 5,將比使用 Claude Sonnet 4.6 節省約 30% 的配額消耗。 優惠期結束後,Claude Sonnet 5 的配額消耗將調整為與 Claude Sonnet 4.6 相同。 使用者可前往 Devin 官方下載頁面 獲取最新版本,詳細評測分析可參考 Cognition 官方部落格。 原文:https://easyvibecoding.app/curated/2275

    2 min
  3. 1 day ago

    @claudeai:Anthropic 發布 Claude Sonnet 5,推理/工具使用/程式撰寫全面升級,效能逼近 Opus 4.8。 這是一段以植物插畫組合成數字…

    Anthropic 發布 Claude Sonnet 5,推理/工具使用/程式撰寫全面升級,效能逼近 Opus 4.8。 這是一段以植物插畫組合成數字「5」並展示「Sonnet 5」標題的動態演示。 核心升級與效能表現 Claude Sonnet 5 是 Anthropic 目前最具 Agentic 特性的 Sonnet 系列模型,其核心改進在於推理、工具使用、程式撰寫及知識工作處理能力。相較於前代 Sonnet 4.6,Sonnet 5 的效能已逼近 Opus 4.8,但價格更具競爭力。該模型能自主制定計畫、操作瀏覽器與終端機,並在無需額外提示的情況下主動檢查輸出結果,解決了過去 Sonnet 模型在處理長任務時容易中斷的問題。 Claude Sonnet 5 在推理、工具使用、程式設計與知識工作等指標上較前代 Sonnet 4.6 有顯著提升,且其表現已逼近 Opus 4.8。 安全性與防護機制 在安全性評估方面,Sonnet 5 在 Agentic 語境下的表現較 Sonnet 4.6 更為穩健,且在拒絕惡意請求及抵抗 prompt injection 攻擊的能力上有所提升。 幻覺與諂媚行為(sycophancy)的發生率較前代降低。 針對網路安全任務,Anthropic 並未刻意訓練其相關能力,且在開發軟體漏洞等危險技能的評估上,表現顯著弱於 Opus 4.8 與 Mythos 5。 惟在自動化行為稽核中,Sonnet 5 的不當行為比率仍略高於 Opus 4.8 與 Claude Mythos Preview。為確保安全,Sonnet 5 預設啟用與 Claude Opus 4.7 及 4.8 相同的網路安全防護機制,能即時偵測並阻擋危險操作。 取得方式與定價策略 Claude Sonnet 5 即日起全面上線,並已成為 Free 與 Pro 方案的預設模型,同時開放給 Max、Team 與 Enterprise 使用者。開發者可透過 Claude Platform 使用 claude-sonnet-5 API。 推廣定價(至 2026 年 8 月 31 日):輸入每百萬 token 2 美元,輸出每百萬 token 10 美元。 標準定價(2026 年 9 月 1 日起):輸入每百萬 token 3 美元,輸出每百萬 token 15 美元。 官方已針對 Chat、Cowork、Claude Code 及 Claude Platform 提升速率限制(rate limits),以支援更高強度的 Agentic 任務需求。 這是一段以植物插畫組合成數字「5」並展示「Sonnet 5」標題的動態演示。 影片中的 Prompt 與操作: 操作步驟: 1. (00:00)植物插畫元素逐漸生長並排列成數字「5」 2. (00:08)畫面轉換顯示「Sonnet 5」文字 原文:https://easyvibecoding.app/curated/2282

    3 min
  4. 1 day ago

    @OpenAI:OpenAI 發布 GeneBench-Pro 評估 AI Agent 生物數據分析能力。 核心目標與設計 GeneBench-Pro 專為測試 AI …

    OpenAI 發布 GeneBench-Pro 評估 AI Agent 生物數據分析能力。 核心目標與設計 GeneBench-Pro 專為測試 AI 在計算生物學領域的「研究品味」(research taste)而設計,這不僅是執行預設工作流,更包含在模糊情境下修正假設、判斷數據品質及決定何時進入決策階段的能力。為了避免傳統基準測試中常見的評估偏差,該測試採用合成數據集,確保每個問題都有明確的因果結構,並透過詳細的追蹤分析(trace analysis)排除資訊洩漏或隨機猜測的可能性。 評估架構與執行 該基準包含 129 個問題,涵蓋基因體學、定量生物學及轉譯醫學。 每個問題均為獨立的科學分析任務,Agent 需在隔離的 workspace 中,利用標準生物資訊堆疊(如 Python 與 PLINK 2.0)進行運算。 OpenAI 已將 10 個代表性問題開源至 Hugging Face,並計畫提供 50 個問題的子集給 Artificial Analysis 進行第三方評測。 效能表現與研究意義 OpenAI 的最強模型 GPT-5.6 Sol 在啟用 Pro 模式下,於最高推理層級達到 31.5% 的通過率,相較於 GPT-5 時期的不到 5% 有顯著提升。 測試結果顯示,增加推理時的運算資源(test-time compute)能顯著提升 Agent 解決複雜問題的能力,且 GPT 系列模型在科學推理上的表現優於目前的開源模型。 儘管目前 AI Agent 尚未能完全取代人類專家,但考慮到每個問題的人類專家執行成本高達數千美元,而 AI 推論成本僅需數美元,GeneBench-Pro 的出現將有助於量化並改善 AI 在科學發現中的自動化潛力,加速從數據生成到決策的迭代週期。 原文:https://easyvibecoding.app/curated/2274

    2 min
  5. 1 day ago

    @claudeai:Claude Science 協助研究人員整合數據與產出科學文件。 Claude Science 是一個專為科學研究設計的 AI 工作台,能協助研究人…

    Claude Science 協助研究人員整合數據與產出科學文件。 Claude Science 是一個專為科學研究設計的 AI 工作台,能協助研究人員處理數據、執行程式碼並自動化科學工作流程。 核心功能與應用 Claude Science 旨在解決科學研究中工具碎片化的痛點,將 PubMed、Jupyter、R 及高效能運算(HPC)叢集等資源整合至單一環境。其關鍵功能包括: 可稽核的 Artifacts:系統產出的每個圖表與文件,皆會附帶完整的程式碼、執行環境紀錄與訊息歷史,確保研究結果可被驗證與重現。 Agentic 工作流:使用者可透過協調型 Agent 呼叫超過 60 種預設的 skill 與連接器,涵蓋基因體學、蛋白質體學及化學資訊學等領域。 自動化審查:內建審查 Agent 可即時檢查引用來源、計算結果及圖表與程式碼的一致性,並具備自我修正能力。 運算資源管理:支援將運算任務提交至實驗室既有的 HPC 叢集或 Modal 帳號,並能根據需求自動擴展運算規模。 技術架構與整合 該平台強調在研究人員既有的基礎設施上運行,確保敏感資料無需離開本地環境,僅將必要的分析上下文傳送給 Claude。 BioNeMo 整合:透過 NVIDIA BioNeMo Agent Toolkit,原生連結包括 Evo 2、Boltz-2 與 OpenFold3 等生命科學模型。 可重複使用的 skill:研究人員可將自訂的分析管線儲存為 skill,並在未來的專案中自動繼承使用。 互動式編輯:使用者能以自然語言要求 Agent 修改圖表(例如調整座標軸或移除格線),Agent 會自動更新對應的程式碼。 實際影響與可用性 目前 Claude Science 已進入 Beta 測試階段,適用於 Claude Pro、Max、Team 及 Enterprise 使用者,支援 macOS 與 Linux 系統。 研究案例:Manifold Bio 利用其進行端到端的標靶提名;Allen Institute 的研究人員 Jérôme Lecoq 則透過 Claude Science 建立包含 20 種自訂 skill 的 Agent 系統,將長篇文獻回顧的撰寫時間大幅縮短。 專案補助:Anthropic 將支援最多 50 個「AI for Science」專案,最高提供 30,000 美元額度,並由 Modal 提供額外運算資源。申請截止日期為 2026 年 7 月 15 日,入選專案將於 2026 年 9 月至 12 月間執行。 Claude Science 是一個專為科學研究設計的 AI 工作台,能協助研究人員處理數據、執行程式碼並自動化科學工作流程。 影片中的 Prompt 與操作: Prompt(00:54): 撰寫一份關於跨物種單細胞 RNA-seq 整合的文獻回顧。提取主要的學術方法論文與近期基準測試。將報告輸出為 LaTeX 文件與編譯後的 PDF。 原文:Write a literature review on cross-species single-cell RNA-seq integration. Pull the primary methods papers and recent benchmarks. Output the report as a LaTeX doc and a compiled PDF. 操作步驟: 1. (00:16)點擊選單並選擇「Provenance」 2. (00:18)點擊「Download script」下載 Python 程式碼 3. (00:26)在結構圖上新增註解 4. (00:39)點擊「Allow once」確認啟動運算任務 5. (00:41)點擊「Allow for this conversation」確認權限 6. (00:46)點擊「3 running」查看執行中的任務 7. (00:51)點擊「Manage compute」管理運算資源 8. (01:42)點擊「Go to transcript」查看審查紀錄 原文:https://easyvibecoding.app/curated/2280

    3 min
  6. 1 day ago

    @bcherny:Claude Desktop 於 Linux 推出 Beta 版支援桌面體驗。 版本發布重點 Anthropic 官方正式回應使用者需求,將 Claud…

    Claude Desktop 於 Linux 推出 Beta 版支援桌面體驗。 版本發布重點 Anthropic 官方正式回應使用者需求,將 Claude Desktop 帶入 Linux 生態系。此版本提供與 macOS 及 Windows 相同的體驗,包含 Chat、Claude Cowork 與 Claude Code 的整合功能,並支援平行對話視窗、視覺化差異檢視(visual diff review)、整合式終端機與編輯器,以及即時應用程式預覽。目前該版本適用於 Ubuntu 22.04 或 Debian 12 以上版本,並支援 x86_64 與 arm64 架構。 安裝與更新指引 官方建議透過 Anthropic 的 apt 軟體庫進行安裝,以便透過系統更新機制接收後續版本。安裝步驟如下: 下載並註冊 Anthropic 的簽署金鑰: `bash sudo curl -fsSLo /usr/share/keyrings/claude-desktop-archive-keyring.asc https://downloads.claude.ai/claude-desktop/key.asc echo "deb [arch=amd64,arm64 signed-by=/usr/share/keyrings/claude-desktop-archive-keyring.asc] https://downloads.claude.ai/claude-desktop/apt/stable stable main" | sudo tee /etc/apt/sources.list.d/claude-desktop.list ` 更新軟體庫並安裝套件: `bash sudo apt update && sudo apt install claude-desktop ` 啟動應用程式: 安裝完成後,可透過應用程式選單啟動,或在終端機輸入 claude-desktop 並登入 Anthropic 帳號。 這是一張展示「Claude for Linux」應用程式啟動頁面的介面截圖,畫面中央設有「Get started」按鈕供使用者點擊。 若無法使用 apt 軟體庫,亦可從 Claude 下載頁面 下載 .deb 檔案手動安裝,但需注意此方式無法自動接收系統更新。 Beta 版本限制 作為 Beta 測試階段,此版本目前尚不支援以下功能: Computer Use:暫不支援應用程式與螢幕控制功能。 語音輸入:不支援直接聽寫,建議改用 CLI 版本的語音輸入功能。 系統支援:目前僅限 Debian 體系發行版,Fedora 與 RHEL 等其他發行版尚未納入支援。 快捷鍵:全域快速鍵在原生 Wayland 環境下需依賴特定的 GlobalShortcuts 協定支援。 若使用者有上述未支援功能的需求,官方建議持續使用 Claude Code 的 CLI 版本,該版本支援更廣泛的 Linux 發行版。 原文:https://easyvibecoding.app/curated/2273

    2 min
  7. 1 day ago

    @OpenAIDevs:OpenAI 開發團隊透過流行病學分析法,成功定位並修復了導致資料基礎設施崩潰的兩項關鍵錯誤。 核心除錯策略 OpenAI 團隊在面對 ChatGPT …

    OpenAI 開發團隊透過流行病學分析法,成功定位並修復了導致資料基礎設施崩潰的兩項關鍵錯誤。 核心除錯策略 OpenAI 團隊在面對 ChatGPT 資料基礎設施(特別是 Rockset 服務)中難以解釋的崩潰現象時,改變了傳統逐一檢查 core dump 的「醫生模式」,轉而採用「流行病學模式」。他們利用 ChatGPT 編寫腳本,對過去一年內所有的崩潰資料進行自動化標記與分類,從而發現這些崩潰並非單一原因,而是由兩起互不相關的錯誤共同導致。 兩項關鍵錯誤分析 硬體故障:透過分析發現,部分崩潰集中在特定區域與時間點,追溯後確認是由單一 Azure 實體主機的 CPU 硬體錯誤所致。團隊已將該主機列入黑名單,並更新監控機制以利未來快速偵測類似硬體異常。 開源程式庫漏洞:針對剩餘的「返回空值(return-to-null)」崩潰,團隊發現其根源在於 GNU libunwind 程式庫中存在長達 18 年的競態條件(race condition)。該程式庫在執行 C++ 例外處理(exception unwinding)時,會將暫存器狀態寫入堆疊,而在更新 %rsp 指標後、讀取返回位址前的極短時間視窗內,若收到訊號(如 SIGUSR2),核心會覆寫該記憶體區域,導致程式崩潰。 技術影響與啟示 此漏洞之所以難以察覺,是因為其觸發視窗僅約 100 皮秒(picoseconds)。然而,由於 Rockset 在處理資料攝取背壓(backpressure)時會頻繁拋出例外,導致該機率極低的競態條件在大規模運作下頻繁發生。 為何這個 18 年老漏洞現在才浮現 崩潰率大致與例外拋出頻率、訊號發送頻率及訊號處理常式的堆疊用量成正比。Rockset 在這三項指標上都異於常規:以高頻率拋出例外作為過載控制機制、因 coarsethreadcputimeclock 而異常頻繁發送 SIGUSR2 訊號,且今年稍早為統計合併訊號而在處理常式中新增 timergetoverrun 呼叫,導致其堆疊用量增加。團隊認為正是這項堆疊用量的變動成為關鍵轉折——在此之前完全未觀察到此類崩潰。三項因素的乘積在近期才跨過「可被實際觀察到」的門檻,這也解釋了為何硬體錯誤與 libunwind 錯誤兩者的崩潰都巧合地集中在同一方法 DocumentTree::updateDocument(該方法在拋出背壓例外時持續作用中,且故障硬體節點所屬機型也主要用於批次資料攝取)。 修復方案 團隊的即時緩解措施是將例外處理從 GNU libunwind 切換至 libgcc 的實作(額外好處是 libgcc 在降低鎖競爭上已有大量優化,有利於大型虛擬機的擴展性)。團隊也已將可重現的最小案例與修復方案回報並合併至 GNU libunwind 官方專案,並確認其他 unwinder 實作無類似問題。 核心教訓:群體層級診斷的力量 OpenAI 團隊總結,這次除錯過程中最關鍵的一步並非艱澀的組合語言分析或系統底層知識,而是建立一份高品質的完整資料集——在缺乏這份資料前,團隊誤將兩種截然不同的故障現象混為一談,難以理出頭緒;一旦取得完整且準確的群體資料,問題結構立刻變得清晰。這強化了團隊對深度監測工具、自動化調查與維運工具持續改善的投入方向。 原文:https://easyvibecoding.app/curated/2281

    4 min

About

輕鬆Vibe Coding — Anthropic 官方文章翻譯、Claude API 與 Prompt Engineering 實作心得、X 技術社群精選的中文音訊版。