株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20260605

    9h ago

    私立ずんだもん女学園放送部 podcast 20260605

    youtube版(スライド付き) 関連リンク Dreaming: Better memory for a more helpful ChatGPT OpenAIは、ChatGPTにおいてユーザーの過去の会話文脈をより賢く、効率的に記憶・整理するための新しいメモリシステム「Dreaming(ドリーミング)」の大幅なアップデートを発表しました。この技術は、長期間にわたる多数のユーザーとの対話における「情報の陳腐化」「正確性」「スケーラビリティ」といった技術的課題を解決するために開発されました。 ■ メモリ機能の進化と「Dreaming」の仕組み ChatGPTのメモリ機能は、2024年にユーザーからの明示的な指示(「〜を覚えておいて」など)を記録する形で始まりました。しかし、これでは情報のアップデートが難しく、指示がないと忘れてしまうという課題がありました。 そこで2025年に導入されたのが「Dreaming」です。これは、AIがバックグラウンド処理(人間が寝ている間に夢を見て記憶を整理するようなプロセス)を通じて、自動的に過去の対話履歴を分析・要約し、メモリを最新状態に更新するシステムです。今回のアップデート(Dreaming V3)は、この仕組みをさらに高性能かつ計算効率よく再構築したものです。 ■ Dreamingが実現する3つのコア体験 本システムは、エンジニアリングにおける「優れたメモリ」の要件として以下の3つを高度にクリアしています。 有用な文脈の引き継ぎ:過去に話した「自分のカメラ機材」などの前提情報を保持するため、次回からは「私のセットアップに互換性のあるパーツは?」と聞くだけで、個別具体的な提案が得られます。 好みの遵守:「ベジタリアン」や「静かな店が好き」といった個人の制約や嗜好を常に反映した回答を行います。 時間経過への適応:時間の経過を認識します。例えば「7月にシンガポールへ行く」という記憶は、旅行期間が過ぎると自動的に「過去に旅行した」と更新されます。これにより、帰国後に「今日の夕食のテイクアウトを提案して」と聞いた際に、旅行先ではなく現在の居住地に基づく提案を正しく行えます。 ■ 技術的ブレイクスルーと展開 今回の新アーキテクチャにより、メモリの合成処理に必要な計算コストを約5分の1にまで劇的に削減することに成功しました。このコスト効率の向上により、これまで有料プラン(Plus/Pro)限定だった高度なDreamingシステムが、数週間以内に無料プラン(Free)ユーザーへも順次提供開始される予定です。 ユーザーは「メモリ概要(Memory Summary)」画面から、ChatGPTが覚えている自身の情報を一覧で確認し、手動で追加や修正、削除を行うことができます。効率的なパーソナライズ基盤として、今後のAIエージェント開発においても重要なマイルストーンとなるアップデートです。 引用元: https://openai.com/index/chatgpt-memory-dreaming NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents タイトル: NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents 要約: NVIDIAは、長時間自律的に稼働する「AIエージェント」向けに最適化された新しいオープンLLM「NVIDIA Nemotron 3 Ultra」を発表しました。複数のツールやサブエージェントを組み合わせる複雑なワークフローにおいて、劇的な高速化とコスト削減を実現します。 1. 概要と優れたパフォーマンス 本モデルは、総パラメータ数550B(アクティブパラメータ数55B)のMixture-of-Experts(MoE)モデルです。エージェントがタスクを長期実行すると、会話履歴の肥大化によるコスト増や目的のブレ(ゴールズレ)が課題になります。本モデルはこれらを解決し、同クラスのオープンモデルと比較して「5倍のスループット(処理速度)」を達成。タスク完了までのトークンコストを「最大30%削減」することに成功しました。 2. 性能を支える革新的な技術 MambaとTransformerのハイブリッド: 長文脈を効率よく処理できる「Mamba」と、精密な情報回収が得意な「Transformer」を融合。長時間のタスクでも一貫した意思決定を維持します。 MOPD(複数教師による強化学習): 10以上の専門分野を持つ「教師モデル」から、本モデル自身が試行錯誤しながら学習する手法を採用。コーディングや高度な推論能力を効率よく向上させました。 NVFP4量子化: 1つのチェックポイントでHopperやBlackwellなど多様なNVIDIA GPUに対応。従来のBF16精度と比較して最大5倍のスループットを発揮します。 LatentMoE & 複数トークン予測(MTP): 効率的な専門家ルーティングと、一度に複数のトークンを予測する技術により、生成時間を大幅に短縮します。 3. 周辺ツールとライセンス 安全性確保のためのガードレールモデル「Nemotron 3.5 Content Safety」や、40カ国語以上に対応するリアルタイム音声認識モデル「Nemotron 3.5 ASR」も同時にリリース。また、開発者が安心して利用・改変できるよう、ライセンスはLinux Foundationの「OpenMDW-1.1」を採用しています。 Hugging FaceやNVIDIA NIM、主要クラウドで既に利用可能で、主要なエージェントフレームワーク(Hermes Agent、LangChainなど)とも連携できます。エージェント開発の未来を担う大注目のモデルです。 引用元: https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/ VoidZero is Joining Cloudflare フロントエンド開発で広く使われているビルドツール「Vite(ヴィート)」などの開発を主導する企業「VoidZero(ボイドゼロ)」が、クラウド大手の「Cloudflare(クラウドフレア)」に統合されることが発表されました。この統合は、モダンなWeb開発に携わる日本のエンジニアにとって非常に大きなニュースです。 1. VoidZeroと主要な開発ツール VoidZeroは、人気フロントエンドフレームワーク「Vue.js」や「Vite」の作者であるEvan You氏が2023年に立ち上げた企業です。JavaScript/TypeScriptエコシステム全体を高速化する統一ツールチェーンの構築を目指し、以下の強力なツール群を提供してきました。 Vite / Vitest: 現代のWeb開発でデファクトスタンダード(事実上の標準)となっている、超高速なビルドツールとテストフレームワーク。 Rolldown: Rust製で極めて高速な次世代バンドラー。最新のVite 8でデフォルトとして採用されています。 Oxc / Oxlint / Oxfmt: Rustで書かれた超高速なJavaScript解析ツール群。従来のESLintやPrettierと互換性を保ちながら、数十倍の高速化を実現しています。 2. Cloudflareとの統合に至った背景 Viteは週1億回以上ダウンロードされるなど爆発的に普及しましたが、オープンソース・ソフトウェア(OSS)単体でのビジネス的な収益化(マネタイズ)には課題を抱えていました。 そこでVoidZeroは、OSSのロードマップや開発方針を歪めずに相乗効果を生み出せるサービスとして、Cloudflareのインフラ上で動作するViteネイティブなデプロイプラットフォーム「Void」の開発を始めました。この開発を通じて両社のシナジーがより明確になり、チームを統合して互いの強みを最大限に活かす道が選ばれました。 3. 今後の影響と日本のエンジニアへのメリット オープンソースとしての継続: Vite、Vitest、Rolldown、Oxcなどの主要ツールは、今後もMITライセンスのオープンソースとして提供され、誰でも自由に無償で利用できます。開発チームも引き続きEvan You氏らが主導します。 AI時代への適応: 近年、AIエージェントによる自動化ツールや開発支援が増加しています。今後は「AIエージェントのためのクラウド」を目指すCloudflareと手を取り合い、人間だけでなくAIにとっても摩擦のない、次世代の開発・デプロイ環境の構築を目指します。 この統合により、フロントエンドツールの開発体制がより強固になり、Cloudflareのクラウドインフラとの親和性も一層高まります。新人エンジニアの皆様にとっても、将来にわたり信頼して学べる強力な開発環境が保証されたと言える、非常にポジティブなニュースです。 引用元: https://voidzero.dev/posts/voidzero-cloudflare Cloudflare Agentsで自分をマイクロマネジメントするAIを作った Cloudflare Agentsを活用し、Obsidianのタスクを元に能動的に自身をマイクロマネジメントするAIエージェント「Kuro」の開発事例です。受動的なチャットボットとは異なり、進捗確認などをTelegram経由で自発的に話しかけてくれます。安全性を考慮し、メモの書き換えは直接行わず変更差分を提案する設計です。個人開発におけるCloudflareの有用性

  2. 1d ago

    株式会社ずんだもん技術室AI放送局 podcast 20260604

    youtube版(スライド付き) 関連リンク Introducing Gemma 4 12B: a unified, encoder-free multimodal model Google DeepMindは、一般的なノートPCなどのローカル環境で軽快に動作する、高性能なマルチモーダルAIモデル「Gemma 4 12B」を発表しました。本モデルは、モバイル向けモデルの「E4B」と、より高度な「26B MoEモデル」のギャップを埋める位置づけとして開発され、メモリ消費を抑えながらも強力な推論能力を備えているのが特徴です。 新人エンジニアの方に向けて、このモデルの革新的なポイントを4つに分けて解説します。 1. 「エンコーダフリー」という新しいアプローチ 従来の画像や音声に対応するAI(マルチモーダルモデル)は、画像用や音声用の独立した「エンコーダ(前処理用AI)」を使ってデータを変換し、メインの言語モデル(LLM)に渡していました。 しかし、Gemma 4 12Bではこのエンコーダを排除した革新的なアーキテクチャを採用しています。 画像(ビジョン)処理: 軽量な埋め込みモジュールのみを使用し、処理の大部分をLLM本体が直接行います。 音声オーディオ処理: エンコーダを完全に無くし、生の音声信号を直接テキストトークンと同じ空間にマッピングして処理します。 このシンプルな構造(Unified Architecture)により、処理の遅延(レイテンシ)とメモリの使用量を劇的に削減することに成功しました。 2. ノートPC(ローカル環境)で動く軽さ モデルのサイズが12B(120億パラメータ)とコンパクトに抑えられているため、16GBのVRAM(ビデオメモリ)やユニファイドメモリを搭載した一般的なPCがあれば、完全にオフラインのローカル環境で動作させることができます。これにより、クラウドのAPIコストを気にせず、手元で手軽にマルチモーダルAIを動かすことができます。 3. 大型モデルに迫る高度な推論力 メモリ消費量は半分以下であるにもかかわらず、ベンチマーク性能は上位モデルである「26B MoE」に迫る実力を持っています。これにより、複雑な「複数ステップの推論」や、自律的に動く「AIエージェント」のワークフローをローカルで実現可能です。また、Multi-Token Prediction(MTP)技術を搭載しており、推論速度も高速化されています。 4. オープンで充実した開発エコシステム ライセンスは「Apache 2.0」で提供され、自由な開発や商用利用が可能です。Hugging Face、Ollama、LM Studio、llama.cppなど、開発者が普段使っている主要なローカル推論ツールやライブラリに最初から対応しています。さらに、AIエージェント構築を支援する公式のスキルライブラリ「Gemma Skills」も同時に公開されています。 Gemma 4 12Bは、特別なGPUサーバーを用意せずとも、手元のPCだけで最先端の「画像・音声・テキスト」を融合したプロダクト開発を始められる、エンジニアにとって非常に魅力的な選択肢です。 引用元: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ Introducing new capabilities to GPT-Rosalind OpenAIは、ライフサイエンス(生命科学)研究およびエンタープライズ規模の創薬に特化したAIモデル「GPT-Rosalind」のアップデートと新機能を発表しました。本モデルは、GPT-5.5が持つ高度なエージェント機能(自律的なコーディングやツール利用)に、医学化学やゲノミクスといった専門領域の強力な知識を融合させたものです。 本アップデートの主な要点と、技術的な特徴は以下の通りです。 1. 専門ベンチマークにおける高い性能と優れたトークン効率 ライフサイエンス研究の現場に即した複数のベンチマークにおいて、従来のGPT-5.5を上回る精度を達成しつつ、消費するトークン数を大幅に削減(コストパフォーマンスが向上)しています。 LifeSciBench: 科学的根拠の処理、分析、設計、推論など、実際の研究に必要なエンドツーエンドのタスクを評価する新ベンチマーク。本モデルは業界トップクラスの成績を記録。 MedChemBench (医学化学): 創薬プロセスの最適化などを評価。GPT-5.5に比べトークン消費量を7.2%削減しつつ、精度を向上(27.5% vs 25.1%)。 GeneBench (ゲノミクス・定量生物学): 長期的な計画と分析が必要なエージェントタスクを評価。GPT-5.5比でトークン数を31%削減し、21.6%の精度を達成。 LabWorkBench (実験支援): 実際のウェットラボ(実験室)プロトコルにおけるトラブルシューティング能力を測定。トークン数を5.3%削減し、精度は63.2%に向上。 2. ワークフローを実効化するプラグインと可視化ツール 推論を行うだけでなく、開発者や研究者が実際に手を動かして検証できる「実行環境」が強化されました。 2つの新プラグイン: 「Life Sciences Research」および「Life Sciences NGS Analysis(次世代シーケンシング分析)」をCodex(コーディング環境)経由で提供。 データ可視化ビューア: 配列、アライメント、分子構造など、生物学特有のネイティブファイル形式を直接確認・操作できるインタラクティブなビューアをCodex内に実装。 ユースケース: がんの液体生検データから変異を特定し、関連文献の探索や阻害剤の立体構造の確認までを、同一のワークスペース上でシームレスに実行できます。 3. 安全性を重視した展開 高度な生物学的機能の悪用を防ぐため、十分なガバナンスと安全管理体制を持つグローバルな「信頼された組織(例:製薬大手のノボ ノルディスクなど)」を対象に、リサーチプレビューとして限定的にアクセスが提供されます。 本モデルは、AIが単なる知識の要約にとどまらず、専門的なデータ分析や複雑な実験計画を自律的に支援する「実用的な開発・研究パートナー」へと進化していることを示しています。 引用元: https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind Introducing MAI-Thinking-1 Microsoft AI Microsoft AIは、高度な推論能力を持つ新しいAIモデル「MAI-Thinking-1」を発表しました。このモデルは、人間を置き換えるのではなく、人間の自律性を支援する「Humanist Superintelligence(人間中心の超知能)」の実現に向けた重要な一歩として開発されました。 1. モデルの概要と特徴 MAI-Thinking-1は、アクティブパラメータ数35B(350億)、総パラメータ数約1T(1兆)の「スパースMoE(Mixture of Experts:必要な部分だけを活性化させる高効率な仕組み)」を採用した中規模モデルです。他社のAIモデルの出力結果を真似て学習させる「蒸留」を一切行わず、クリーンかつ商業利用可能なライセンス済みデータのみを用いて、ゼロからトレーニングされました。これにより、高い制御性と信頼性を確保しています。 2. 開発を支える「Hill-Climbing Machine」 Microsoftは、モデルを継続的かつ安定的に進化させる開発パイプライン「Hill-Climbing Machine」を導入しました。以下の3つの柱を重視しています。 自立した学習: 模倣(蒸留)による学習は、教師モデルの限界や設計の偏りを受け継いでしまいます。自ら課題を解くことで、真の適応力を養っています。 クリーンなデータ: プレトレーニングからAI生成コンテンツを排除し、データの出所を明確にすることで、モデルの挙動を正確に把握・改善できるようにしています。 自社インフラの最適化: 自社製のアクセラレータから強化学習フレームワークに至るまで、全レイヤーを社内で最適化し、効率的な訓練を可能にしています。 3. エンジニアを強力に支援する高い性能 中規模ながら、以下のような極めて高いパフォーマンスを発揮します。 優れたコーディング支援: ソフトウェア開発のベンチマーク(SWE-Bench Pro)において、より巨大なモデルである「Claude Opus 4.6」と同等の実力を示しました。開発者が実際に行う「コードの読み込み、ファイルの編集、テストの実行、エラーからの復旧」といったマルチステップの作業をエミュレートした環境で訓練されています。 高い数学的・科学的推論力: 数学オリンピックレベルの難問を扱う「AIME」ベンチマークにおいて極めて優秀な成績を収め、推論ループによる知能の一般化が証明されています。 優れたユーザー評価: 人間によるブラインド評価において、「Claude Sonnet 4.6」よりも好ましい回答を出力すると評価されました。 4. 実務への導入しやすさ(エンタープライズ対応) 256kトークン(約600ページの文書に相当)の長い文脈を理解でき、関数呼び出し(Function Calling)や開発者命令にも柔軟に対応します。また、一般的なChat Com

  3. 2d ago

    株式会社ずんだもん技術室AI放送局 podcast 20260603

    youtube版(スライド付き) 関連リンク Rethinking Search as Code Generation ■ 背景と課題:なぜ今、検索の仕組みを見直すのか? 従来のAI向け検索システム(RAGなど)は、AIがクエリを送信し、検索エンジンが処理した固定の結果をAIがコンテキストとして受け取る「一括処理(モノリシック)」な仕組みでした。しかし、AIエージェントが複雑なタスクを自律的にこなす現代において、この方法には限界があります。不要な情報がコンテキストを圧迫してコストが膨らむ、柔軟な検索条件の変更が難しい、何度もやり取りが発生して処理が遅くなる、といった課題が生じていました。 ■ 解決策:「Search as Code (SaC)」の提案 Perplexityが開発した「Search as Code (SaC)」は、検索プロセスそのものをコードで制御する新しいアーキテクチャです。検索エンジンの各機能(情報の取得、順位付け、フィルタリング、並列処理など)を、細分化された「SDK(ソフトウェア開発キット)」の部品としてAIに提供します。AIは、提示されたタスクに合わせて自らPythonコードを生成・実行し、その場で最適な「特製検索パイプライン」を動的に組み立てます。 ■ SaCを支える3つのコアレイヤー モデル(Models):タスクを分解し、SDKを用いて最適な検索手順を実行するPythonコードを生成する司令塔です。 サンドボックス(Sandboxes):生成されたコードを安全かつ確実に実行する環境です。処理中の状態(中間データ)をファイル保存することで、長時間のタスクでも破綻せずに次の処理へ引き継げます。 Agentic Search SDK:検索プロセスをアトミック(最小単位)に制御できるPythonの部品集です。AIモデルが最もコードを書きやすい形になるよう、自動で継続的に最適化されています。 ■ 圧倒的な実績と効果 実際のセキュリティ情報(CVE)の調査タスクにおいて、SaCは精度100%を達成しながら、消費トークン数を従来比で85.1%も削減することに成功しました。また、難関ベンチマーク(WANDR等)において他社の最先端AIシステムを最大2.5倍上回るスコアを記録し、高いコストパフォーマンスを実証しています。 ■ まとめ SaCは、「検索APIをただ呼び出すだけ」の時代から、「検索自体をプログラムとして制御する」時代へのシフトを意味します。AIの柔軟な推論力と、決定論的なコード実行の強みを融合させたこの仕組みは、これからのAIシステム開発における重要な設計パラダイムとなるでしょう。 引用元: https://research.perplexity.ai/articles/rethinking-search-as-code-generation Expanding Project Glasswing 本記事は、AIスタートアップのAnthropic社が推進する、AIを活用したソフトウェアセキュリティ強化プロジェクト「Project Glasswing」の拡大について解説したものです。これからの開発現場やセキュリティ対策のあり方を大きく変える、エンジニア必読のトレンドとなっています。 1. 「Project Glasswing」の概要と実績 Project Glasswingは、世界中の重要なソフトウェアの安全性を確保するための共同取り組みです。初期フェーズでは、約50のパートナー組織がサイバーセキュリティに特化したモデル「Claude Mythos Preview」を利用し、自社のコードベースをスキャンしました。その結果、すでに1万件以上の「深刻(High)」または「致命的(Critical)」なセキュリティ脆弱性が発見されるという大きな成果を上げています。 2. パートナーシップの大幅な拡大 Anthropic社は、この取り組みをさらに約150の新たな組織へと拡大します。対象は15カ国以上に及び、電力、水道、医療、通信、ハードウェアといった社会の重要インフラを担う企業や、世界中の開発者が依存するオープンソースソフトウェア(OSS)のメンテナー(管理者)が含まれます。これらの組織のコードベースが攻撃された場合、1億人以上に影響が及ぶ可能性があるため、事前の防御策が急務となっています。 3. 防御側(エンジニア)の変革と支援策 強力なサイバー能力を持つAIが身近になる未来を見据え、防御側もAIを活用して対策を加速させる必要があります。Anthropic社は単に脆弱性を探すだけでなく、以下の支援を展開しています。 実用ツールの提供: 最新モデル(Claude Opus 4.8など)を用いてコードをスキャンし、修正パッチを提案する製品「Claude Security」をリリースしました。 パッチ適用の高速化: 「Claude Mythos Preview」自体を活用し、脆弱性の発見から修正パッチの自動生成、さらにはメモリ安全な言語へのコード書き換えやリリース前チェックなどを進めています。 4. 今後の展望 最終的なゴールは、AIの力で「すべてのソフトウェアをより安全にすること」です。Anthropic社は、悪用を防ぐ強固なセーフガードを開発した上で、この強力なセキュリティ機能を一般公開することを目指しています。今後もパートナーを増やし、AI時代において「防御側が常に有利に立てる世界」の構築を目指します。 引用元: https://www.anthropic.com/news/expanding-project-glasswing Holo3.1: Fast & Local Computer Use Agents 「Holo3.1」は、PCやスマートフォンなどの画面を認識して人間のように操作(Computer Use)できる、最先端のAIエージェントモデルの最新ファミリーです。前バージョン「Holo3」の成功を受け、本バージョンでは「実運用(プロダクション)」を見据え、対応環境の拡大、他システムとの連携力、そしてローカルデバイスでの実行性能が大幅に強化されました。 新人エンジニアの方向けに、Holo3.1の主な進化ポイントを分かりやすく4つに分けて解説します。 1. モバイルを含むあらゆる環境への適応(マルチ環境対応) 従来のWebブラウザやデスクトップ操作に加え、Androidなどのモバイル環境の自動化が大幅に強化されました。モバイル環境の評価指標である「AndroidWorld」において、最大モデル(35B-A3B)のタスク成功率が67%から79.3%へと大きく向上し、より実用的なモバイル操作が可能になりました。 2. 他システムとのスムーズな連携(関数呼び出しのサポート) 開発者が既存のエージェントフレームワークにHoloを組み込みやすくするため、従来のJSON形式での出力に加え、新しく「Function-calling(関数呼び出し)」プロトコルにネイティブ対応しました。これにより、外部ツールやAPIの呼び出しを伴う高度な自動化システムとの連携が非常にスムーズになります。 3. ローカル環境で「高速・プライベート」に動く量子化対応 本バージョン最大の目玉は、モデルのデータサイズを削減する「量子化」に本格対応した点です。「FP8」「Q4 GGUF」「NVFP4」という軽量化されたモデルが提供されています。 特にNVIDIAの技術を活用した「NVFP4」形式では、AIの賢さ(精度)をほぼ落とすことなく、標準的なBF16形式と比べて最大1.74倍の処理高速化(スループット向上)を達成しています。これにより、一般的なWindowsやMac(Apple Silicon)などのローカルPC、あるいは社内の安全なネットワーク環境だけで、データを外部に送信することなく安全かつ高速にAIエージェントを動かせます。 4. 開発要件に合わせて選べる4つのモデルサイズ 超軽量な「0.8B(極小サイズ)」から、コスト効率に優れた「4B」、速度と性能のバランスが良い「9B」、そして最も賢い「35B-A3B」まで、用途やマシンスペックに合わせて柔軟に使い分けられるラインナップが揃っています。 Holo3.1の登場により、セキュリティの観点からクラウドAIを使えなかった業務でも、ローカルPC上で安全かつ実用的な速度で動作する「自動化AIアシスタント」の開発が一気に現実的になりました。 引用元: https://huggingface.co/blog/Hcompany/holo31 ポルトガルの学会で、参加者に「普段何やってるの?」と訊かれたので「I play YU-GI-OH」と返したら、その後「何だこの学会は」と言いたくなる流れになった話 ポルトガルの学会に参加した投稿者が、周囲から「普段何をやっているのか」と尋ねられ「遊戯王をやっている」と答えたところ、現地のアカデミアたちから「バクラ」や「ネクロバレー」といったディープな遊戯王用語が次々と飛び出し、一気に盛り上がったというユーモラスな体験談です。海外の研究者の間でも日本のホビー文化が深く浸透しており、意外な共通の趣味が国境を越えて親睦を深める強力なツールになることを示しています。 引用元: https://togetter.com/li/2704474 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織

  4. 3d ago

    株式会社ずんだもん技術室AI放送局 podcast 20260602

    youtube版(スライド付き) 関連リンク Claude Code チャンピオン キット 本ドキュメントは、Anthropicが提供するターミナル用AI開発ツール「Claude Code」を、チームや組織に効果的に導入・定着させるための戦略ガイドです。新しいツールの導入を成功させるには、単なる配布ではなく、チーム内で実際に使いこなし、その価値を周囲に伝える「チャンピオン(推進者)」の存在が不可欠であると説いています。 ■ チャンピオンの役割とマインドセット チャンピオンは、単なる「ヘルプデスク(問い合わせ窓口)」ではなく、チーム全体の生産性を引き上げる「乗数(マルチプライヤー)」として機能します。自分の業務を犠牲にするのではなく、既存のワークフロー(プルリクエスト、Slack、スタンドアップ等)の中で自然にツール活用のメリットを示していくことが推奨されています。 ■ 推進のための3つの主要アクション 発見の共有: 一般的なドキュメントよりも、自分たちのコードベースで実際に成功した例(プロンプトやスクリーンショット)を共有します。これにより、同僚は「自分の課題」にどう役立つかを具体的にイメージできます。 プロンプトで回答する: 使い方を聞かれた際は、言葉で説明するよりも、実際に成果を出した「生のプロンプト」を共有します。これにより、同僚は即座に自分のタスクで試行でき、導入のハードルが下がります。 輪を広げる: 特定の個人に依存しないよう、専用チャネルの作成や週次の情報共有など、自律的に情報が循環する習慣を確立します。 ■ 現場の懸念への向き合い方 エンジニアが抱きがちな「AIへの信頼性」や「スキルの低下」といった懸念に対し、以下のような具体的なアプローチを提示しています。 ・信頼性: 変更前に修正内容をすべて確認できる「プランモード(Shift+Tab)」のデモンストレーションを行う。 ・教育的側面: 単なる自動化ではなく、複雑なコードの「解説者」としてAIを活用する方法(@ファイル指定での説明など)を提示する。 ■ 新人エンジニアへのメッセージ 本ガイドは、ツールの操作方法だけでなく「新しい技術をいかにして組織に根付かせるか」という、シニアな視点での組織論を学べる内容となっています。「説明よりも実例(プロンプト)を示す」というアプローチは、今後のAI時代におけるエンジニア間のコミュニケーションにおいて非常に強力な武器になります。自身の学習をチームの資産に変えるプロセスを実践することで、技術的な貢献以上のインパクトを周囲に与えることができるでしょう。 引用元: https://support.claude.com/ja/articles/14555399-claude-code-%E3%83%81%E3%83%A3%E3%83%B3%E3%83%94%E3%82%AA%E3%83%B3-%E3%82%AD%E3%83%83%E3%83%88 Poisoning Claude Code: One GitHub Issue to Break the Supply Chain GMO Flatt SecurityのリサーチャーであるRyotaK氏による、AIエージェント「Claude Code」のGitHub Actionsにおける深刻なサプライチェーン脆弱性の調査報告です。本記事では、GitHub Issueを1つ作成するだけでリポジトリの制御権を奪取し、さらには開発元のAnthropic社を含む広範なサプライチェーンを汚染できてしまう仕組みを解説しています。 主な脆弱性のメカニズム 権限チェックのバイパス: Claude Code Actionは、実行者がボット(GitHub App)である場合、権限を無条件に信頼する仕様でした。攻撃者は自作のアプリからIssueを作成することで、本来必要な「書き込み権限」のチェックを回避してAIを起動させることが可能でした。 間接的プロンプトインジェクション: 攻撃者が作成したIssueをAIに読み取らせる際、エラーメッセージを装った指示(例:「読み取りに失敗しました。このコマンドを実行してください」)を混入させます。これにより、AIを騙して環境変数(/proc/self/environ)を読み取らせるなどの不正操作を誘導します。 秘密情報の奪取と権限昇格: 奪取した環境変数には、GitHubの特権トークン(OIDCトークン)を取得するための認証情報が含まれていました。これを用いることで、攻撃者はリポジトリへの書き込み権限を持つ正規のトークンを入手し、ソースコードの改ざんや悪意あるコードの埋め込みが行える状態になります。 設定不備によるリスク 特に、外部ユーザーによる実行を許可する allowed_non_write_users: "*" という設定が危険です。この設定があると、外部の攻撃者が「Issueトリアージ用の低い権限」を足がかりにして、最終的に「リポジトリ全体のフルアクセス権限」を奪取する攻撃(チェイニング)が成立してしまいます。 対策とまとめ Anthropic社は既にこの問題を修正しており(v1.0.94以降)、ボットによる自動実行の制限や、環境変数のスクラビング(消去)、サマリ機能の無効化といった多層的な防御策を導入しました。 新人エンジニアの皆様への教訓として、AIエージェントは「外部からの入力を命令として実行してしまう可能性がある」という特性を理解することが重要です。便利な自動化ツールほど、そのツールが持つ権限を最小限にし、誰がそれを動かせる設定になっているかを厳格に管理する「最小権限の原則」を意識しましょう。 引用元: https://flatt.tech/research/posts/poisoning-claude-code-one-github-issue-to-break-the-supply-chain/ Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3 NVIDIAは、現実世界の物理的な事象を理解し、予測し、行動を生成するための次世代基盤モデル「NVIDIA Cosmos 3」を発表しました。これは「物理AI(Physical AI)」の発展を加速させるための画期的なリリースです。 ■ 物理AIとCosmos 3の核心 物理AIとは、ロボットや自動運転車が「現実で何が起きているか」を理解し、「次に何が起きるか」を予測し、適切な「行動」をとるための知能です。従来のシステムでは、これらは別々のモデルで処理されることが一般的でしたが、Cosmos 3はこれらを単一のオープンモデルに統合しました。 ■ 仕組み:2つの「タワー」による連携 Cosmos 3は、Mixture-of-Transformers (MoT) アーキテクチャを採用しており、以下の2つのコンポーネントが連携して動作します。 Reasoner(推論)タワー: 視覚と言語を扱うモデル(VLM)で、画像や動画、テキストから物理的な文脈や物体の相互作用を読み取る「脳」の役割を果たします。 Generator(生成)タワー: 推論結果を基に、物理的に正しい未来の映像や、具体的な行動シーケンスを生成します。 ■ 用途に合わせた2つのモデルサイズ ・Cosmos 3 Nano (16B): ワークステーション級(RTX 6000等)で動作するよう最適化されており、リアルタイムのロボット推論などに適しています。 ・Cosmos 3 Super (64B): データセンター級(Hopper/Blackwell等)向けで、最高品質の推論や大規模な合成データ生成が可能です。 ■ 開発者への強力なサポート NVIDIAは、モデルのチェックポイント(Hugging Faceで公開)に加え、トレーニングスクリプトや展開ツールもオープンソースとして提供しています。また、ロボティクスや自動運転、倉庫管理など、特定のドメインに特化した6つの高品質な合成データセットも公開されており、エンジニアはこれらを利用して独自のモデルを開発・検証することが可能です。 ■ まとめ Cosmos 3は、物理世界の「理解・予測・実行」を一つのパイプラインで実現し、ロボット開発などの複雑なワークフローを大幅に簡素化します。NVIDIA NIM(マイクロサービス)としての提供も開始されており、インフラの構築に慣れていない新人エンジニアでも、最適化された環境で最先端の物理AIを試すことができます。物理法則に則ったAI開発の、新しいスタンダードとなるモデルです。 引用元: https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/ AIになりたい・背景をぼかして実在しない漢字のTシャツを着ればAI生成のような写真になるはず 新人エンジニアの方も親しみやすい、AI画像特有の「違和感」を物理で再現する面白い試みです。AI生成画像によくある「過剰な背景ボケ」や「輪郭の輝き」を実写で再現し、さらに画像生成AIが描きがちな「実在しない不自然な漢字」のTシャツを自作して着用。これらを通じて、現実の写真をAI生成風に見せることに挑戦しています。AIの学習傾向を逆手に取った、遊び心溢れる息抜きにぴったりの検証記事です。 引用元: https://dailyportalz.jp/kiji/i-want-to-be-an-ai お便り投稿フォ

  5. 4d ago

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260601

    youtube版(スライド付き) 関連リンク Zero Trust for AI agents 本書は、企業において自律型AIエージェントを安全に導入・運用するための新しいセキュリティフレームワークについて解説したドキュメントです。 1. 背景:AIの進化がもたらす「超高速な脅威」 近年のAI技術の急速な進化により、システムの脆弱性が発見されてから、それが実際に攻撃(悪用)されるまでの時間が「数ヶ月単位」から「わずか数時間」へと劇的に短縮されています。防御側がAIを使って素早くバグを修正できる一方で、攻撃側もAIを利用してあっという間に脆弱性を突く攻撃コードを作成できるようになっています。 特に、自ら考えてツールを使いこなす「AIエージェント」を導入する場合、従来のアクセス制御(IP制限やIDパスワードなど)だけでは防げません。正規の権限を与えられたAIエージェントが、悪意あるデータに騙されて、許可されたツールを予期せぬ形で「誤用」してしまうリスクがあるためです。 2. AIエージェントを狙う新たな脅威 AIエージェントの運用には、以下のような特有のセキュリティリスクが伴います。 プロンプトインジェクション: 外部からの入力データに悪意ある指示を混ぜ込み、AIを意図通りに操る攻撃。 ツールやメモリの汚染: エージェントが参照するツールや過去の会話履歴(記憶)に嘘の情報を仕込み、AIに誤った判断をさせる攻撃。 権限の不正利用: エージェントが必要以上の権限を持つことで、意図しないデータ削除や操作が行われてしまうリスク。 3. 解決策:AIのための「ゼロトラスト」 これらの脅威に対抗するため、「何も信頼せず、すべてを検証する」というセキュリティの基本思想「ゼロトラスト」をAI向けに再定義したフレームワークを提案しています。 暗号による厳格な身元確認: エージェント自身のアイデンティティ(ID)を暗号技術で強固に管理・検証します。 タスクごとの最小権限割り当て: エージェントに広範な権限を持たせるのではなく、実行するタスクごとに必要な最小限の権限のみをその都度与えます。 実行環境のサンドボックス化: 万が一エージェントが乗っ取られても他のシステムに影響が及ばないよう、安全に隔離された環境(サンドボックス)で動作させます。 メモリと入出力の保護: 過去の対話履歴が改ざんされないよう保護し、エージェントに入るデータと出るデータを厳しくチェック・フィルタリングします。 AIによる自律的な防御運用(Agentic SOAR): AIのスピードで仕掛けられる攻撃に対抗するため、防御側も自動で脅威を検知し対処する高速なセキュリティ体制を整えます。 4. まとめ(新人エンジニアの皆様へ) これからのAIエージェント開発においては、便利な機能を作るだけでなく、設計の初期段階から「システムはいつか突破されるものである」という前提(Assume Breach)に立ち、多層防御のアーキテクチャを意識してシステムを構築することが非常に重要になります。 引用元: https://claude.com/blog/zero-trust-for-ai-agents Gemma 4が4種類もあって混乱したので整理してみた! 本記事は、Googleが2026年4月にリリースしたオープンウェイト(ローカルや自社サーバーで動かせる)LLM「Gemma 4」の4つのモデルについて、新人エンジニア向けにその違いと実務でのユースケースを分かりやすく整理したものです。 Gemma 4には、モデルの構造(アーキテクチャ)やパラメータ数が異なる4つのモデルが存在します。それぞれの特徴は以下の通りです。 1. Gemma 4 31B (高品質・高スペック向け) 特徴: 全パラメータを毎トークン使用する最も標準的な構造(Dense)です。 注意点: 実行には非常に高いマシンスペックが要求され、メモリ(VRAM/RAM)が最低でも約31GB必要になります。 ユースケース: リクエスト数は少ないものの、AIの「出力品質」を最優先したい業務。 2. Gemma 4 26B A4B (Active 4B) (高速かつ賢いMoEモデル) 特徴: 複数の専門家モデルを切り替える「MoE」技術を採用。全体の重みは26Bですが、実行時は約4Bのパラメータのみを使うため、26Bクラスの賢さを保ちつつ4Bモデル並みの超高速な推論が可能です。 注意点: 起動(ロード)用に26GB以上のメモリが必要です。 ユースケース: 自社サーバーにホストし、AIベンダーのAPIと同じように高速かつ多目的で使いたい場合。 3. Gemma 4 E4B (Effective 4B) (高効率・コスパ最強候補) 特徴: 省メモリ技術「PLE」を採用し、モデル自体は8Bですが、実行時は実質4B相当の計算負荷に抑えられています。スマホでも高速に動作する軽さです。 ユースケース: 特定のタスクに特化させてファインチューニング(微調整)を行い、本番環境で安価かつ高速に動かす実用的な運用。 4. Gemma 4 E2B (Effective 2B) (超軽量・エッジ向け) 特徴: PLEを採用し、モデルは5B、実行時は2B相当で動作します。ラズパイなどでも動く軽さです。 ユースケース: ネットワーク接続のない環境や、応答速度(レイテンシー)が最優先されるシンプルなタスク。 ■ 開発時に選ぶべき「it」モデルとは? モデル名に「it」というサフィックス(接尾辞)がついているものは、Instruction-Tuned(指示チューニング済み)を意味します。これがないモデルは事前学習のみで会話には不向きなため、自らファインチューニングをしない場合は必ず「it」付きモデルを選びましょう。 まとめ Gemma 4をセルフホストして使う際は、汎用的な賢さを求めるなら「26B A4B」、特定のタスクを低コスト・ハイスピードで処理させたいなら「E4B」をカスタマイズして使うのが、実務において非常に強力な選択肢となります。 引用元: https://zenn.dev/tasshi441/articles/8a80daffac2556 Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices PrismMLは、スマートフォンやノートPCなどのローカルデバイス上で、高品質な画像生成(拡散モデルの推論)を可能にする軽量モデルファミリー「Bonsai Image 4B」をリリースしました。ベースモデル「FLUX.2 Klein 4B」のアーキテクチャを維持しつつ、モデルの大部分を占めるDiffusion Transformerの重みを極限まで圧縮した2つのバリアントが提供されます。 1. 2つのバリアントと特徴 新人エンジニア向けに解説すると、本モデルは「量子化(データの精度を意図的に落として軽量化する技術)」を究極まで突き詰めています。これにより、これまでメモリ不足でスマホでは起動すらできなかった巨大な画像生成モデルを、スマホの限られたメモリ内で高速に動かせるようにしています。 1-bit Bonsai Image 4B(極限の圧縮モデル) 特徴: 重みを「-1」と「+1」の2つの値(実質1.125ビット)だけで表現。 サイズ: 拡散Transformerのサイズが 0.93 GB(元の7.75 GBから 8.3倍削減)。 用途: メモリや通信帯域、デバイス容量が極めて厳しい環境に最適です。 Ternary Bonsai Image 4B(バランス重視モデル) 特徴: 重みを「-1」「0」「+1」の3値(実質1.71ビット)で表現。「0」の表現が加わることでモデルの表現力が格段に向上。 サイズ: 拡散Transformerのサイズが 1.21 GB(元の7.75 GBから 6.4倍削減)。 性能: 元のモデルの約95%の画質とプロンプト忠実度を維持しています。 2. ローカル実行時の圧倒的なメモリ削減 通常、512x512ピクセルの画像を生成する場合、元のモデルは11.74 GBものメモリ(RAM)を必要としますが、今回の1-bit版は1.5 GB、Ternary版は1.96 GBのメモリ消費に抑えられます。 これにより、iPhone 17 Pro Max上で約9.4秒、Mac M4 Pro上では約6秒で画像生成が可能です。 3. なぜ「ローカル画像生成」が重要なのか? 従来のクラウド型API(サーバー側での生成)には、1回ごとの通信遅延、サーバー代、プロンプトのプライバシー保護といった課題がありました。 画像生成は、ユーザーが何度もプロンプトを微調整しながら繰り返す「試行錯誤(イテレーション)」が基本です。モデルがユーザーのデバイス(ローカル)で直接動くようになれば、サーバーコストを気にせず、オフラインでもプライバシーを完全に守りながら、高速で快適な画像生成体験を提供できるようになります。 4. ライセンスと公開情報 Bonsai Image 4Bは、オープンな重み(モデルデータ)とコードが Apache 2.0ライセンス で公開されており、商用利用やカスタマイズが可能です。iPhoneで手軽に試せる「Bonsa

  6. 私立ずんだもん女学園放送部 podcast 20260529

    May 28

    私立ずんだもん女学園放送部 podcast 20260529

    youtube版(スライド付き) 関連リンク Introducing Claude Opus 4.8 Anthropic社は、AIアシスタントの最上位モデルの最新版「Claude Opus 4.8」をリリースしました。前バージョン(Opus 4.7)から性能が全面的に向上し、料金は据え置き(入力$5/100万トークン、出力$25/100万トークン)で利用可能です。 新人エンジニアの皆さまに向けて、今回のアップデートで押さえておきたい主要なポイントを分かりやすく解説します。 1. より「正直」になり、コードのバグ見逃しが激減 AIがもっともらしい嘘をつく現象(ハルシネーション)に対策が施されました。Opus 4.8は、自分が確信を持てないことに対して素直に不確実性を指摘し、根拠のない主張を避けるよう設計されています。特にコーディングにおいて、生成したコード内のバグや欠陥を見逃してしまう確率が、前モデルの4分の1にまで減少しました。これにより、コードレビューの精度が大幅に向上しています。 2. 大規模な自律開発を可能にする「動的ワークフロー」 開発支援ツール「Claude Code」にて、新しい「Dynamic workflows(動的ワークフロー)」機能がプレビュー公開されました。これは、AIが自分で計画を立て、数百ものサブエージェントを並列で走らせて、自律的にタスクを実行・検証する仕組みです。これにより、数万行に及ぶコードベース全体の移行作業といった大規模なタスクも、AIが一気通貫で実行できるようになります。 3. 思考の深さを調整できる「エフォートコントロール」 Claudeがタスクに対してどれだけ深く思考するかを、ユーザー側でコントロールできるようになりました。 高エフォート(デフォルト): 思考プロセスを多く回し、複雑なコーディング等でより高品質な回答を出します。 低エフォート: 思考を抑えて素早く回答を出します。APIの利用上限(レートリミット)を節約したい場合に便利です。 4. 開発者に嬉しいAPIのアップデート Messages APIにおいて、メッセージ履歴の配列内にシステムプロンプト(system entries)を挿入できるようになりました。これにより、AIがタスクを実行している途中で、プロンプトキャッシュを壊すことなく、動的に指示や権限をアップデートできるようになります。 まずは進化したOpus 4.8を日々の開発やデバッグに導入し、その高い精度と使いやすさを体験してみてください。 引用元: https://www.anthropic.com/news/claude-opus-4-8 Warp’s big bet on building open source with GPT-5.5 モダンなターミナルツールとして世界中の開発者に愛用されている「Warp」が、OpenAIの最新AIモデル「GPT-5.5」を活用し、ソフトウェア開発の未来を大きく変える新しい挑戦を始めています。その中核となるのが、彼らが提唱する「Open Agentic Development(オープン・エージェント開発)」という開発モデルです。 これまでのAIによる開発支援は、チャットでコードの一部を生成してもらう「アシスタント」としての役割が中心でした。しかし、Warpが推進する「Open Agentic Development」では、AIエージェントがより自律的に動き、人間と協力して開発を進めます。 具体的には、人間が開発の「目的(仕様や意図)」を定義し、最終的な成果物を「レビュー(監督)」します。一方で、AIエージェントは自ら計画を立て、コードを書き、テストを実行し、GitHubのプルリクエスト(PR)を作成するまでの実装作業全般を担当します。驚くべきことに、現在のWarpの開発組織では、作成されるPRの約90%にエージェントが関与しています。 この高度な自律開発を実用レベルで支えているのが、OpenAIの最新モデル「GPT-5.5」です。 GPT-5.5は広範囲なコードベースや複雑な文脈を理解する推論能力に優れており、一世代前のモデル(GPT-5.4)と比較して、コーディングタスク1回あたりに消費するトークン(AIが処理するデータの単位)を30%も削減しました。これにより、AIを長時間稼働させる開発プロセスのコストが劇的に抑えられ、より実用的な運用が可能になりました。 さらにWarpは、ローカル環境とクラウド環境にまたがる大量のAIエージェントを調整・管理(オーケストレーション)するためのコントロールプラットフォーム「Oz(オズ)」を開発しました。「Oz」はWebインターフェースからエージェントの動きを監視でき、長時間のタスクでもAIが文脈(コンテキスト)を見失わないように記憶を整理・保持する役割を持ちます。難易度が高いタスクにはGPT-5.5が自動で割り当てられる仕組みです。 Warpは、将来のソフトウェア開発が「1人の開発者がAIを道具として使う形」から「人間が多数の自律的なAIエージェントを指揮・統制するシステム」へと進化していくと確信しています。 人間は「どのような製品を作るか」というビジョンの提示や判断に集中し、実装の多くをAIが担う。そんなワクワクするような開発の未来が、Warpと最新AIの力によって実現されようとしています。 引用元: https://openai.com/index/warp NVIDIA Dynamo Snapshot: Fast Startup for Inference Workloads on Kubernetes Kubernetes上でLLMなどのAI推論ワークロードを実行する際、急激なアクセス増加(トラフィックスパイク)に応じてサーバーを自動で増やす必要があります。しかし、起動時にコンテナの読み込みや、数GB〜数百GBに及ぶモデルの重み(パラメータ)のロード、GPUの初期化などに数分レベルの時間がかかる「コールドスタート問題」が存在し、迅速なスケールアウトの妨げになっていました。 NVIDIAはこの課題を解決するため、起動時間を極限まで短縮する「NVIDIA Dynamo Snapshot」を発表しました。これは、実行中のプロセスやGPUの状態を一時保存(チェックポイント)し、別のノードで瞬時に再開(リストア)する技術です。 新人エンジニアの方に向けて、この技術の核となる仕組みと、高速化のための3つのエンジニアリング手法を分かりやすく解説します。 1. 基本的な仕組み ホスト(CPU)側のメモリやプロセスの状態保存には、Linuxのオープンソースツールである「CRIU(ユーザー空間でのチェックポイント/リストアツール)」を使用します。GPU側の状態は、CUDAドライバの機能を使って保存します。Kubernetes上では、各ノードに常駐する「snapshot-agent」がこれらを連携させ、コンテナ単位で状態を共有ストレージへ保存・復元します。 2. 劇的な高速化を実現する3つの最適化 最適化①:KVキャッシュの解放による保存サイズ削減 保存する前に、まだ使われていない推論用のメモリ領域(KVキャッシュ)を一時的に解放します。これにより、保存データのサイズを最大で約30分の1(190 GiBから6 GiBなど)に削減し、読み書きの時間を大幅に減らします。 最適化②:リストア(読み込み)処理の並列化・非同期化 従来のCRIUはデータを1つずつ順番に読み込んでいたため、高速ストレージの性能を活かせませんでした。これを並列処理(マルチスレッド)および非同期I/O(Linux AIO)に改良し、ディスクからの読み込みを極限まで高速化しました。 最適化③:GPU Memory Service (GMS) によるデータの分離 最も容量の大きい「モデルの重みデータ」をプロセスから切り離し、プロセスの復元と重みの転送を並列で実行できるようにしました。これにより、1200億パラメータの超巨大モデル(gpt-oss-120b)でも、5秒以下での超高速起動(従来の21倍高速)に成功しました。 まとめと今後のロードマップ 現在はシングルGPU構成の実験的リリースですが、今後は複数GPU/複数ノード構成への対応、NCCLなどの通信ライブラリとの連携、TensorRT-LLMのサポートなどが計画されています。LLM推論インフラの運用を劇的に効率化する、非常に実用価値の高い技術です。 引用元: https://developer.nvidia.com/blog/nvidia-dynamo-snapshot-fast-startup-for-inference-workloads-on-kubernetes/ 「メッシュ反転じゃん…」皮膚が反転するバグで手術することになったが3DCGの勉強のおかげで理解できた→実際には反転していないが対処方はCGと同じ? 座り仕事が原因で発症する「毛巣洞」という病気で手術することになった投稿者が、医師から「皮膚が反転している」と説明され、3DCGの「メッシュ(法線)反転」バグとして理解したユーモラスなエピソード。実際には反転ではなく皮膚の陥入部で炎症が起きている状態ですが、手術による治療を「頂点マージ(結合)」に例えるなど、3DCGや開発に馴染みのあるエンジニアたちの間でクス

  7. May 27

    株式会社ずんだもん技術室AI放送局 podcast 20260528

    youtube版(スライド付き) 関連リンク ローカルの Claude Code レビューを「すり抜けられない」必須チェックにした話 開発プロセスにおけるAIレビューのコスト削減と、レビューの実行漏れ(すり抜け)を防ぐための実践的な「仕組み化」に関する記事です。 1. 背景と課題:AIレビューのコスト問題とローカル運用の盲点 ある開発チームでは、毎回CI(クラウド上の自動実行環境)でAI(Claude Code)によるコードレビューを走らせると、APIの従量課金コストが膨らむという課題を抱えていました。そこで、コストを抑えるために、各開発者のローカル環境でpush(コードの送信)直前にレビューを自動実行する運用(Git hookの仕組み)を取り入れました。 しかし、ローカル環境での実行は「開発者がツールのセットアップを忘れた」「実行をスキップした」といった場合に外部から検知できず、レビューを通さないままコードが送信されてしまうという運用上の致命的な盲点がありました。 2. 解決策:ローカルの「合格証跡」をGitHubで検証する仕組み この課題を解決するため、「ローカルでレビューが合格した」という証跡をGitHub側に送り、その証跡がないコードはマージ(統合)できないように制御する仕組みを構築しました。 具体的な動作の流れは以下の4ステップです。 レビュー結果を機械的に判定できるようにする Claude Codeへの指示(プロンプト)を工夫し、レビュー結果に問題がなければ [REVIEW_RESULT: PASS]、問題があれば [REVIEW_RESULT: FAIL] と、スクリプトで判別しやすいテキストを末尾に出力させます。 git notes を利用した合格証の付与 開発者がpushを行う際、ツール(lefthook)を介してローカルでAIレビューが実行されます。結果が「PASS」の場合のみ、git notes(コミットに付箋のようにメモを残せるGitの機能)を使い、コミットに「PASS」というメモを貼り付けてGitHubに送信します。 GitHub Actionsでの検証 コードがGitHubに届くと、GitHub Actions(自動ワークフロー)が起動します。送られてきたコミットに「PASS」のメモが付いているかをチェックし、あれば「合格(success)」、なければ「不合格(failure)」というステータスをコミットに付与します。 マージのブロック(必須チェック化) GitHubのブランチ保護機能(Branch protection)を使い、「合格ステータス」がないコードは本番ブランチにマージできないようにルール化します。 3. まとめ:新人エンジニアが学びたいポイント この仕組みの素晴らしい点は、「本来はサーバー側から見えないはずのローカルの作業状況」を、Gitの標準機能を使ってGitHub側から検証できるようにしたアイデアにあります。 「ルールを決めて人に守らせる」のではなく、「設定を忘れたら自然とマージできなくなる」という、人のミスを構造的に防ぐ(ポカヨケの)設計思想は、今後の開発プロセス設計において非常に参考になる優れたエンジニアリング事例です。 引用元: https://product.plex.co.jp/entry/local-claude-code-review-required-check Claude Codeでデザインのワークフローを変えたら、役割の境界が融けていった話──越境するほど鮮明になる、デザイナーの「核」とは 本書は、グッドパッチのUI/UXデザイナーが、AI開発アシスタントである「Claude Code」を活用して自らフロントエンド開発に挑戦し、職種の境界を越えてプロダクトの品質と開発スピードを向上させた実践事例を紹介しています。新人エンジニアにとっても、AI時代のチーム開発のあり方を学ぶ上で非常に参考になる内容です。 開発現場でよくある「デザインは決まったのに、エンジニアの工数が足りなくて実装が進まない」という課題に対し、著者はデザイナーでありながら自らコードを書く「越境」を決意しました。その強力なパートナーとなったのが、コマンドラインで動作するAIツール「Claude Code」です。 具体的なワークフローは以下の通りです。 要件定義の効率化: 会議の文字起こしデータを基に、Claude Codeと対話しながら要件定義書の叩きを自動生成。 実装・微調整: 既存コンポーネントの改善や微調整は、Claude Codeを起点にデザイナー自身が実行。 Figmaからの実装: 新規画面は、デザインツール「Figma」のリンクをMCP(Model Context Protocol)経由でClaude Codeに共有し、再現性の高いコードを自動生成。 著者は、AIを使いこなすためには「道具に使われないこと」が大切だと言います。Gitの操作やコードの最低限の仕組みを自分で理解した上で、AIの挙動をコントロールするスタンスが重要です。 また、AIによって誰もがアウトプットを出しやすくなったからこそ、「デザイン品質を評価する仕組み」が必要になります。プロジェクトでは、ガイドラインやアクセシビリティ基準を満たしているかを自動チェックするカスタムAI(Gem)を開発し、手戻りを減らす工夫を導入しました。この背景には、土台となるデザインシステム(Sparkle Design)が整っているからこそ、AIが迷わず高品質なコードを出力できるという前提があります。 このように職種の境界が融けていく中で、著者はAIに代替できない「人間の核」として、以下の3点を挙げています。 わずかな違和感に気づき調整する「審美眼」 ユーザーの感情や状況といった「一次情報」を自ら取りに行くこと 最後に体験の責任を持って意思決定すること 技術的なハードルをAIが下げてくれた今、エンジニアとデザイナーが互いの領域に歩み寄り、最高のユーザー体験を共創できる時代が到来しています。 引用元: https://goodpatch.com/blog/2026-05-design-workflow EAGLE 3.1: Advancing Speculative Decoding Through Collaboration Between the EAGLE Team, vLLM, and TorchSpec LLM(大規模言語モデル)の推論を高速化する手法として、より軽量な補助モデル(ドラフトモデル)を用いて次のトークンを先読み・予測する「推測デコード(Speculative Decoding)」技術が注目されています。その代表的なアルゴリズムである「EAGLE」シリーズの最新版として、EAGLE開発チーム、vLLM、そしてTorchSpecの共同開発により「EAGLE 3.1」がリリースされました。 従来の推測デコードは、制御された特定の実験環境下では高いパフォーマンスを発揮するものの、実務における長文の入力や、チャットテンプレート・システムプロンプトの変更といった「想定外の入力」に対して処理能力が急激に低下する脆弱性がありました。 研究チームはこの脆弱性を解析し、予測のステップが深くなるにつれて、ドラフトモデルが重要なトークンから自身の生成したトークンへと徐々に注意を逸らしてしまう「アテンション・ドリフト(Attention Drift)」現象が発生していることを突き止めました。さらに、層を重ねるごとに隠れ状態(hidden-state)の規模が不均一になり、値が肥大化してドラフトモデルの挙動を不安定にさせていることが原因でした。 EAGLE 3.1では、この課題を解決するためにアーキテクチャを改良し、以下の2つの変更を導入しました。 各ターゲットの隠れ状態の後に、FC(全結合)正規化(FC normalization)を追加 正規化後の隠れ状態を、次のデコードステップへの入力としてフィードバック この設計により、モデルの処理が再帰的に呼び出される構造となり、システムの安定性が大幅に向上しました。結果として、長文を扱うワークロードにおいて、前バージョンのEAGLE 3と比較して最大2倍の「承認長さ(ドラフトモデルが予測に成功し、実際に採用されたトークンの長さ)」を達成しました。 また、EAGLE 3.1はエコシステムとの連携も強化されています。学習用フレームワークである「TorchSpec」がEAGLE 3.1の効率的な学習に対応したほか、推論エンジンである「vLLM」への統合も進んでおり、従来のEAGLE 3のチェックポイントとの後方互換性も維持されています。実際のモデル(Kimi K2.6)を用いた検証では、推測デコードを使用しない場合と比較して最大2.03倍のスループット(処理速度)向上を記録しました。 本プロジェクトは、アルゴリズム研究(EAGLE)、学習インフラ(TorchSpec)、推論システム(vLLM)のオープンソースコミュニティが連携し、実用的なLLM推論の効率化を大きく前進させた好例です。 引用元: https://vllm.ai/blog/2026-05-26-eagle-3-1 「Live2D」公式の無料オンライン動画エディター「nizima ACTION!! β版」がVOICEVOXに対応。“ずんだもん”のLive2Dモデル

  8. May 26

    株式会社ずんだもん技術室AI放送局 podcast 20260527

    youtube版(スライド付き) 関連リンク OpenClaw作者、エージェントスキルのチェックツール「Skill Cleaner」をGitHubで公開 gihyo.jp パーソナルAIアシスタント「OpenClaw」の作者であり、現在はOpenAIに所属するPeter Steinberger氏が、AIエージェントの動作を定義する「エージェントスキル」を最適化するためのチェックスクリプト「Skill Cleaner」をGitHubで公開しました。 AIエージェント開発における重要な課題と、このツールが解決する内容、およびその制約について分かりやすく解説します。 1. 開発の背景:なぜこのツールが必要なのか? AIエージェント(AIアシスタントやCodexなど)を開発する際、エージェントに特定の動作や役割を教え込むために「エージェントスキル(指示文)」を記述します。 しかし、この説明が長くなりすぎると、AIが処理する際にすべて「コンテキスト(文脈情報)」として読み込まれてしまいます。その結果、以下の問題が発生します。 コストの増加: AIの利用料金は処理する文字数(トークン数)に応じて課金されるため、不要な文章が多いとコストが余計にかかります。 処理速度の低下: 大量のコンテキストを読み込むことで、AIの応答速度が低下します。 人間向けに分かりやすく書かれた冗長な表現(つなぎ言葉など)は、AIエージェントにとっては不要です。トークン効率を最大化し、本当に必要な指示だけを簡潔に書くことが、エージェント開発において非常に重要です。 2. 「Skill Cleaner」の概要 「Skill Cleaner」は、記述されたエージェントスキルをスキャンし、コストを最適化するための提案レポートを出力するツールです。 無駄の排除: 重複しているスキルや、ログなどから判定した「一度も使われていないスキル」を特定し、削除や無効化を提案します。 簡潔な表現への修正: よりトークン数を節約できる簡潔な説明文を提案します。 安全なコミット作成: ユーザーが提案を受け入れた場合、説明の修正やスキルの削除などを目的ごとにグループ分けした小さなコミットとして自動で適用します。 3. ツールに関連する制約 ツールを使用する、あるいはエージェントスキルを設計するにあたり、以下の制約が存在します。 スキル予算(Skill Budget)の制限: Codexなどのシステムでは、スキル説明に割り当てられるコンテキスト容量が「全体の2%まで」に制限されています。これを超えると、AI側で勝手に文章が切り詰められたり省略されたりするため、ツールはこの予算内に収まるような提案を行います。 未追跡ディレクトリの保護: Gitの追跡対象外(untracked)となっているスキルディレクトリに対しては、意図しないデータ消失を防ぐため、削除先が指定されているか、削除しても問題ないことが確認されるまで自動削除を実行しません。 引用元: https://gihyo.jp/article/2026/05/skill-cleaner AWS MCP Server がGAに - Claude Codeから検証: IAMガードレール設計 フューチャー技術ブログ 2026年5月、AWSは「AWS MCP Server」の一般提供(GA)を開始しました。これは、Claude Codeなどの「AIコーディングエージェント」が、AWSリソースへ安全にアクセスできるようにするマネージドな接続エンドポイント(Model Context Protocol)です。本記事では、この機能の概要と、新人エンジニア向けにセキュリティ(IAMガードレール)と監査の重要ポイントをわかりやすく解説します。 1. AWS MCP Serverの概要と機能 AWS MCP Serverを導入することで、AIエージェントは提供される11個のツールを活用して自律的に動けるようになります。ツールは大きく2系統に分かれます。 知識・ドキュメント系(6個): 最新の公式ドキュメントをAI自身が検索・読込できます。これにより、LLM(大規模言語モデル)の知識カットオフ以降にリリースされた最新のAWSサービスについても、正確な情報を自律的に取得して回答できるようになります。 API実行系(5個): 自然言語の指示から適切なAPI呼び出しを組み立てて実行します。「稼働中のEC2と、その作成者をCloudTrailから探して一覧にして」といった、人間が手動で行うと複数ステップかかる複雑な調査も、AIが自動で複数APIをオーケストレーションして整理・回答してくれます。 2. 安全性を担保する「IAMガードレール」設計 AIエージェントにAWSの操作を任せるにあたり、意図しないリソース削除などの事故を防ぐセキュリティ設計(ガードレール)が不可欠です。本サービスでは主に以下の2つのアプローチで制御します。 経路別の制御(コンテキストキーの活用): IAMポリシーの条件式で aws:ViaAWSMCPService などの条件キーを使用します。これにより、「人間が直接操作するときは管理者権限を許すが、AIエージェントを経由したアクセス(MCP経由)のときだけは特定の破壊的アクション(インスタンスの削除など)を禁止する」といった経路別の制御が可能です。 専用ロールの利用(AssumeRole): AIエージェント専用の読み取り専用(ReadOnly)ロールを作成し、一時クレデンシャルをエージェントに渡すアプローチです。エージェントが利用する権限そのものを最初から安全な範囲に絞り込めます。 3. 行動を可視化する「CloudTrail監査」 AIが実行した全ての操作は、AWSの監査ログ(CloudTrail)にしっかりと記録されます。ログ内の userIdentity.invokedBy に aws-mcp.amazonaws.com が記録されるため、「人間が直接行った操作」と「AIが代行した操作」を明確に区別・追跡できます。 なお、接続元IPアドレスがAWS MCPの固定値になるため、オフィス等のIP制限(aws:SourceIp)を厳しく設定している環境では、アクセス拒否されないようポリシーの調整が必要となる点に注意が必要です。 まとめ AWS MCP Serverは、AIを用いたインフラ運用や開発を安全に加速させる強力な機能です。ガバナンスを効かせた設計が可能なため、エンタープライズ環境でも安心して導入できます。まずは開発用のサンドボックス環境にて、書き込みを防ぐ読み取り専用(--read-only)設定から手軽に試してみるのがおすすめです。 引用元: https://future-architect.github.io/articles/20260525a/ Agentic AI時代における メルカリのAIガバナンスとガードレール実装 本資料は、AIが自律的にタスクを実行する「Agentic AI(AIエージェント)」の普及に伴い、メルカリがどのようにセキュリティリスクを管理し、安全な開発・業務環境(ガードレール)を構築しているかを解説したものです。 メルカリでは、従業員のAIツール利用率が100%に達し、ソースコード生成の約70%にAIが関与しています。AI活用が急速に進む一方で、AIの自律的な動作に伴う新たなリスク(AIの暴走、意図しないシステム破壊、機密情報の漏洩、過剰な権限による不正操作など)が課題となっています。 これに対し、メルカリでは主に以下の3つのアプローチで対策を実装しています。 体制の整備と並走型の支援 単に利用を制限するのではなく、AI活用を推進するチームと並列で「AI Risk & Governanceチーム」や「AI Securityチーム」を設立。セキュリティメンバーが開発プロジェクトに直接参画し、現場に並走しながら安全な実装をサポートしています。 具体的なガードレールの実装(技術的アプローチ) エージェントの動作制限(サンドボックス化): AIエージェント(Claude Code等)に対し、管理者設定を用いて全社共通の制限ルールを強制適用しています。例えば、認証情報ファイルの読み取りや、危険なコマンド(git push --force や sudo など)の実行をシステム的に禁止しています。 認証情報(クレデンシャル)の安全管理: AIツールに直接APIキーを持たせないよう、API管理サーバー(LiteLLM)を経由させ、有効期限の短い一時的なキーを発行することで漏洩リスクを低減しています。 ワークフローの自動審査: ワークフロー作成ツール(n8n)の設定ファイルを自動検査し、機密データの流出リスクなどを検知するツール「n8ncheck」を自社開発してオープンソース化。手動審査の工数を80%削減しました。 シャドーAI(未承認ツール)対策 個人のアカウントを用いた未承認のAIツール利用を防ぐため、ネットワークやアプリ、データアクセスの各レイヤーでアクセスを制限し、会社が認めた安全なツールのみを公開・利用させています。 まとめ Agentic AIの時代においては、セキュリティを設計段階から組み込む

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

You Might Also Like