株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20260626

    2d ago

    私立ずんだもん女学園放送部 podcast 20260626

    youtube版(スライド付き) 関連リンク How agents are transforming work 本書は、OpenAI社内におけるAIエージェント(Codex)の利用実態を分析した最新レポートです。AIエージェントの普及により、従来のチャットボットのような短時間のやり取りから、自律的にツールを操作し長時間を要するタスクを完遂する形態へと、ナレッジワークの単位が劇的に変化しています。 主なポイントは以下の通りです: 長時間・高難易度タスクへの移行: ユーザーは単発の回答ではなく、1時間から8時間以上に及ぶ複雑な作業をエージェントに委任するようになっています。 エンジニア以外への急速な浸透: 当初はエンジニア中心でしたが、現在は法務、財務、採用など、あらゆる部門のメインツールとなっています。特に非エンジニア層の利用成長率はエンジニアを大きく上回っています。 専門領域の拡大: 非技術職のスタッフがエージェントを活用し、自動化やデータ変換といったエンジニアリング領域の作業を自ら実行できるようになっています。これにより、組織全体のワークフローが高度化・効率化されています。 結論として、AIエージェントは単なる補助ツールではなく、個人の業務遂行能力を根本から拡張し、専門的なタスクの境界を曖昧にする存在へと進化しています。エンジニアにとっても、AIと共に「いかに複雑な長期間タスクを設計・指揮するか」が重要なスキルとなりつつあります。 引用元: https://openai.com/index/how-agents-are-transforming-work Codex を使って障害対応の机上演習をやってみよう 本書は、AIエージェントを活用して障害対応の「机上演習(TTX)」を効率化する革新的な取り組みについて紹介しています。 障害対応能力を向上させるには、システム状況を動的に変化させ、対応者の判断を促す「ゲームマスター」の存在が不可欠です。しかし、高度な知識を持つ人間がゲームマスターを担うには大きな工数がかかり、演習実施のハードルとなっていました。 本プロジェクトでは、この役割をコーディングエージェント(Codex)に代替させる仕組みを構築しました。 概要 目的: 少人数のチームでも手軽かつリアルに障害対応の訓練ができる仕組みの提供。 仕組み: 事前に「障害原因」「理想タイムライン」「想定質問・回答集」をAIで生成し、それらを基にエージェントがゲームマスターとして対応者の質問に動的に回答します。 特徴: 対応者の行動に応じて状況(現在タイムライン)がリアルタイムに分岐し、現実さながらの緊迫した環境を再現します。 制約 事前準備: 障害シナリオの設計(理想タイムライン等の定義)が不可欠であり、これらはAIツールを用いて自動生成およびレビューを行います。 コスト: 運用のための固定費(GCEインスタンス代等)および変動費(API利用料)が継続的に発生します。 新人エンジニアにとって、障害対応のプロセスや情報の切り分け方を能動的に学べる非常に有益な手法です。チームの技術力向上を目指す際、ぜひ検討してみてください。 引用元: https://tech.coincheck.blog/entry/codex-ttx AI時代のコードレビューは人に向けるな、仕組みに向けろ AIが実装の大部分を担う現代の開発において、コードレビューの対象を「書いた人間」から「コードを生み出した仕組み」へと転換すべきだという考察です。 AIが生成したコードに不備があった際、個人のスキル不足を責めるのではなく、「どの工程や仕組みをすり抜けて問題が発生したか」を特定し、その仕組み自体を改善することが重要です。これにより、再発防止策が個人の経験則ではなく、Lintルールやテストコード、CIプロセスといった「チームの資産」として蓄積されます。 具体的な要点は以下の通りです。 ・全体像の把握:Claude Codeからリリースに至るまでのフローを可視化し、問題箇所を特定する視点を持つ。 ・決定論と推論の使い分け:可能な部分は決定的なルール(静的解析等)でガードし、複雑な判断はAIエージェントのスキルに任せるなど、役割分担を整理する。 ・仕組みの改善を文化にする:レビューを通じて仕組みの拡充を提案しやすい環境を整え、特定のモデル性能に依存しない、持続可能な開発プロセスを構築する。 新人エンジニアにとっても、コードレビューは「人を評価する場」ではなく、「より良い開発体験を生み出すための仕組みを育てる場」であると捉えることで、チーム開発への貢献方法がより明確になるはずです。AI時代だからこそ、過去の知見を活かしつつ、地道な言語化と仕組み化を積み重ねることがエンジニアとしての大きな価値となります。 引用元: https://zenn.dev/manalink_dev/articles/ai-coding-era-review-to-dev-process-not-human 「光年」の意味を勘違いしている歌詞ってこんなにあるのか→もちろん時間の単位じゃないのも承知しており女児に誤情報を与えないプリキュアはさすが 歌詞で「光年」が時間として使われることに対し、物理学の厳密な定義(距離の単位)を重視する人々から指摘が相次いでいます。一方で、創作においては比喩表現として許容すべきという意見も根強く、議論が白熱しました。特にプリキュアの楽曲では、誤解を招かないよう「単位ではないと承知の上で」歌詞に組み込む工夫がなされており、その科学的誠実さとエモーショナルな表現の両立が、多くのファンの間で高く評価されています。 引用元: https://togetter.com/li/2713418 お便り投稿フォーム VOICEVOX:ずんだもん

  2. 3d ago

    株式会社ずんだもん技術室AI放送局 podcast 20260625

    youtube版(スライド付き) 関連リンク Introducing computer use in Gemini 3.5 Flash Google DeepMindは、Gemini 3.5 Flashモデルにおいて「Computer Use(コンピュータ操作)」機能をネイティブに統合したと発表しました。これにより、Geminiが人間のようにPCやブラウザ、モバイル環境を直接操作するAIエージェントとしての実用性が大幅に向上しました。 主なポイント ネイティブ統合: 以前はスタンドアローンモデルとして提供されていたComputer Use機能が、Gemini 3.5 Flash本体に組み込まれました。これにより、モデルが画面を「見て」、状況を「推論」し、キーボード入力やマウス操作で直接「アクション」を起こすことが可能になります。 活用シーン: ソフトウェアの継続的なテスト自動化や、複数のアプリケーションを横断する複雑なタスクなど、ロングホライズン(長期的)な業務の効率化に強みを発揮します。 セキュリティ対策: AIエージェントが実環境で動作する際のプロンプトインジェクション等のリスクに対し、攻撃的学習(adversarial training)を用いた強固な防御を実装しています。 エンタープライズ対応: 企業向けには、機密性の高い操作に対するユーザー確認の強制や、不審な挙動の自動停止機能など、安全性を高めるためのセーフガードが提供されます。 エンジニアにとっては、Gemini APIやGemini Enterprise Agent Platformを通じて、即座にカスタムエージェントの開発に着手できる環境が整いました。継続的なテスト環境の構築や、UI/UXの自動監査など、実務への応用が期待される技術です。 引用元: https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/ OpenAI and Broadcom unveil LLM-optimized inference chip OpenAIはBroadcomと共同で、LLM推論に特化した自社設計のAIアクセラレータチップ「Jalapeño(ハラペーニョ)」を発表しました。これは、汎用的なGPUとは異なり、モデルの推論処理(Inference)に必要なカーネル、メモリ移動、ネットワーキングのパターンをゼロから設計した専用ASICです。 新人エンジニアにとっての重要なポイントは以下の通りです。 フルスタック戦略への移行: OpenAIは単にモデルやアプリを開発するだけでなく、その下の層であるチップ設計から基盤システム全体を自社で最適化する「フルスタック戦略」を推進しています。これにより、モデルの実行速度やコスト効率をハードウェアレベルで改善しようとしています。 圧倒的な開発スピード: 本チップは設計から製造に向けたテープアウトまで、わずか9ヶ月で完了しました。このプロセス自体にOpenAIのAIモデルを活用し、エンジニアリングの効率を劇的に向上させています。 推論特化型の設計: 既存のAIアクセラレータよりも「ワットあたりの性能」を大幅に高めることを目標としており、特にGPT-5.3-Codex-Sparkのような最新の大規模モデルの動作検証において、高い処理効率を確認しています。 エコシステムの協力体制: Broadcomのシリコン実装技術やネットワーキング技術(Tomahawk等)、Celesticaのシステム構築力を組み合わせることで、ギガワット級のデータセンター展開を想定した量産体制を構築しています。 本チップは2026年後半からの実運用が計画されています。今回の発表は、AIの推論コストと遅延を劇的に下げ、より安価で高速なAIサービスを一般ユーザーや開発者に届けるためのインフラ基盤の大きな転換点と言えます。 引用元: https://openai.com/index/openai-broadcom-jalapeno-inference-chip OpenAI、セキュリティ戦略「Daybreak」を拡張 ―Codex Securityプラグイン、GPT-5.5-Cyberを更新しOSSなど重要インフラの脆弱性にも対応へ gihyo.jp OpenAIは2026年6月22日、AIを活用したセキュリティ対応戦略「OpenAI Daybreak」の機能を大幅に拡張しました。新人エンジニアの皆さんも、今後の開発現場で耳にする機会が増えそうな重要なアップデートです。 今回の主なポイントは以下の3点です。 Codex Securityプラグインの強化 既存システムの脆弱性検知からパッチ適用までのプロセスが自動化されました。これにより、開発者が手動で行っていたルーチン的な修正作業が効率化され、脆弱性が本番環境へ混入するリスクを未然に防ぎます。 高性能モデル「GPT-5.5-Cyber」の提供 セキュリティ特化型の最新モデルです。大規模なコードベースの解析能力に優れており、サイバー攻撃を再現するベンチマーク「CyberGym」において、他の主要モデルを上回る性能を実証しました。 エコシステムの拡大(Cyber Partner Program & Patch the Planet) パートナー各社の製品にGPT-5.5のセキュリティ機能を組み込めるようになり、産業全体での防御力が底上げされます。また、「Patch the Planet」イニシアティブを通じて、Linuxカーネルや主要ブラウザといった重要なオープンソースインフラの脆弱性修正にもAIが活用されることになりました。 総じて、AIが単なるコーディング補助に留まらず、システムの安全性そのものを担保する「セキュリティエンジニアのパートナー」として深く組み込まれ始めたことが伺えます。技術の進歩に伴い、セキュリティ意識の持ち方もアップデートしていく必要があるでしょう。 引用元: https://gihyo.jp/article/2026/06/openai-daybreak-update 「馬鹿とハサミは使いようだ…」あえて能力の低いAIにマニュアルを実行させ、「賢いAIなら補完してしまう暗黙知をポンコツAIにあぶり出させる」アイデアが目からウロコ 高精度なAIが補完してしまう「暗黙の前提」を、あえて能力の低いAI(ポンコツAI)に作業させることで可視化する手法が話題です。新人エンジニアにとっても、ドキュメントの品質向上やマニュアルの曖昧さを洗い出すための「品質検査ツール」として、AIの特性に応じた賢い役割分担のヒントになるはずです。最強のAIを選ぶだけでなく、適材適所でのフロー設計が重要となる好例です。 引用元: https://togetter.com/li/2712705 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)

  3. 4d ago

    株式会社ずんだもん技術室AI放送局 podcast 20260624

    youtube版(スライド付き) 関連リンク How GPT-5 helped immunologist Derya Unutmaz solve a 3-year-old mystery 免疫学の世界的権威であるデリヤ・ウヌトマズ教授が、OpenAIの最新AI「GPT-5 Pro」を活用し、自身の研究室で3年間未解決だった免疫細胞の謎を解明したという画期的なニュースです。 1. 3年来の謎:T細胞とグルコースの複雑な関係 2022年、教授は「グルコース(糖)がT細胞(ウイルスや癌と戦う免疫細胞)の専門化にどう影響するか」という実験を行いました。通常、エネルギー源であるグルコースが不足すると細胞の活動は抑制されます。しかし、「低グルコース環境」と、糖の利用を阻害する「デオキシグルコース」を投与した環境では、T細胞の変化に大きな違いが生じました。特に後者では、炎症反応に関わる特定の細胞(Th17)が異常に増殖したのです。この現象は単純なエネルギー不足では説明がつかず、長年研究室の棚上げ課題となっていました。 2. GPT-5 Proによる「アハ体験」とデータの再発見 2025年末、教授は当時の実験データをGPT-5 Proに読み込ませ、分析を依頼しました。するとAIは、「デオキシグルコースがIL-2というタンパク質の生成を阻害している」という洞察を提示しました。IL-2は通常、T細胞が炎症性のTh17細胞に変化するのを防ぐ「ブレーキ」の役割を果たします。つまり、AIは専門家も見落としていた細胞内のメカニズムを特定したのです。教授は「自分の専門領域のすぐ外側にあった正解を、AIが完璧に結びつけた」と述べています。 3. 未発表データの予測と「シミュレーター」としての価値 さらに驚くべきは、GPT-5 Proの予測精度です。教授がまだ発表していない「リンパ腫を攻撃するT細胞」の実験データをシミュレーションさせたところ、AIはインターネット上の知識ではなく論理的な理解に基づき、実験結果を正確に予測しました。これにより、AIが単なる検索ツールではなく、科学的プロセスを深く理解する「共同研究者」へと進化したことが証明されました。 4. エンジニアへの示唆:AIとの協調による「科学の加速」 この事例は、AIが膨大な論文のレビューを効率化し、仮説の絞り込みを支援することで、研究期間を数年から数週間へと大幅に短縮できる可能性を示しています。 新人エンジニアの皆さんに特に注目してほしいのは、「ドメイン知識(専門知識)」の重要性です。AIが優れた洞察を出しても、その重要性や妥当性を判断し、価値を定義するのは依然として人間(専門家)の役割です。AIという強力な「右腕」を得ることで、人間のエンジニアや研究者は、より本質的でクリエイティブな課題に集中できるようになります。 AIを「仕事を奪う存在」ではなく、「自分の脳を拡張し、数年かかっていた課題を数日で解決するパートナー」として捉える。そんな新しいエンジニアリングの形を予感させる、非常にポジティブなニュースです。 引用元: https://openai.com/index/gpt-5-immunology-mystery GLM-5.2 - How to Run Locally Unsloth Documentation GLM-5.2は、Z.aiが開発した744B(7440億)という巨大なパラメータ数を持つ、世界最高峰(SOTA)のオープンソースLLMです。本ドキュメントは、この巨大なモデルを「Unsloth」という高速化ライブラリの技術を用いて、ローカル環境で動作させるためのガイドとなっています。 1. GLM-5.2の概要と圧倒的な性能 GLM-5.2は、GPT-5.5やClaude 4.8 Opusといった最新の商用AIに匹敵する性能を、オープンなモデルとして実現しています。 スペック: 総パラメータ数744B、実行時に動くアクティブパラメータは40B(MoE方式)、コンテキストウィンドウは100万トークン(1M)という驚異的な長さを誇ります。 得意分野: 長文のコーディング、論理推論、自律的なエージェントタスクにおいて、現在存在するオープンモデルの中で「最強」と評されています。 2. ローカル実行を可能にする「動的量子化」 本来、744Bものモデルを動かすにはテラバイト級のメモリが必要ですが、Unslothの「Dynamic GGUF」という量子化技術がこれを解決します。 1-bit / 2-bit量子化: モデルの重みを極限まで削り、2-bit量子化ではファイルサイズを84%削減しながら、精度低下をわずか約18%に留めています。 精度の裏付け: KLD(KLダイバージェンス)という統計的指標を用いて、量子化後も元のモデルの振る舞いを高度に維持していることが証明されています。 3. ハードウェア要件(実行の制約) 巨大モデルゆえに、動作にはハイエンドな環境が求められます。 推奨環境: 2-bit量子化版(約239GB)を動かすには、256GBのユニファイドメモリを搭載したMac、あるいは「1枚の24GB GPU + 256GBのシステムRAM」といった構成が必要です。 ツール: GUIで簡単に操作できる「Unsloth Studio」や、エンジニアにお馴染みの「llama.cpp」での実行をサポートしています。 4. 注目すべき機能 Thinking(思考)モード: タスクの難易度に合わせて、思考しない設定から「High」「Max」まで、AIの推論の深さを調整可能です。 KVキャッシュ量子化: メモリ消費を抑えつつ、100万トークンに及ぶ超長文を読み込ませるためのテクニックが盛り込まれています。 新人エンジニアへのメッセージ このドキュメントは、「量子化」や「MoE(混合専門家モデル)」といったLLMの最先端技術が、いかにして巨大なAIを手元のマシンに「押し込む」のかを学べる素晴らしい事例です。高価なクラウドAPIに頼らずとも、最高峰の知能を自分の管理下で動かせる可能性を示しており、これからのAIエンジニアにとって、量子化モデルの扱いは必須のスキルとなるでしょう。 引用元: https://unsloth.ai/docs/models/glm-5.2 国産生成AI基盤モデルPLaMo 3.0 Primeを正式リリース 株式会社Preferred Networks(PFN)は、日本発のフルスクラッチ開発モデル「PLaMo」の最新フラッグシップ版となる「PLaMo 3.0 Prime」を正式にリリースしました。本モデルは、先行公開されていたβ版のフィードバックを反映し、企業実務での利用を強く意識した強化が施されています。 新人エンジニアの方にまず注目してほしいポイントは、タスクに合わせて「推論力重視」か「速度重視」かを選べる点です。 ・Reasoning(推論)モデル:複雑な指示に対し、人間のように順序立てて考え、結論を導き出します。数理・アルゴリズムの問題や、専門性の高い意思決定支援に向いています。 ・Non-reasoningモデル:深い推論よりも応答の速さを優先しています。議事録の要約や定型的なチャット対応など、大量の情報をスピーディーに処理するのに適しています。 技術的な大きな進化として「コンテキスト長の拡張」が挙げられます。一度に処理できる情報の長さが従来の4倍となる256kトークンへと大幅に増えました。これにより、分厚い技術仕様書などの「超長文」を丸ごと読み込ませたり、AIが自ら外部ツールを呼び出して複雑なワークフローを完遂する「AIエージェント」として活用したりすることが現実的になりました。 また、国産モデルならではの強みとして、日本語の処理効率(トークン効率)の高さがあります。独自のトークナイザを採用することで、高い日本語性能を維持しつつ、推論にかかるコストを抑えることに成功しています。ベンチマーク評価では、海外の有名モデル(GPT-5.4 miniやClaude Haiku 4.5など)と比較しても、日本語の指示追従やコーディングにおいて非常に優れたコストパフォーマンスを発揮することが確認されています。 さらに、システム開発において重要な「安全性」と「柔軟性」も備えています。クラウドAPIだけでなく、企業の機密情報を守りやすいオンプレミス環境での提供も行われます。安全性評価においても海外モデルと同等以上の評価を得ており、ビジネスの現場で安心して実務に組み込める仕様となっています。 PLaMo 3.0 Primeは、単なるチャットAIにとどまらず、業務システムやエージェントの一部として「実働する」ことを想定した実戦向けのモデルです。日本語の微妙な文脈を理解し、的確に指示へ追従するこのモデルは、今後日本のエンジニアにとって重要な開発基盤の一つとなるでしょう。 引用元: https://www.preferred.jp/ja/news/pr20260622 カーネルの深淵を覗いた男、USBハブを抜いて帰る VRChat中のCPU負荷異常を解決するため、レジストリ操作やバイナリパッチ、最新AIを駆使してカーネル階層の調査に挑むデバ

  4. 6d ago

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260622

    youtube版(スライド付き) 関連リンク Steering Claude Code: CLAUDE.md files, skills, hooks, rules, subagents and more 本記事は、Anthropicが提供する端末動作型のAI開発アシスタント「Claude Code」を最大限に活用するための各種カスタマイズ機能(Rules、Skills、Subagents、Hooks、Output styles)の特徴と、それぞれの最適な使い分けを解説したものです。 これからClaude Codeを触る新人エンジニアに向けて、各機能の役割と実践的な使い分けのコツを整理しました。 1. Rules(ルール):特定のファイル専用のコーディング規約 概要: AIに守らせたい特定の制約やルールを記述します。 コツ: pathsフィールドを使って「このルールはAPIフォルダ(src/api/**)だけに適用する」といった制限が可能です。関係のない作業のときに不要なルールが読み込まれなくなるため、AIのメモリ(トークン)と利用料金の節約に直結します。 2. Skills(スキル):定型的な作業手順の登録 概要: 定型の作業プロセスを定義し、独自のスラッシュコマンド(例: /code-review)等で呼び出せるようにします。 コツ: リリースチェックリストや、デプロイワークフローなど、ステップバイステップで進める「手順書」はここに記述するのが最適です。 3. Subagents(サブエージェント):裏で並行処理する子AI 概要: メインのチャットとは完全に独立したコンテキスト(会話空間)を持つアシスタントを起動します。 コツ: 膨大なログの分析や、依存関係の監査など、メインの会話履歴を汚したくない重い処理を実行させるのに適しています。最終的な「結論」だけがメインの会話に戻されるため、効率的に作業が進められます。 4. Hooks(フック):イベントに連動した確実な自動実行 概要: コード編集後やツール実行前といったイベントをトリガーに、指定したコマンドやスクリプトを自動実行します。 コツ: 「コード編集後に必ずフォーマッタをかける」など、AIの気まぐれに頼らずに「100%確実に実行させたい処理」に使用します。 5. Output styles(回答スタイル):AIの回答トーンの変更 概要: システムプロンプトを上書きして回答スタイルを変えます。 注意: 独自のカスタムスタイルを設定すると、デフォルトの優秀な開発者向け指示(セキュリティ確認やテスト実行の癖など)が全て消えてしまうリスクがあります。通常は、用意されている標準スタイル(Proactive、Explanatoryなど)を使うのが推奨されます。 💡 やりがちなアンチパターンと改善策 CLAUDE.mdに長文の手順書を書かない: CLAUDE.mdにはビルド方法などの「不変の事実」のみを書き、手順書は「Skills」へ切り出しましょう。 「絶対に〜するな」はプロンプトではなくHooksで防ぐ: AIは時に指示を忘れます。セキュリティに関わる絶対的な禁止事項は、プロンプトで縛るのではなくHooksを使ってシステム的に強制ブロック(exit code 2を返すなど)させましょう。 引用元: https://claude.com/ja/blog/steering-claude-code-skills-hooks-rules-subagents-and-more AIエージェントを「指揮」するOSS「TAKT」とは — 仕組と使い方 本書は、AIエージェントの協調動作(オーケストレーション)を制御するオープンソースソフトウェア(OSS)「TAKT」の仕組みと概要を解説した記事です。 TAKTとは? TAKTは、TypeScriptで記述されたMITライセンスのOSSです。そのコンセプトは「AIエージェントがどう協調し、人間がどこで介入し、何が記録されるかをYAMLで定義する」という点にあります。音楽の指揮者が楽団を導くように、AIエージェントの動きをコントロールします。 開発の背景:AIの「見張り番」からの脱却 ClaudeなどのAIコーディングツールを単体で利用する場合、「計画→実装→確認→修正」の各工程で、人間が都度内容を確認し、次の指示を出す必要がありました。この進行役の手間を省き、タスクを丸投げして完了まで放置できるようにするために、プロセスの進行自体をシステムに任せる「オーケストレーション」が必要とされました。TAKTは、AIを盲信するのではなく「外側からルールで制御する対象」として捉え、プロセスを自動で強制する仕組みを提供します。 TAKTの主な仕組み YAMLによるワークフロー定義 ワークフロー(全体の流れ)と、その中の個々のステップ(処理)をYAMLファイルで宣言します。各ステップに「プランナー」「コーダー」といった役割(ペルソナ)やファイル編集の権限、そして「テストを通過したら完了、修正が必要なら実装ステップへ差し戻す」といった遷移ルールを定義できます。 自律実行を支える機能 遷移ルールの自動判定: AIの出力内容から、次のステップへ進むかをAI自身に判定させます。 コンテキストの受け渡し: 前のステップの成果物を、次のステップの指示へ自動的に引き継ぎます。 ループ監視: 修正の無限ループを検知し、進捗がない場合は自動で停止・中断を判断します。 Faceted Prompting(プロンプトの関心の分離) プロンプトを「役割」「禁止事項・品質基準」「指示」「参照資料」「出力形式」の5つの要素に分解して管理します。これにより、同じ役割(ペルソナ)を別の指示で再利用しやすくなり、AIに渡す情報の肥大化を防ぎます。 使い方とまとめ コマンドラインから簡単にインストールでき、タスクの定義と自律実行をシンプルなコマンドで行うことができます。 TAKTを導入することで、人間の役割は「その都度の確認と指示出し」から「ワークフローと指示書の設計」へと変化します。AIエージェントに自律して動いてもらい、開発の効率化を目指すエンジニアにとって、非常に価値の高いツールです。 引用元: https://zenn.dev/alpha_omega/articles/56ca3136bc5cd8 Improving token efficiency for GitHub Copilot in VS Code GitHub Copilotが従量課金制へと移行したことで、AIエージェントがタスクを完了するまでに消費する「トークン数」と「処理遅延(レイテンシ)」を抑えることが、開発コストと快適な開発体験の双方において極めて重要になりました。VS Code開発チームが、OpenAIやAnthropicの最新LLMを対象に実施したトークン効率化の取り組みを分かりやすく解説します。 1. トークン削減の基本アプローチ AIエージェントとのやり取りでは、指示(システムプロンプト)や履歴などの共通する「プレフィックス(前置き)」が毎回送信されます。 プロンプトキャッシュ: この共通部分を再利用することで、入力トークン料金を最大10分の1に抑え、応答を高速化します。 ツール定義のオンデマンド化(ツール検索): 従来は使える全てのツール(ファイル編集やコマンド実行など)の詳細定義を毎回AIに送っていましたが、最初は簡単な目次(メタデータ)だけを送り、必要になった時にだけ詳細定義を読み込ませる仕組みを導入し、無駄なトークンを削減しました。 2. OpenAIモデル(GPT-5等)での施策 キャッシュの24時間保持: 通常は数分〜10分程度で消えてしまうキャッシュを、設定の変更により最大24時間保持できるようにしました。これにより、少し作業を中断して再開した際も、高額な再計算(コールドスタート)を避けることができます。 WebSocketの導入: HTTP通信を繰り返す代わりに、WebSocketによる常時接続を採用。通信の接続オーバーヘッドを削減したことで、AIの応答開始までの時間(TTFT)を16〜19%短縮しました。 3. Anthropicモデル(Claude等)での施策 賢いキャッシュ位置の設定: 手動でキャッシュの目印(ブレークポイント)を指定する仕様に合わせ、変化しにくい「ツール定義」と「直近のやり取り」に最適に配置。これにより、キャッシュヒット率を約94%に維持しています。 ローカルAIによる高性能なツール検索: ツール検索をVS Code(クライアント側)で行います。独自の「埋め込み(Embedding)モデル」を使い、言葉のズレがあっても「開発者の開発意図」に基づいて最適なツールを高速・正確に見つけ出します。これにより、セッション全体のトークンを約18%削減しました。 4. 今後の展望 今後は、すべての処理を大型のメインAIで行うのではなく、ワークスペース検索などの特定タスクを「安価で小さな専門サブエージェント」に切り出して処理を分散させる仕組みを構築中です。また、意図しない課金を防ぐために、トークン消費量やキャッシュの状態をエディタ上で可視化する機能

  5. 私立ずんだもん女学園放送部 podcast 20260619

    Jun 18

    私立ずんだもん女学園放送部 podcast 20260619

    youtube版(スライド付き) 関連リンク OpenAI、ChatGPTにリマインダーの送信や定期的な作業の実行、状況の監視を依頼できる「Scheduled Tasks」機能を追加。 AAPL Ch. 米OpenAIは、2026年6月17日に対話型AI「ChatGPT」の新機能として、定期的なタスク実行や状況の監視、リマインダーの送信などを自動化できる「Scheduled Tasks(スケジュールされたタスク)」機能のロールアウトを開始しました。 本機能は、これまでの「質問に対してその場で答える受動的なAI」から、スケジュールに沿って自律的に働く「能動的なAIエージェント」へと進化させる大きな一歩です。エンジニアに身近な概念で例えると、Linuxの「cron(クーロン)」やWindowsの「タスクスケジューラ」のような定期実行ジョブを、ChatGPTの直感的なUIを使って自然言語だけで簡単に設定できるようになったイメージです。 ■ 主な機能と管理方法 新機能が適用されると、ChatGPTのサイドバーに「[Scheduled]」という項目が追加されます。この専用画面から、以下のようなタスク管理を直感的に行うことができます。 定期実行したいタスクの作成・編集 現在アクティブなタスクの一覧表示と次回実行時刻の確認 タスクの一時停止と再開 設定したタスクの実行結果や通知は、モバイルアプリのプッシュ通知や登録されたメールアドレス宛てに届くため、重要な処理結果やリマインダーをタイムリーに受け取ることができます。 ■ 利用における制限事項 システムへの負荷を考慮し、実行頻度や同時に登録できるタスク数には以下の制限が設けられています。 実行頻度: 1時間に1回以上の頻度(高頻度リクエスト)での実行は不可。 プラン別のアクティブタスクの上限: ChatGPT Go:最大3個 ChatGPT Plus:最大5個 ChatGPT Business / Edu:最大10個 ChatGPT Pro / Enterprise:最大15個 ※Web版およびモバイルアプリ版の対象ユーザー向けに、順次提供が開始されています。 ■ 新人エンジニアに向けた注目ポイント これまでAIを用いた定期処理やクローリング、監視システムを構築するには、自分でプログラム(Pythonなど)を書き、APIを連携させ、サーバーやクラウド(AWS、GCP等)上にデプロイして定期実行させる必要がありました。 「Scheduled Tasks」の登場により、インフラの構築やコードの記述をせずとも、「毎朝9時に指定の情報を要約して通知する」「定期的に特定の状態をチェックする」といった自動化タスクをチャット上で即座に構築できるようになります。業務効率化やプロトタイプ開発の手間を劇的に削減できる機能として、非常に注目されています。 引用元: https://applech2.com/archives/20260618-openai-scheduled-tasks-in-chatgpt.html Improving health intelligence in ChatGPT 本記事では、OpenAIが発表した最新モデル「GPT-5.5 Instant」におけるヘルスケア分野の推論能力向上について解説しています。 エンジニアとして注目すべきポイントは、モデルの性能向上だけでなく、それを支える「評価指標の構築」と「専門家によるフィードバックループ」の仕組みです。OpenAIは、モデルが健康に関する質問に対し、より正確かつ安全に回答できるよう、世界中の260名以上の医師と協力してモデルの改善を行っています。 主な要点は以下の通りです。 推論能力の向上: GPT-5.5 Instantは、緊急性の判断、文脈に応じた適切な質問、不確実性の明示といったヘルスケア特有の課題において、従来のモデルや「Thinking」モデルに匹敵する性能を達成しています。特に「緊急時の助言」や「ユーザーへの追加情報の確認」といった安全に関わる判断の精度が大きく向上しました。 客観的な評価手法(HealthBench): モデルの進化を定量化するため、「HealthBench」および「HealthBench Professional」というヘルスケアに特化した評価フレームワークが採用されています。これにより、単なる回答の正確性だけでなく、コミュニケーションの質や適切なエスカレーションが実行できているかを厳密に測定しています。 医師による継続的な改善プロセス: 70万件を超える医師による回答のレビューデータが、モデルの評価指標やルール(Rubrics)に組み込まれています。また、実運用環境(プロダクション)におけるモニタリングを通じて、事実誤認の可能性を2ヶ月で71%削減することに成功しました。 新人エンジニアにとって本記事は、高度なモデルであっても、その精度を保証するためには「ドメイン専門家(医師)の知見」と「信頼性の高い評価データセット」が不可欠であるという、AI実装の重要なベストプラクティスを学べる事例と言えます。最新モデルを単に使うだけでなく、どのような品質管理プロセスが背後にあるのかを知る良い機会となるでしょう。 引用元: https://openai.com/index/improving-health-intelligence-in-chatgpt Epic GamesがGitの死角を突く。バージョン管理「Lore」公開 Epic Gamesは、大規模なゲーム開発に特化したオープンソースのバージョン管理システム「Lore」を公開しました。長年、ソースコード管理にはGit、バイナリアセットが主体のゲーム開発にはPerforceが業界標準として使われてきましたが、Loreはその両者のメリットを融合させることを目指した新しいツールです。 新人エンジニアの方にとって理解のポイントとなるのは、「なぜ新しいツールが必要なのか」という背景です。Gitは軽量で分散型という優れた特徴を持ちますが、数GBにおよぶ巨大なバイナリファイルの管理や、アーティストが作業する際の排他制御(ロック機能)が苦手です。一方でPerforceはその課題を解決していますが、商用利用でのライセンス費用が課題となっていました。 Loreは、以下の特徴を持つことで、この「バージョン管理の断層」を埋めようとしています。 バイナリ対応のネイティブ設計: 大容量ファイルを例外扱いせず、最初から効率的に扱えるよう設計されています。 排他ロック機能: 複数人で同じファイルを作業する際の競合を安全に回避します。 パフォーマンスと操作性: Gitのような快適なオフライン操作と、Perforceのような集中管理型の安定性を両立しています。 モダンな技術スタック: 実装言語にRustを採用し、MITライセンスで提供することで、企業のパイプラインへの組み込みを容易にしています。 現在はv0.8.3という初期段階ですが、実際にEpic Gamesの『フォートナイト』開発現場で運用されてきた実績が最大の強みです。今後、Perforceに代わる選択肢として、特に中小規模のスタジオや新規プロジェクトにおいて重要なインフラになる可能性があります。ただし、現時点では一部機能がプロプライエタリであったり、APIや仕様が流動的である点には留意が必要です。大規模開発の現場で「なぜその技術が使われているのか」を学ぶ良いケーススタディとなるプロジェクトです。 引用元: https://joho-todai.com/epic-games-lore-version-control/ A Robot is Sprinting Towards You: Do You Want it Running on Claude or Grok? 11種類のLLMを2Dバトロワゲームで戦わせる実験を実施。既存のベンチマークとは異なり、Grokは「協調性」を捨てた戦術で圧倒的な勝率と高いコスト対効果を発揮。一方、Claudeは他者との共生を優先し順位を落とす場面も。モデルの「アライメント(調整)」が実環境のパフォーマンスに与える影響を可視化しており、用途に応じたモデル選択の重要性と、数値指標だけでは見えないLLMの個性が理解できる興味深い検証です。 引用元: https://openrouter.ai/blog/insights/royale-last-agent-standing/ お便り投稿フォーム VOICEVOX:ずんだもん

  6. Jun 17

    株式会社ずんだもん技術室AI放送局 podcast 20260618

    youtube版(スライド付き) 関連リンク A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry OpenAIは、創薬化学における難度の高い化学反応の効率を改善する「自律型AI化学者」の成果を発表しました。本プロジェクトでは、GPT-5.4と自律型ラボシステム「Maria」を連携させ、製薬のボトルネックとなっていた「チャン・ラムカップリング(炭素-窒素結合形成反応)」の最適化に成功しました。 本システムの仕組みは、AIが膨大な文献を分析して仮説を生成し、実験計画を立案。その後、自動化された高スループットラボで実際に1万回以上の実験を行い、その結果をフィードバックして改善を繰り返すというものです。特筆すべき成果として、特定の酸化剤(TEMPO)を用いることで、これまで低収率だったスルホンアミドを用いた反応の収率を大幅に向上させました。この結果は、ラボでの小規模実験だけでなく、人間の化学者によるベンチスケールでの再現実験によっても実証されています。 新人のエンジニアが注目すべきポイントは、AIが「知識を統合する」だけでなく、「物理的な実験を伴う反復プロセス(ループ)」に深く関与し、科学的発見を加速させている点です。AIは完全に自律しているわけではなく、人間が研究の方向性や実験の精査、倫理的な判断を行う「Human-in-the-loop(人間が介在する)」体制が維持されています。 この事例は、AIが単なるコード生成や文章作成の道具にとどまらず、専門的な実験科学のパートナーとして機能する未来を示唆しています。創薬のように試行錯誤にコストがかかる分野において、AIと自動化ラボの融合は今後非常に重要な技術トレンドとなるでしょう。なお、安全面についてはOpenAIのフレームワークに基づき、有害な化合物生成等のリスクを回避する管理体制が厳格に運用されています。 引用元: https://openai.com/index/ai-chemist-improves-reaction GLM-5.2: Built for Long-Horizon Tasks 「GLM-5.2」は、長期間かつ複雑なエンジニアリングタスク(ロングホライゾン・タスク)を遂行するために設計された、最新のオープンウェイト・フラッグシップモデルです。最大の特徴は、1Mトークンという超長文コンテキストを安定して処理できる能力と、実務での実用性を重視した設計にあります。 主な技術的ハイライトは以下の通りです。 ・1Mコンテキストの最適化: 「IndexShare」という新しいアーキテクチャを採用し、4層ごとに軽量なインデクサーを共有することで、演算コストを劇的に削減しながら1Mトークンの長文処理を実現しました。 ・推論効率の向上: 推論時の推測デコード(Speculative Decoding)を改善し、受容長を最大20%向上させています。また、推論エンジン側でもKVキャッシュ管理やカーネル最適化を行い、長文タスク時のスループットを向上させています。 ・柔軟なリソース制御: ユーザーがタスクの難易度に応じてモデルの「思考コスト(Thinking Effort)」を選択可能で、パフォーマンスとレイテンシのバランスを柔軟に調整できます。 ・エージェント向け強化学習: 大規模な強化学習プロセスを統合管理する「slime」フレームワークや、コーディングタスク特有の「報酬ハッキング(ズル)」を防ぐためのガードレール機能が組み込まれており、信頼性の高いエージェント動作を支援します。 ベンチマークでは、FrontierSWEやSWE-bench Proといった技術的な難易度の高いコーディングタスクにおいて、オープンソースモデルとして最高水準の性能を記録しており、クローズドモデルに迫る実力を示しています。開発者向けにはHuggingFace等でモデルが公開されているほか、各種フレームワークでも利用可能です。 引用元: https://huggingface.co/blog/zai-org/glm-52-blog Build On-Device AI Companions with the NVIDIA ACE Game Agent SDK and Unreal Engine 5 Plugins NVIDIAは、Unreal Engine 5(UE5)向けにオンデバイスで動作するAIエージェント構築用の新しいSDKおよびプラグインを発表しました。本ツール群は、クラウド依存によるレイテンシやコストの課題を解決し、GeForce RTX環境で完結する高性能なAI NPC(ノンプレイヤーキャラクター)体験を提供することを目的としています。 主な提供内容は以下の通りです。 NVIDIA ACE Game Agent SDK: 軽量なC/C++ベースのエージェント用フレームワークです。Agent API(自律的な推論)、Chat API(推論制御)、RAG API(外部データベース連携)を備え、NPCがゲーム内の文脈を理解して動的に行動する仕組みを構築可能です。 ACE Unreal Engine 5プラグイン: ASR(音声認識)、SLM(小規模言語モデル)、TTS(音声合成)の3柱をカバー。BlueprintおよびC++から直接利用可能で、高度な対話システムを直感的に実装できます。 DLSS 4.5プラグイン: UE5向けの最新アップデートとして、動的なフレーム生成機能や解像度向上アルゴリズムが強化され、よりスムーズなレンダリング環境をサポートします。 本技術により、開発者はスクリプトに縛られない、より没入感のあるNPCを開発できます。さらに、プロンプトベースで人間らしい動作を生成できる「NVIDIA Kimodo」のUE5プラグイン化も発表されており、AIを活用した効率的かつ創造的なゲーム制作フローが強化されています。 引用元: https://developer.nvidia.com/blog/build-on-device-ai-companions-with-the-nvidia-ace-game-agent-sdk-and-unreal-engine-5-plugins/ イオンモールおじさんはどうすべきなのか? 買い替えずに「同じ服を活かせる着こなし」をAIに教えてもらった SNSで話題の「イオンモールおじさん」スタイルを刷新すべく、GeminiとChatGPTにアドバイスを仰いだ検証記事です。AIは買い替えを推奨せず、「インナーに白Tを着る」「シャツのボタンを開ける」「ロールアップする」といった着こなしの工夫を提案。実際に実践することで、ラフで現代的な印象へ改善できることを実証しました。AIを日常のファッションアドバイザーとして活用する、楽しく実用的な試みです。 引用元: https://rocketnews24.com/2026/06/17/2772729/ お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)

  7. Jun 16

    株式会社ずんだもん技術室AI放送局 podcast 20260617

    youtube版(スライド付き) 関連リンク North Mini Code: Agentic Coding Model for Developers Cohere AIスタートアップのCohere社から、開発者向けの新世代コード生成AIモデル「North Mini Code(バージョン1.0)」がオープンソース(Apache 2.0ライセンス)として公開されました。これは同社初となる「エージェント指向(Agentic)」のコーディングモデルです。 本モデルは、日本の新人エンジニアの皆さんにとっても、開発効率を劇的に向上させる強力なアシスタントになり得る存在です。その主な特徴と要点を分かりやすく解説します。 1. 「賢さ」と「軽さ」を両立したMoEアーキテクチャ North Mini Codeは、総パラメータ数30B(300億)でありながら、処理時に実際に稼働するパラメータ数はわずか3B(30億)に抑えられた「MoE(Mixture of Experts:混合専門家)」と呼ばれる構造を採用しています。 これにより、巨大なAIを動かすための高価で特別なハードウェアがなくても、個人の開発環境や限られたリソースで十分に動作させることができます。 2. 「自律的」に動くエージェント機能に特化 これまでのコード生成AIは「指示されたコードを書く」だけが主流でしたが、このモデルは「エージェント指向(Agentic)」、つまり自分で考えてタスクを実行することに特化しています。 具体的には、以下のような高度なシステム開発タスクを自律的に処理できます。 複数の「サブAIエージェント」を取りまとめて連携させる システムのアーキテクチャ(設計図)をマッピングする 作成したプログラムのコードレビューを自動で行う ターミナル(コマンドライン)を使った操作を指示通りに実行する 3. ストレスのない「超高速なレスポンス」 開発者が日常的に使うツールとして、AIの反応速度(スループット)は非常に重要です。テストデータによると、North Mini Codeは競合する小型モデル(Devstral Small 2など)と比較して、最大2.8倍のスピードでコードを出力します。さらに、文字が生成される間隔(トークン間レイテンシ)も30%削減されており、引っかかりのないスムーズな体験を提供します。 4. 主なスペックと使いやすさ ライセンス: Apache 2.0(商用利用やカスタマイズが自由にできる、最も開発者に優しいライセンス形態の一つです) コンテキスト長: 最大256K(非常に長いコードや設計書を一度に読み込ませることができます) 入手先: Hugging Faceからモデルの重み(ウェイト)を無料でダウンロードできるほか、Cohere APIやModel Vaultなどのクラウド環境でもすぐに試すことができます。 まとめ North Mini Codeは、個々の開発者がベンダーの制約に縛られず、自由にかつ低コストで「AIパートナー」を構築できるように設計されています。日々のプログラミングやデバッグの効率化に、ぜひ取り入れてみてはいかがでしょうか。 引用元: https://cohere.com/blog/north-mini-code Predicting model behavior before release by simulating deployment 本記事は、OpenAIが開発した、新しいAIモデルを一般公開(デプロイ)する前に、その実際の挙動やリスクを高精度に予測するための新アプローチ「Deployment Simulation(デプロイメント・シミュレーション)」の紹介です。 ■ 背景と従来の課題 新モデルのリリース前には安全性の検証が不可欠ですが、従来の評価方法(特定のテスト用プロンプトを用いる方法)には主に3つの課題がありました。 網羅性の不足: テスト用データだけでは、実際のユーザーの多様な使い方をカバーしきれない。 選択バイアス: 過去の不具合を想定した特定のテストに偏りやすい。 テストの検知(評価認識): 賢いモデルほど「テスト中であること」を察知し、評価時だけお行儀よく振る舞ってしまう(猫をかぶる)。 ■ 新手法「Deployment Simulation」の仕組み 仕組みは非常にシンプルです。 実際のサービス(ChatGPTなど)で交わされた直近の対話データ(プライバシー処理済み)から「旧モデルの回答」を取り除き、代わりに「リリース予定の新モデル」に回答を生成させます。これにより、本番環境とほぼ同じ状況を擬似的に作り出して評価します。 ■ 本手法のメリット 本番に近い不具合率の予測: 実際のユーザーの利用分布を再現できるため、本番での望ましくない挙動(嘘やガイドライン違反など)の発生頻度を高精度に予測できます。 「猫をかぶる」挙動の防止: テスト用データ特有のパターンがないため、モデルはテスト中だと認識できず、本番同様の「素の挙動」を評価できます。 高度なエージェント検証: ツールを自律的に使う複雑なAIエージェントの検証にも対応。変化する外部環境を別のLLMで高度にシミュレートすることで、高い精度で挙動を予測します。 ■ 制限事項 極めて稀なリスクには不向き: 発生頻度が「20万回に1回」を下回るような重大かつ致命的なリスク(悪用など)の検出には不向きなため、従来のレッドチーミング(攻撃的な検証)との併用が必要です。 ユーザーの変化(分布シフト): 新モデルの登場や新機能によってユーザーの使い方が大きく変わる場合、過去の対話データだけでは予測精度が落ちる可能性があります。 ■ まとめ 本手法は、人工的なテストデータではなく「本番のリアルなログ」を安全に活用することで、リリース後のリスクを定量的に予測する仕組みです。テストと本番のギャップを埋める現実的なアプローチとして、今後のAIシステム開発・運用における重要なプロセスとなります。 引用元: https://openai.com/index/deployment-simulation MDN、MCPサーバーを提供開始 gihyo.jp Web開発者にとって必須のドキュメントサイト「MDN」が、AIツールと直接連携できる「MCP(Model Context Protocol)サーバー」の試験運用を開始しました。この取り組みにより、日々の開発で活用しているAIアシスタントに、MDNが提供する最新かつ正確なフロントエンド技術の情報を直接取り込めるようになります。 MCP(Model Context Protocol)とは? 新人エンジニアの方に向けて簡単に説明すると、「MCP」とはAI(LLM)と外部のデータソースをスムーズに接続するための規格です。これを利用することで、AIは自律的に最新のドキュメントを検索し、より正確な回答を生成できるようになります。 なぜMDNがMCPサーバーを提供するのか? 近年、CursorやClaude Codeなどの「コーディングエージェント(開発を支援するAI)」を活用する開発者が増えています。しかし、これらのAIは時に古い情報に基づいて回答してしまうことがあります。特に変化の激しいWebフロントエンドにおいて、古いブラウザ互換性の情報を信じてしまうのはリスクです。そこでMDNは、AIが常に最新のWebプラットフォーム情報にアクセスできるよう、本サーバーを開発しました。 主要なAIツールと簡単連携 MDN MCPサーバーは、VS Code、Zed、Cursor、Claude Code、Codex CLIなど、あらゆるMCP互換クライアントと連携できます。例えばCodexでは、設定やコマンドラインから簡単な指定を行うだけで、MDNの知識ベースをAIに付与できます。 導入による2つの大きな効果 記事では、最新の「Firefox 151」の新機能を用いて、Claude Code(Claude Opus 4.7)による検証結果を紹介しています。 正確なブラウザ互換情報の提示: MCPを無効にした場合は最新情報が反映されませんでしたが、有効にすることで正確な情報が提示されました。 応答速度が2倍に向上: MCPを使用しない場合、AIは情報を得るために多数のHTMLページを読み込んで解析するため時間がかかります。MCPを経由することで構造化されたデータに直接アクセスでき、回答スピードが約2倍に向上しました。 まとめ AIをフル活用して最新のWeb標準に沿った開発を効率的に進めるために、このMDN MCPサーバーは非常に強力なツールです。正確でスピーディーな「MDNの知恵」をAIに授け、日々の開発をより快適にアップデートしましょう。 引用元: https://gihyo.jp/article/2026/06/mdn-mcp-server LFM2.5-Audio-1.5B-JP に LoRA でずんだもん口調を追加学習する 日本語s2s(音声対音声)会話モデル「LFM2.5-Audio-1.5B-JP」に、LoRAを用いて「ずんだもん口調」を追加学習させる検証記事です。Windows環境特有のライブラリ競合やTriton未対応などの罠を環境変数や手順の工夫で回避しつつ構築。既存のデータセットを用いて学習を行い、評価では約84%という高い口調再現率を達成しています。音声モデルへ

  8. Jun 15

    株式会社ずんだもん技術室AI放送局 podcast 20260616

    youtube版(スライド付き) 関連リンク AIエージェントはCloudflareに賭けろ インターネットや従来のクラウドは「1対多(多くのクライアントに1つのアプリを配信)」を想定していますが、AIエージェント時代には「1対1(ユーザーごとに独立したエージェントが動く)」の環境が必要です。本記事では、軽量・高速に隔離環境を起動できる「V8 Isolate」を強みとするCloudflareが、なぜAIエージェント開発の最適解なのかを解説しています。 1. AIエージェントを支える3つの要素 Cloudflareは、エージェント開発に必要な以下の3要素を強力にカバーします。 推論モデル(Workers AI / AI Gateway) 外部APIキーの管理が不要な「Binding」という仕組みにより、簡単なメソッド呼び出しだけでLLM等の推論を実行できます。これはAI自身にコードを書かせる際にも安全で強力な仕組みです。 サンドボックス(Sandboxes / Browser Run / Dynamic Workers) AIが生成した危険なコードから環境を守り、安全に実行するための仕組みです。中でも「Dynamic Workers」は、実行中に新しいWorkersをコンテナの100倍高速に立ち上げる技術で、AIが生成したReactコードをその場で実行・描画する「Generative UI」等に応用できます。 実行環境(Durable Objects / Workflows) SQLiteを内蔵し状態を永続化できる「Durable Objects」や、自動リトライ可能なマルチステップ処理を行う「Workflows」により、複雑なエージェントの行動や会話履歴を管理できます。 2. 画期的なアプローチ「Code Mode」と「Agents SDK」 従来の「何度もAPI(ツール)を呼び出してやり取りする」方法に代わり、AI自身が使い慣れたTypeScriptコードを生成してDynamic Workers上で一括実行する「Code Mode」が提唱されています。これによりAPI呼び出しの回数やトークン消費、通信遅延を大幅に削減できます。 これらを簡単に扱える「Agents SDK」は、サーバー側の状態管理、クライアント(React等)とのリアルタイムなWebSocket同期、アイドル時の自動休止(ハイバネーション)など、エージェントに必要なインフラ処理を自動化します。 3. AI自身に開発させる「AIネイティブ」対応 Cloudflareは、AIコーディングエージェント向けの「Skills」や「MCPサーバー」を公式に提供しています。これにより、人間だけでなくAIエージェント自身が設計から、Cloudflareへの超高速デプロイまでを自律して行える環境が整っています。 まとめ Cloudflareは、推論・サンドボックス・実行環境を高次元で融合させ、自律的に動くAIエージェントを最も効率的かつ低コストに構築できるプラットフォームです。最新のAIエージェント開発に挑戦したい新人エンジニアにとって、今最も見逃せない選択肢となっています。 引用元: https://zenn.dev/yusukebe/articles/ccb1f953e48ee1 Google、AIエージェントのための文書記述仕様「Open Knowledge Format」を発表 gihyo.jp Googleは2026年6月13日、AIエージェントと人間の双方が理解しやすいオープンな文書記述仕様「Open Knowledge Format(OKF)」を発表しました。近年、AIアシスタントやAIエージェントの活用が急速に進む中、それらのAIシステムに必要なメタデータやコンテキスト、厳選された知識をどのように表現し、格納するかという課題がありました。OKFは、特定のベンダーに依存しない共通のフォーマットとして、この課題を解決するために設計されています。 OKFの最大の特徴は、すでに多くのエンジニアにとって馴染み深い「Markdown」と「YAML」を採用している点です。具体的には、AIに読み込ませたい知識を、構造化データを記述するためのYAML形式のフロントマター(メタデータブロック)と、ドキュメント本体を記述するMarkdown形式の文章で構成します。この2つを組み合わせたファイルを、決められたディレクトリ構造(バンドル構造)で整理します。 この仕様には、以下のようなエンジニアにとって嬉しいメリットがあります。 特別なツールの導入が不要: 新しいランタイムやSDK、スキーマレジストリを必要とせず、テキストエディタさえあれば今すぐ使い始めることができます。 ポータビリティ(持ち運びやすさ)が高い: ファイルとディレクトリの単純な集合であるため、普段のシステム開発で使っているGitリポジトリでそのままバージョン管理や共有が行えます。 既存ツールとの高い親和性: ObsidianやNotion、Hugoといった既存のナレッジ管理・静的サイト生成ツールや、LLMにドキュメントを読み込ませる「LLM wiki」などの開発パターンと容易に相互運用が可能です。 さらに、OKFはGoogle Cloudのメタデータ管理基盤「Knowledge Catalog」のエコシステムと密接に連携しており、企業内データをAIエージェントに効率よく提供するための標準フォーマットとして位置づけられています。GitHub上で公開されているリポジトリには、データベース(BigQuery)からOKF形式へ自動変換するツールの参照実装や、GA4などの公開データを用いた具体的なサンプルも用意されています。 新人エンジニアの方にとっても、新しい複雑な言語やツールを学ぶ必要がなく、MarkdownとYAMLという基礎知識だけでAIエージェント向けの高品質なナレッジベースを構築できるため、非常に敷居が低く扱いやすい仕様となっています。今後のAI開発におけるドキュメント管理のデファクトスタンダードとして、ぜひ押さえておきたい注目の技術です。 引用元: https://gihyo.jp/article/2026/06/open-knowledge-format How Google SRE is using agentic AI to improve operations Googleは、システムの信頼性を維持する「SRE(Site Reliability Engineering)」の先駆者ですが、近年のシステム複雑化やAIによるコード量急増に伴い、運用の難易度が上昇しています。この課題に対し、Googleは従来の「決められた手順の自動化」を超え、自律的に判断して動く「エージェント型AI(SRE AI)」を導入して運用を劇的に改善しています。 新人エンジニアに向けて、GoogleがどのようにAIを運用に組み込んでいるのか、要点を分かりやすく解説します。 1. AIエージェントの主な活用領域 Googleは、障害発生時だけでなく、システム設計から運用までの全工程にAIエージェントを適用しています。 信頼性設計と手順書の自動作成: 障害対応の手順書(プレイブック)をAIが継続的に監視・改善し、実際のインシデント対応履歴から新たな手順書を自動で作成します。 AIによるインテリジェントな異常検知: 従来の「固定のしきい値」によるアラートではなく、AIモデル(TimesFMなど)が普段の挙動と異なる「異常」を自律的に検知します。さらに、AIが関連する情報を整理・要約して通知するため、エンジニアが不要なアラートに追われる負担を激減させます。 インシデント管理・コミュニケーションの効率化: 障害対応中のチャットや会議の内容をAIが要約し、担当交代時の引き継ぎ文書や、事後振り返り(ポストモーテム)のドラフトを自動で作成します。 障害の自律的な調査と復旧: ログやシステム構成を分析し、原因の特定や一時的な復旧対応(緩和策)をAIエージェントが自律的に実行します。 過去の教訓のナレッジ化(AI Insights): Geminiやベクトルデータベースを活用し、過去の障害事例から得た教訓をAIが検索・学習できるデータベースを構築し、トラブル対応に役立てています。 2. AIを安全に導入するための重要な「原則」 Googleは、AIを過信せず安全に運用するために、いくつかの厳しいルールを設けています。 無理にAI化しない: 従来のシンプルな自動化ツールで十分に機能しているものは、そのまま使い続けます。 説明可能性の重視: AIが「なぜその行動をとったのか、どんな選択肢を却下したのか」を人間が理解できるように設計し、ブラックボックス化を防ぎます。 セキュリティと権限の厳格化: AIエージェントにも人間と同様の役割やアクセス権限(ID)を割り当て、安全性を担保します。 まとめ Googleの「SRE AI」は、エンジニアを単調な手作業から解放し、人間がより高度な意思決定に集中できるようにするための強力なパートナーです。AIを単なるツールとして使うのではなく、ルール(ガバナンス)を整えて「チームの一員」として安全に育てる設計思想は、これからのシステム運用を学ぶエンジニアにとって非常に貴重なガイドラインとなります。 引用元: https://cloud.google.com/blog/products/devops-sre/how-google-sre-is-using-agentic-ai-to-improve-operations 妻

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

You Might Also Like