株式会社ずんだもん技術室AI放送局

私立ずんだもん女学園放送部 podcast 20250829

関連リンク

  • Introduction - Agent Client Protocol

新人エンジニアの皆さん、こんにちは!今回は、これからの開発に欠かせなくなるかもしれない「Agent Client Protocol(ACP)」という新しい技術標準について、分かりやすく説明しますね。

ACPは、皆さんが普段使っているVisual Studio CodeやVimのような「コードエディタ」と、ChatGPTのようにコードを自動で書いたり修正したりする「AIコーディングエージェント」が、スムーズに情報交換するためのルールブックのようなものです。まだ開発途中ですが、これから色々な便利なツールを作る基盤として期待されています。

なぜACPが必要なの? これまでのAIエージェントとエディタの連携には、いくつかの困った点がありました。

  • 開発の手間が大きい: 新しいAIエージェントが登場するたびに、それぞれのエディタに合わせて専用の連携機能を作る必要がありました。
  • 使える組み合わせが限られる: あるAIエージェントが、特定のエディタでしか使えない、といったことがよくありました。
  • ツールの選択肢が狭まる: 使いたいAIエージェントのために、あまり好みではないエディタを使わざるを得ない、なんてことも。

これらの問題を解決するために、ACPが提案されました。これは、ちょうどプログラミング言語の「Language Server Protocol(LSP)」が、エディタと各言語の機能(コード補完やエラーチェック)を連携させるのを標準化したのに似ています。ACPがあれば、AIエージェントは一度ACPに対応すれば、どんなエディタでも動くようになりますし、エディタも一度ACPに対応すれば、たくさんのAIエージェントと連携できるようになるんです。これによって、エディタ開発者もAIエージェント開発者も、それぞれ独立して新しい機能を作りやすくなり、私たち開発者はより自由に最適なツールを選べるようになります。

ACPってどんな仕組み? ACPは、基本的に皆さんがエディタを使っている中で、AIエージェントに手伝ってほしい時に利用することを想定しています。AIエージェントは、エディタの裏側で動き、JSON-RPCという形式で情報をやり取りします。表示される文章などはMarkdown形式を使うので、リッチな表示も可能です。

すでに一部のエディタ(Zed、neovimのプラグイン)やAIエージェント(Gemini)が対応を始めています。ACPが広まることで、AIと協力しながらもっと効率的に開発できる未来が、さらに近づいてくるでしょう!

引用元: https://agentclientprotocol.com/overview/introduction

  • Building your own CLI Coding Agent with Pydantic-AI

この記事は、Pydantic-AIフレームワークとModel Context Protocol (MCP) を活用し、独自のCLIコーディングエージェントを構築する方法を紹介しています。

CLIコーディングエージェントは、ChatGPTのようなチャットボットやCopilotのようなコード補完ツールとは異なり、コードを理解し、テスト実行、ドキュメント検索、さらにはコードベースに直接変更を加えることができる「開発パートナー」のような存在です。著者は、汎用的な市販ツールでは得られない、プロジェクト固有のニーズへの対応や、AIシステムの仕組みを深く理解するために、自作に挑戦しました。

エージェント構築の核となるのは、Model Context Protocol (MCP)です。これは、AIモデルが多様な「ツール」(機能)と標準化された方法で連携するためのオープンなプロトコルで、まるでAIアプリケーションのUSB-Cポートのように機能します。これにより、必要な機能をプラグインのように簡単に追加できます。

構築はAWS Bedrock上のClaudeモデルを基盤にスタートし、以下のように段階的に機能を強化していきました。

  1. テスト実行機能: ユニットテストを自動実行し、失敗を特定して修正を提案。
  2. 開発ガイドラインの組み込み: 「実装を修正し、テストは変更しない」といったチームの指針をエージェントに教え込み、望ましい行動を促します。
  3. サンドボックスPython実行: 安全な環境でコードを試行・検証し、複雑な計算の正確性を高めます。
  4. 最新情報の参照: 最新のライブラリドキュメントやインターネット検索を通じて、常に最新の情報をエージェントに提供します。
  5. 構造化された問題解決: 「Code Reasoning」ツールにより、複雑な問題を論理的に分解し、体系的に解決する能力を付与。
  6. 開発環境操作(Desktop Commander): ファイルの読み書き、コマンド実行、コードの編集など、開発環境で具体的な操作を可能にします。これにより、エージェントはテスト実行からコード修正、再テストまでの一連のデバッグ作業を自律的に行えるようになります。

これらの機能連携により、デバッグ、学習、問題解決、コードレビューといった開発ワークフローは大きく変化します。AIは単なるアシスタントではなく、エラー分析、修正案の提案、検証、ドキュメント参照、コード変更までを一貫して行える「知的パートナー」となるのです。

この経験から、複数の機能を連携させるMCPの重要性、最新情報へのアクセス、構造化された思考、そしてプロジェクトに特化させることの価値が明らかになりました。AIがソフトウェア開発の未来をどのように変えるのか、それを最も深く理解する方法は、自らの手で作り上げてみることだと、この記事は示唆しています。AIは、単にコードを速く書く手助けをするだけでなく、開発者の目標や制約を理解し、共同で問題を解決する真のパートナーへと進化するでしょう。

引用元: https://martinfowler.com/articles/build-own-coding-agent.html

  • Introducing gpt-realtime and Realtime API updates for production voice agents

OpenAIが、リアルタイムでの音声対話に特化した新しいAIモデル「gpt-realtime」と、そのための「Realtime API」の機能を一般公開しました。これは、皆さんが普段利用するAIアシスタントや、企業の顧客サポートなどで使われるAI音声エージェントを、より高性能で信頼性の高いものにするための大きな一歩です。

新しいAIモデル「gpt-realtime」のすごい点

この「gpt-realtime」は、音声と音声の間で直接やり取りする「スピーチ・トゥ・スピーチ」という方式で動く、最も進化したモデルです。今までのAI音声システムが「音声を文字に変換→文字で考えて返答→文字を音声に変換」という段階を踏んでいたのに対し、「gpt-realtime」は直接音声で考え、音声で返答します。これにより、以下のようなメリットがあります。

  • より自然な会話: 人間のような抑揚や感情、速さで話せるようになり、まるで本物の人間と話しているかのような自然な会話ができます。例えば、「優しく、ゆっくり話して」といった細かい指示にも対応します。
  • 高い理解力: 複雑な指示を正確に理解したり、会話中の笑い声のような非言語的なニュアンスも捉えたりできます。また、英語と日本語を混ぜた会話でもスムーズに対応し、電話番号などの数字列の認識精度も向上しました。
  • 賢いツール利用: AIが外部のシステム(データベースや予約システムなど)と連携する「ツール呼び出し」の精度が大幅に向上しました。さらに、ツールが結果を返すまでの間も会話を途切れさせず、スムーズに続けられるようになりました(非同期関数呼び出し)。
  • 新しい声の追加: 「Marin(マリン)」と「Cedar(シダー)」という2つの新しい声が追加され、既存の声もより自然になりました。

Realtime APIの新たな機能でできること

このAPIを使うことで、AI音声エージェントはさらに多様なことができるようになります。

  • 画像入力のサポート: 音声だけでなく、写真やスクリーンショットなどの画像もAIに渡せるようになりました。これにより、「この写真に何が写ってる?」といった視覚情報