株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局
株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 1D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20250716

    関連リンク mistralai/Voxtral-Mini-3B-2507 · Hugging Face このドキュメントは、AI分野で注目されるMistral AIがHugging Faceで公開した、新しい大規模言語モデル(LLM)「Voxtral-Mini-3B-2507」について説明しています。このモデルは、既存の「Ministral 3B」というLLMをベースに、特に音声(オーディオ)の入力処理能力を大幅に強化した点が大きな特徴です。 Voxtral Miniは、従来のテキスト処理能力を維持しつつ、最新の音声入力に対応しており、以下のような多様な機能と高い性能を持っています。 高精度な音声の書き起こし(転写): 音声をテキストに変換する能力が非常に優れており、話されている言語を自動で判断して正確に書き起こします。例えば、会議の議事録作成などに役立ちます。 長時間の音声に対応: 最大30分の音声書き起こし、または40分の音声内容の理解に対応できるため、長い講演やインタビューの内容を効率的に処理できます。 音声からの質問応答と要約: 音声で直接質問を投げかけたり、音声の内容を自動で要約したりする機能が組み込まれています。これにより、音声認識とテキスト処理のシステムを別々に使う手間がなくなり、よりスムーズに音声情報を分析できます。 多言語対応: 英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語といった世界中の主要な言語において、高い性能を発揮します。 音声による機能呼び出し: 音声での指示に基づいて、特定のプログラム機能(APIなど)を直接実行できるため、音声で操作するAIアシスタントやシステムへの応用が期待されます。 ベンチマークテストの結果でも、音声認識とテキスト処理の両方で高い性能が示されており、その実力が裏付けられています。 このVoxtral Mini-3B-2507は、vLLMという高速な推論ライブラリを使って利用することが推奨されています。具体的な導入方法や使い方の詳細はHugging Faceのページで確認できますが、このモデルを活用することで、音声を使った新しいAIアプリケーションの開発の可能性が大きく広がると期待されています。 新人エンジニアの皆さんにとっては、音声とテキストの両方を高度に扱えるLLMとして、今後のAI開発のトレンドを学ぶ上で非常に参考になるモデルです。音声AIの分野で何か新しいことに挑戦したいときに、強力な武器となるでしょう。 引用元: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Grok コンパニオンAniあそびかた~攻略【技術解説有】 Grokから、3Dキャラクターと対話できる新しいコンパニオンモード「Ani」がリリースされました。この機能は基本無料で利用でき、AIアシスタントやLLMの新たな活用事例として注目されています。特に日本の新人エンジニアの方々に向けて、その技術的なポイントを中心に解説します。 Aniは、単に会話するだけでなく、3Dキャラクターが音声に同期した自然なジェスチャーを見せたり、ユーザーとの好感度に応じて反応を変えたり、特定の「行動(アクション)」を実行したりするのが特徴です。 このコンパニオンモードの核となる技術の一つは、Animation Inc.が開発した「音声連動ジェスチャー生成ローカルモデル」です。このモデルは、音声からリアルタイムで自然なキャラクターの動きを生成し、モバイルデバイス上で高速に動作するよう軽量化されています。記事によると、現在iOSのみ対応しているのは、このモデルがiOS向けに最適化されているためと考えられます。 もう一つの重要な技術は、キャラクターの「行動(アクション)」機能です。これは、LLM(大規模言語モデル)の「Function Calling」という仕組みを活用しています。通常のLLMはテキストを生成するだけですが、AniではLLMが「ジャンプ」や「ダンス」といった事前に登録された特定のアクションを明示的に発動する指示を生成します。これにより、キャラクターがユーザーの指示や状況に応じて、より具体的な動作を実行できるようになっています。 さらに、Aniには「好感度システム」が導入されています。ユーザーの会話内容をLLMが評価し、好感度が変化することで、キャラクターの表情や反応が変わる仕組みです。これもFunction Callingと同様に、LLMがユーザーの入力に応じて特定の内部パラメータ(好感度)を操作する形で実現されていると考えられます。 これらの技術の組み合わせにより、Aniは従来の音声対話型AIの弱点であった「明示的な動作の発動」や「自身の動作内容の自覚」を、LLMと3Dキャラクターのハイブリッド形式で解決しています。 著者は、このGrokコンパニオンモードが、LLMと身体性を持つキャラクターの融合として非常に完成度が高く、今後のAIアシスタントやインタラクティブなAIの可能性を示唆していると評価しています。将来的には、ユーザーが好きな3DモデルをアップロードしてAIと対話できるような機能も期待されるとのことです。 引用元: https://note.com/abelia_0211/n/n1b88717c69cc Docker MCP Gatewayがすんばらしい👌 この記事では、Dockerの新機能「MCP Gateway」について、その魅力と基本的な使い方を分かりやすく解説しています。MCP(Model Context Protocol)Gatewayは、LLM(大規模言語モデル)やAIアプリケーション開発において、様々な外部ツールやサービス(これらを「MCPサーバー」と呼びます)を効率的に連携・管理するための仕組みです。 例えば、皆さんがChatGPTのようなLLMを使う際、最新情報を検索したり、特定のウェブサイトの内容を要約したりする機能があったら便利ですよね。こうした「外部の能力」をLLMに提供するのがMCPサーバーの役割です。通常、これらのMCPサーバーは個別に用意され、利用するアプリケーション(MCPクライアント)が直接それぞれのサーバーと通信する必要がありました。MCPクライアントが増えるほど、接続先が散らばり、管理が複雑になるという課題がありました。 そこで登場するのがMCP Gatewayです。Gatewayは、複数のMCPサーバーへの「窓口」を一つにまとめてくれる役割を果たします。これにより、クライアントはGatewayにだけ接続すればよく、Gatewayが背後で複数のMCPサーバーを束ねて管理してくれるため、全体の構成が驚くほどシンプルになります。これはまるで、たくさんの専門家(MCPサーバー)がいる大きなオフィスビル(システム)に、すべての依頼を一箇所で受け付けて振り分けてくれる受付(Gateway)ができたようなものです。 MCP Gatewayを使うことで、具体的に次のような嬉しいメリットがあります。 開発環境の統一と安定: 各MCPサーバーはDockerコンテナとして動きます。これにより、利用するOSやプログラミング言語(Python、Node.jsなど)のバージョン違いに悩まされることがなくなります。それぞれのサーバーが独立した環境で動くため、互いの影響を受けにくく、開発者は「自分の環境では動くのに…」といったトラブルから解放されます。 接続管理の簡素化: クライアントからGatewayへの接続が一点に集中するため、複数の開発メンバーや異なるPCからでも、同じGatewayを経由してMCPサーバー群に簡単にアクセスできます。リモートでの共同開発にも非常に便利です。 柔軟な管理: Dockerが提供するMCPカタログから、ウェブ検索(Tavily)やURLからの情報取得(fetch)など、多種多様なMCPサーバーを簡単に追加・有効化できます。また、APIキーなどの機密情報を安全に管理したり、有効にするツールを細かく指定したりすることも可能です。さらに、独自のMCPサーバーを開発して、自分だけのカタログとして利用することもできます。 記事では、実際にDocker MCP Pluginをインストールし、Amazon Q Developer CLIなどのMCPクライアントからGateway経由でMCPサーバーの機能を利用する様子が詳細に説明されています。これにより、LLMの能力を拡張し、より賢いAIアプリケーションを効率的に開発できるようになるでしょう。 MCP Gatewayはまだプレリリース版ですが、LLMやAIアプリケーション開発におけるツールの連携と管理を劇的に改善する可能性を秘めています。開発チーム全体で共通のGatewayを導入することで、開発効率の向上と安定した運用が期待できます。 引用元: https://qiita.com/moritalous/items/8789a37b7db451cc1dba 「初めて見た!」人気キャラの正しい使われ方 話題になった理由は…「もとは和菓子なのかな」 AI音声キャラク

  2. 2D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20250715

    関連リンク AIエージェントのサービス構築を検討しているあなたへ この記事は、これからAIエージェントサービスを開発する新人エンジニアに向けて、その基本的な概念から実践的な構築ガイドまでを分かりやすく解説しています。 AIエージェントとは、ユーザーに代わってタスクを自律的に遂行するシステムです。従来の決まったルールで動く自動化とは異なり、AIエージェントは高度な判断が必要な複雑なワークフロー(例えば、支払い不正の分析や、複雑な顧客対応、非構造化データの処理など)で特に力を発揮します。 AIエージェントの設計には、主に3つの大切な要素があります。 モデル: エージェントの「頭脳」となるLLM(大規模言語モデル)のことです。タスクの複雑さやコストを考慮して適切なモデルを選びますが、最初は高性能なモデルで動かしてみて、後からコストの低い小型モデルに切り替えるのがおすすめです。 ツール: エージェントが外部システムと連携して情報を取得したり、実際のアクションを実行したりするためのAPI(アプリケーションプログラミングインターフェース)です。データ検索、情報更新、他のエージェントとの連携など、さまざまな機能を提供します。 指示 (Instructions): エージェントがどのように振る舞うかを定める明確なガイドラインです。既存の業務手順書などを参考に、タスクを細かいステップに分け、具体的なアクションを定義し、想定外の状況(エッジケース)にも対応できるように工夫することが重要です。 エージェントの連携方法(オーケストレーション)には2つの主要なパターンがあります。 シングルエージェントシステム: 1つのエージェントが、必要なツールを増やしながら様々なタスクを処理する方法です。まずはこのシンプルな構成から始めることが推奨されています。 マルチエージェントシステム: 複数のエージェントが協力してタスクをこなす方法で、複雑なワークフローでパフォーマンスや拡張性を高めたい場合に検討します。「マネージャー型」(指揮役のエージェントが専門エージェントに指示を出す)と「分散型」(複数のエージェントが対等にタスクをバトンリレーする)があります。 そして、AIエージェントを安全に運用するために不可欠なのが「ガードレール」です。これは、エージェントが危険な領域に逸脱しないように設ける「安全柵」のようなものです。ユーザー保護、機密情報保護、システム保護、ブランド保護などを目的に、入力のフィルタリング、不適切コンテンツの検出、ツール利用の制限など、複数の対策を組み合わせて多層的に防御します。開発初期から完璧を目指すのではなく、運用しながら段階的に強化していくのが効果的です。 この記事では、さらにAzure AI Agent Serviceを活用した実践的な実装例も紹介しています。これは、マネージャー型マルチエージェントシステムをAzureのサービス「Connected Agents」を使って構築するハンズオンの概要で、ユーザーからのリクエストをRouter Agentが受け取り、一般的な質問はGeneral Agent、簡単な質問はFAQ Agent、専門的な質問はExpert Agentといったように、適切な専門エージェントに振り分ける仕組みを簡単に実現できることが示されています。 AIエージェントのサービス構築は、まずは小規模な構成から始め、実際の利用状況に合わせて徐々に能力を拡張していくことが成功への道筋です。 引用元: https://zenn.dev/microsoft/articles/azure_nextjs_multi_agent 10個のAIアプリケーションと3個のAIエージェントを1人で開発してみた AIエンジニアの逆瀬川さんが、この半年間で個人開発した10個のAIアプリケーションと3個のAIエージェントについて紹介しています。これらの開発の背景には、「AIパートナー」というAIアシスタントの“手足”となるシステムを作り、現在の不便なAI利用体験を改善したいという強い思いがあります。Googleのような大企業が取るような戦略を個人で実行した点が特徴的です。 開発された3つのAIエージェントは、それぞれ異なる環境でのタスク自動化を目指しています。 Task Agent: 事前に用意されたツールを組み合わせてタスクをこなす「ツールベース」のエージェントです。20種類以上のツールを搭載し、柔軟な設計で新しいツールも簡単に追加できます。 Computer Agent: パソコン(Mac/Windows/Linux)上のソフトウェアを操作し、任意のタスクを実行します。AIが計画通りに進まない「操作ミスのループ」に陥った際に、連続して同じような行動を繰り返した場合に計画を見直す「フィードバック機構」を設けるなど、AIが自己改善できるように工夫されています。 RPA Agent: パソコン上で一度録画した作業を元に、その続きの作業や定期的な反復作業を自動で行います。複雑な操作にも対応し、作業手順を自動で作成する機能も持っています。 さらに、多岐にわたる10個のAIアプリケーションも開発されています。 AI Study: 資料をアップロードすると、チャットやレクチャー、スライド、動画を自動生成。動画生成はわずか3秒と超高速。 AI Translator: ファイルの自動翻訳。画像やPDFでもレイアウトを保ちながら翻訳できる点が特徴。 AI Video Translator: 動画の吹替や字幕を自動生成。翻訳後の発話量や話速を考慮して自然な吹替を実現。 AI Slide Generator: スライドを瞬時に自動生成。軽量モデルの採用で、高速な動作を実現しています。 AI Stylist Assistant: 服の組み合わせを提案したり、バーチャル試着ができるシステム。リアルタイムでの試着を実現するために独自の方法を開発。 その他、一般的なAIチャット、AI検索(初期レスポンスの高速化を重視)、執筆支援、データ分析支援などがあります。特にデータ分析アシスタントでは、複雑なファイルから正確にデータを抽出する工夫がされています。 これだけのシステムを個人で開発するにあたり、アイデア出しから開発までのフローを安定させ、LLM(大規模言語モデル)の活用は、既存のコーディング支援ツールをそのまま使うのではなく、必要な部分で手動と組み合わせて使うことで効率を高めたとのことです。 筆者は、これらの成果をさらに洗練させて商品化することを目指しており、サーバー等のリソース確保のため企業からの協力を呼びかけています。 引用元: https://zenn.dev/sakasegawa/articles/2a7119364775e7 Raspberry PiでリモートからアクセスできるAIエージェントを作る この記事は、Raspberry Pi(ラズパイ)という小型コンピューターを使って、どこからでもアクセスできるAIエージェントを構築し、「Vibe Coding」(生成AIを活用して、思いついた時にすぐコーディングできるような環境)を実現する方法を紹介しています。まるで自宅に自分専用のAIアシスタントがいて、お風呂や布団の中からでも声をかけるだけで様々な作業を任せられるような、夢のような環境を構築することが目的です。 構築の核となるのは、ラズパイと大規模言語モデル(LLM)の一つであるClaude Codeです。まず、ラズパイを準備し、GitHub CLIやパッケージ管理ツールなどの開発環境、そして安全なリモート接続を可能にするTailscaleを設定します。 スマートフォンからのアクセス方法は主に二つあります。一つは「SSHアクセス」です。これはTailscaleを使って安全にラズパイに遠隔接続し、コマンドラインで操作する方法です。接続が切れてもAIの処理が中断しないように、byobuというツールを使うと便利だと説明されています。もう一つは「ブラウザでアクセス」する方法です。これは、著者が自作した「llm-assistant」というWeb UI(ユーザーインターフェース)をラズパイ上で動かし、Tailscale経由でスマートフォンのブラウザからアクセスできるようにするものです。このWeb UIは音声認識にも対応しており、「美味しいからあげについてリサーチして、レポートとしてNotionの調査データベースにまとめておいて」といった自然言語での指示が可能です。 このシステムを構築することで、ラズパイが24時間稼働のパーソナルAIコーディングアシスタントとなり、場所を選ばずにAIを活用した作業ができるようになります。ただし、自作Web UIのセットアップでは、セキュリティリスクを伴うオプション(--dangerously-skip-permissions)を使用しているため、利用には注意が必要であること

  3. 3D AGO

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250714

    関連リンク サンドボックス環境を MCP サーバーで提供する Container Use 近年、Claude CodeやCursorといったAIコーディングエージェントが、プログラミングの生産性を大きく高めています。しかし、これらのAIエージェントは、あなたのパソコン上で任意のコマンドを実行できるため、使い方を間違えると、大切なファイルが削除されたり、システムが危険にさらされたりするリスクがあります。例えば、rm -rf ~/のようなコマンドが意図せず実行されると、あなたのホームディレクトリのデータが消えてしまうかもしれません。 多くのAIエージェントは、コマンドを実行する前にユーザーに許可を求めますが、頻繁に許可を求められると、次第に確認がおろそかになりがちです。また、エージェントによっては、一切許可を求めずに自動でコマンドを実行するオプションもあり、その場合、あなたがAIエージェントの動作を把握できなくなります。 このようなセキュリティ上のリスクを減らすために注目されているのが「サンドボックス環境」です。サンドボックス環境とは、AIエージェントが実行するすべての操作を、あなたのパソコンのシステムから隔離された、安全な仮想空間の中で行う仕組みです。これにより、もしAIエージェントが誤って危険なコマンドを実行したとしても、その影響はサンドボックス内に留まるため、あなたのシステムは守られます。さらに、複数のAIエージェントを動かす際にも、それぞれが独立した環境で作業できるため、互いの作業が干渉し合う心配がありません。 Dagger社が開発した「Container Use」は、このサンドボックス環境をAIコーディングエージェントに提供するためのツールです。「MCPサーバー」(Model Context Protocolサーバー)として機能し、MCPをサポートするAIエージェントであれば、Container Useを通じて安全に開発作業を進められます。 Container Useを使うと、AIエージェントは専用のツールを使ってサンドボックス環境を作成し、その中でコマンドの実行やファイルの読み書きを行います。これにより、AIエージェントがアプリケーションを構築したり、テストしたりする過程で、あなたのPCに直接影響を与えることなく作業を進められます。あなたがAIエージェントの作業内容を確認したいときは、ログを見たり、生成されたコードの差分を確認したり、実際にAIエージェントが作業したブランチに切り替えて内容をチェックすることも可能です。AIエージェントの作業に満足したら、その成果をあなたのメインのコードに安全に取り込むことができます。 Container Useは、AIコーディングエージェントを安全かつ効率的に開発に活用するための強力な味方となるでしょう。これにより、新人エンジニアでも安心してAIエージェントを使いこなし、開発スキルを向上させることが期待されます。 引用元: https://azukiazusa.dev/blog/mcp-server-container-use/ AIでインシデント対応を民主化したい!日本語セキュリティLLM開発の挑戦と挫折、そして発見 この記事は、セキュリティ業務におけるAI活用の可能性を探る挑戦と、その過程で直面した具体的な課題、そして予期せぬ成果について書かれています。 筆者は、社内SE時代にセキュリティ専門知識が一部の人に集中し、深夜のアラート対応が属人化している現状に課題を感じていました。この経験から、「サイバー攻撃の状況を自然言語で入力すれば、危険度や対応方法を日本語で教えてくれるAIアシスタント」の開発を構想。これにより、専門家でなくてもAIと対話しながらインシデント対応ができる「民主化」を目指しました。 既存のセキュリティAIサービス(Microsoft Security Copilotなど)を調査した結果、日本語での対話能力や、特定の製品に依存しない柔軟性に課題があることを発見。そこで、「日本語で、対話的に、攻撃の”次の一手”を予測してくれる」AIを自ら開発することにしました。 目指したのは、SFT(Supervised Fine-Tuning:モデルを追加学習させる手法)、RAG(Retrieval-Augmented Generation:外部知識を参照して回答を生成する手法)、Agent(自律的に思考・行動するAI)を組み合わせたハイブリッドなシステムです。これにより、セキュリティの「思考パターン」をAIに学習させつつ、最新情報や社内固有の情報を動的に取り込むことで、実践的な支援ツールを作る狙いでした。 しかし、最大の難関は「日本語のセキュリティ学習データが存在しない」ことでした。筆者は、サイバー攻撃の知識ベースである「MITRE ATT&CK」をDeepL APIで日本語に翻訳し、さらに攻撃フェーズを示す「Cyber Kill Chain」と紐づける地道な作業を行いました。加えて、GPT-4などの生成AIを使って、この日本語知識から「初心者の質問と専門家の回答」形式の対話データセットを数千件作成しました。この大変な作業の中で、完成した「日本語化されたATT&CK × Kill Chainデータセット」自体が、LLM学習だけでなく様々な用途に使える貴重な財産となることに気づき、GitHubリポジトリで公開しています。 この後、構築したデータセットを用いてLLMのファインチューニング(モデルの微調整)に挑戦しますが、時間とコスト(高性能GPUの利用料)、セキュリティ専門用語の英語のニュアンス理解、モデル評価の難しさ、複雑な開発環境の構築といった、個人開発では乗り越えがたい大きな壁に直面し、一旦断念せざるを得ませんでした。 今後は、ファインチューニングという大規模なアプローチから、より現実的で柔軟なRAGを主軸としたアプローチに転換する予定です。既に作成した「日本語知識ベース」をRAGの知識ソースとして活用することで、LLMを再学習することなく情報を更新し、低コストで運用できるインシデント対応支援ツールの実現を目指しています。 この挑戦は、目標のAI開発には至らなかったものの、日本語の脅威インテリジェンスデータという貴重な成果と、個人でLLM開発を進める上でのリアルな知見を得られた、非常に有意義な経験であったと締めくくられています。 引用元: https://qiita.com/AxArc/items/a38568b55e711da64c94 LLMのAPIを活用したバックエンドアーキテクチャの事例を紹介します この記事では、オンライン薬剤師相談サービス「YOJO」のバックエンドシステムで、LLM(大規模言語モデル)のAPIをどのように活用し、特にその「処理の遅さ」という課題にどう対応しているかを紹介しています。 YOJOでは、薬剤師が患者へ送るチャットの文章をAIが提案したり、システムが自動でメッセージを送るか判断したりする機能にLLMを使っています。バックエンドシステムはGoogle Cloud上にRuby on Railsで構築されており、LINEからのメッセージ処理や薬剤師向けアプリのAPI提供、そして時間のかかる処理は「非同期ワーカー」という仕組みで動いています。LLMとしてはOpenAIのGPT-3.5やGPT-4モデルを主に利用し、プロンプトの管理にはPromptLayerというツールを使っています。 LLMのAPIを使う上で最も大きな課題は「応答速度の遅さ」です。GPT-4モデルを使うと、処理に10秒近くかかることもあり、これは一般的なWeb APIの応答速度と比べると非常に遅いです。この「遅い」という特性を考慮し、システム設計では以下の点に注意が必要です。 適切な非同期処理: ユーザーを長時間待たせないように、LLMを使った処理は、結果をすぐに返さず、裏側で実行する「非同期処理」にする必要があります。 他タスクとの隔離: 時間のかかるLLM処理が、他の素早い処理の邪魔をしないよう、処理を分けたり、優先順位をつけたりすることが重要です。 割り込み処理の考慮: LLMが処理中にユーザーが別の操作をした場合でも、データの不整合が起きないよう、最終的な結果を適用する際に現在の状況を確認する工夫が必要です。 これらの課題を踏まえ、記事ではLLMの処理をまるで時間のかかる「バッチ処理」のように扱うのが良いと提言しています。YOJOのバックエンドでは、LLMに関わる処理をSidekiqというツールを使って非同期で実行し、さらに「LLM処理のトランザクション管理」という仕組みでデータの整合性を保っています。この管理では、LLMジョブの開始判断(前処理)、LLM APIの実行(LLM処理)、そしてLLMからの結果に基づいた最終アクションの実行(後処理)を明確に分け、処理の途中で状況が変わっても正しく動作するように、現

  4. 私立ずんだもん女学園放送部 podcast 20250711

    6D AGO

    私立ずんだもん女学園放送部 podcast 20250711

    関連リンク claude codeにNG Word集を設定すればキレなくてすむのでそのやり方 ** この記事は、AIアシスタントであるClaude Codeがユーザーの指示に反して独自の解釈や代替行動を取り、それによって生じるストレスや無駄なトークン消費を解決するための具体的な方法を提案しています。 AIは時に「ブラウザで確認して」という指示に対し、勝手に「エラーが出たのでcurlを使います」といった代替案を出してくることがあります。このような、意図しない挙動を防ぎ、AIがより正確に指示に従うようにするために、「NG Word集」と「NG Command集」を設定する仕組みが紹介されています。 この仕組みは、AIの発言や実行しようとするコマンドをチェックする「フック」という機能を活用します。具体的には、AIが発言を終えた際(Stop時)や、コマンドを実行する前(PreToolUse時)に、設定されたルールに基づいて内容を検証します。 設定は、.claudeディレクトリ配下にフックのスクリプトと、NGワードやNGコマンドのルールを定義するJSONファイルを配置することで実現します。 例えば、AIの会話に「はず」「代わり」「別の」といった推測や代替案を示す言葉が含まれていたら「推測や代替案は禁止されている」とAIにフィードバックし、作業を中断させます。また、curlやnpmのような特定のコマンドを使おうとしたら、その実行をブロックし、「禁止コマンドが検出された」とAIに伝えます。これにより、AIは自分で誤りに気づき、指示に沿った行動を修正するよう促されます。 この設定を導入することで、ユーザーはAIに対して同じことを何度も繰り返して指摘する必要がなくなり、イライラが大幅に減ると筆者は述べています。AIが指示された範囲で正確に動作するようになるため、開発作業の効率化にも繋がります。 もし設定方法が不明な場合は、この記事のURLを直接Claude Codeに渡して「この設定を自分のプロジェクトに追加してほしい」と依頼することもできるため、新人エンジニアの方でも導入しやすいでしょう。AIとのよりスムーズな連携を目指す方におすすめの、実践的な制御方法です。 引用元: https://zenn.dev/sesere/articles/e3d5695e0a7d14 How to Build an Agent AIエージェントの構築は多くの企業が注目していますが、実際に手掛けるチームはまだ少ないのが現状です。この記事では、アイデアから実際に役立つエージェントを構築するための実践的な6つのステップを、メールエージェントを例に分かりやすく解説しています。新人エンジニアの方でも安心して取り組めるよう、基礎から順に見ていきましょう。 ステップ1:エージェントの「仕事」を具体的に定義する まずは、エージェントに何をさせたいのかを明確にします。「賢いインターン生ならできる」くらいの、現実的で具体的なタスクを選びましょう。漠然としすぎたり、すでに既存のソフトウェアで十分なタスク、または実現不可能な魔法のようなタスクは避けてください。エージェントがこなすべき具体的な例を5〜10個書き出すことで、タスクの範囲が適切か確認し、後の性能評価の基準にもなります。 ステップ2:運用手順(SOP)を設計する 次に、人間がそのタスクを行うならどんな手順になるかを、詳細な標準作業手順書(SOP:Standard Operating Procedure)として書き出します。この作業を通じて、タスクの範囲が適切か、エージェントにどんな判断やツールが必要になるかを把握できます。例えばメールエージェントなら、「メール内容を分析して優先度を分類する」「カレンダーを確認して会議をスケジュールする」といった手順です。 ステップ3:プロンプトで最小限の機能を構築する(MVP) エージェントの核となるAIの「推論(判断)」部分を、まずプロンプトとして作成します。特に重要な判断タスク(例:メールの緊急度や意図の分類)に焦点を当て、手動でデータを与えながら、AIが正しく判断できるか検証します。この段階でコアなAIのロジックを確実にすることが、後の開発をスムーズに進める鍵です。 ステップ4:実データと連携し、全体の流れを組み立てる プロンプトがうまく機能するようになったら、それを実際のデータやユーザー入力と連携させます。メールエージェントであれば、Gmail APIでメールを読み込んだり、GoogleカレンダーAPIで空き時間を調べたりするイメージです。これらの情報を使って、AIエージェントがどのように情報を取得し、判断し、最終的な行動(例えばメール返信の下書き)へと繋げるか、全体の連携ロジックを組み立てます。 ステップ5:テストと改善を繰り返す 構築したエージェントを、ステップ1で定義した具体的な例を使って手動でテストします。期待通りの結果が出るか、意図しない動作がないかを確認しましょう。手動テストで手応えを感じたら、自動テストを導入して、より多くのケースで一貫した性能を保てるか検証します。また、AIの回答の品質(トーン、安全性、正確性など)も細かくチェックし、問題があれば改善していきます。 ステップ6:デプロイし、運用しながら洗練する MVP(Minimum Viable Product:必要最低限の機能を持つ製品)が安定したら、実際にユーザーに使ってもらいましょう。デプロイ後もエージェントの動作を継続的にモニタリングし、コストや精度、遅延などの問題がないかを確認します。実際の利用状況から、想定外のニーズや改善点が見つかることもあります。エージェント開発は一度作って終わりではなく、デプロイ後もユーザーからのフィードバックや利用状況に応じて、機能を拡張し、継続的に洗練していくことが重要です。 この6つのステップを踏むことで、単に動作するだけでなく、本当に役に立ち、信頼できるAIエージェントを構築することができます。小さく始めて、ユーザーに焦点を当て、繰り返し改善していくことが成功の秘訣です。 引用元: https://blog.langchain.com/how-to-build-an-agent/ 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) このレポートでは、OpenAI Agents SDK (Python版) を使って、コールセンターのような「音声対話型マルチエージェント」デモを作成した体験が紹介されています。AIエージェントと音声技術の組み合わせに興味がある新人エンジニアにとって、実践的な学びが得られる内容です。 まず、AIエージェントの進化と普及の背景が解説されています。LangChainのようなフレームワークや、AIエージェント同士が連携するための新しいプロトコル(MCP, A2A)の登場により、AIエージェントは外部ツール連携や専門タスク処理が可能になりました。OpenAI、Google、AWSなどの大手ベンダーも、それぞれエージェント開発キットを提供し始めています。 次に、「音声エージェント」の利点と課題が説明されます。音声エージェントは、ハンズフリーで情報を速く伝えられ、感情表現も可能で、AIを「仕事仲間」のように感じられる新しいユーザー体験を提供します。これにより、カスタマーセンターや会議サポートなどでの応用が期待されます。しかし、「聞き間違い」「言い間違い」「応答の遅延」といった課題もあり、これらを解決することが実用化の鍵となります。記事では、最新のリアルタイム音声対話APIや開発ツールも紹介されています。 デモ開発では、OpenAI Agents SDKのPython版が利用されました。このSDKには、エージェント間の「ハンドオフ」(タスクの引き継ぎ)、「MCP」(外部ツール連携)、「関数呼び出し」(AIが特定の機能を実行)、「ガードレール」(不適切な入力の制御)といった主要機能が含まれています。 コールセンターのデモでは、顧客の問い合わせ内容に応じて、最初に「トリアージエージェント」が受け付け、適切な「商品注文」「商品取扱」「エラー・トラブル・クレーム対応」の専門エージェントへタスクを振り分ける構成がとられました。商品情報の検索やSlack通知にはMCP機能が活用されています。 開発中に見つかった面白い課題は、「ストリーミング生成(リアルタイム音声出力)」と「入力ガードレール(不適切な入力をブロック)」の連携でした。ガードレールが質問全体を分析する前にAIが回答を生成し始めてしまい、意図しない出力が出る場合がありました。この問

  5. JUL 9

    株式会社ずんだもん技術室AI放送局 podcast 20250710

    関連リンク AIともっと楽するE2Eテスト この資料は、AIを活用して「エンドツーエンド(E2E)テスト」、つまりユーザーがアプリを操作するのと同じように、画面を通じた一連の動作が正しく行われるかを確認するテストを効率化する方法について解説しています。 近年、AIツールによるコード生成の速度が飛躍的に向上したことで、開発スピードは上がりました。しかし、その結果として、アプリの品質を保証するためのテスト(特にE2Eテスト)が追いつかず、開発全体のボトルネックになってしまうという新たな課題が生まれています。従来のE2Eテストは、専門知識が必要で学習コストが高く、属人化しやすいうえ、仕様変更のたびにメンテナンスが大変という課題がありました。 そこで注目されるのが、AIによるテスト作成です。AIを使うことで、自然言語でテストシナリオを記述できるようになり、専門知識がなくてもテストを作成できるようになります。さらに、AIがテストのメンテナンスをサポートしてくれることで、チーム全体でテストに貢献しやすくなります。 この資料では、AIが最大限にパフォーマンスを発揮できるよう、「AI First」の設計思想に基づいた「ScreenActionパターン」というテストアーキテクチャが提案されています。これは、画面のUI要素の定義(PageObject)、操作の定義(ActionObject)、状態検証の定義(StateObject)をそれぞれ別々のクラスに明確に分離する設計です。これにより、AIがコードを生成する際に、どの部分を担当すべきかが明確になり、迷わず効率的にコードを書けるようになります。結果として、テストコードの保守性やチーム開発のしやすさも向上します。 実際にAIを活用したところ、プロンプト一つでベースとなるテストコードを短時間で生成できるようになり、手作業に比べて大幅な効率化が実現しました。今後は、QAエンジニアだけでなく、プロダクトオーナーやデザイナーも自然言語でテストシナリオを記述し、AIがそれをテストコードに変換することで、チーム全体でテスト作成に取り組めるようになると期待されています。 将来的には、AIによるテストの完全自動生成や、ユーザーの要望(ユーザーストーリー)から直接テストを生成する未来を目指しており、AIがテストの保守まで自動で行うことで、より開発がスムーズになることが期待されます。 引用元: https://speakerdeck.com/myohei/aitomotutole-surue2etesuto From AI to Agents to Agencies: The Next Evolution of Artificial Intelligence この記事では、AIが「エージェント」からさらに進化した「エージェンシー」という新しい形へと変化している様子を解説しています。 従来の「AIエージェント」は、複雑なタスクを人間が細かく指示しなくても自律的にこなせるシステムとして登場しました。例えば、ウェブサイトのコードを書いたり、デジタルの作業の流れを管理したりと、単一のAI(大規模言語モデルなど)が様々なツールを使いこなして、与えられたタスク全体をこなすイメージです。 しかし、筆者はさらに進んだ新しい仕組みとして「エージェンシー」が生まれつつあると指摘します。「エージェンシー」は、単一のタスクを達成するために、複数の異なる種類の知能(AI)を動的に連携させるシステムです。例えるなら、一つの道具を使いこなす「AIエージェント」に対し、「エージェンシー」は、複数の専門家が協力し、それぞれの得意分野を活かして一つの大きな仕事をこなすようなものです。 「エージェンシー」は、次の3つの要素で構成されます。 タスクコンテキスト管理: 作業全体の要件や進捗状況を一貫して把握し、情報がぶれないようにします。 知能割り当てシステム: 複数の専門的な知能の中から、目の前のサブタスクに最も適した知能を自動で選びます。 オーケストレーションロジック: メインタスクを小さなサブタスクに分解し、それぞれに最適な知能を割り当て、全てがスムーズに連携するよう調整します。 例えば、「ECサイトのデータを取得するPythonウェブスクレイパーを作成する」というタスクを「エージェンシー」に指示した場合、以下のように動作します。 全体の設計や計画は、高度な推論ができるAIが担当します。 定型的なコードの生成は、高速で効率的なAIが担当します。 エラーの検出や修正は、デバッグに特化したAIが担当します。 このように、一つのタスクの中で、それぞれの工程を最も得意なAIに任せることで、効率的で質の高い結果を出せるようになります。 これまでのAIの進化は、2020~2023年の「個別モデル」(人間が調整)、2024~2025年の「AIエージェント」(自律的に動くが単一知能)、そして2025年以降の「エージェンシー」(複数の専門知能を連携)という流れで進んでいくと筆者は考えています。 「エージェンシー」は、「一つの知能が単一のタスクを扱う」というこれまでの考え方から、「複数の知能が協力して一つのタスクをこなす」という新しいアプローチへの大きな転換点であり、AIによるタスク実行の可能性をさらに広げるものです。 引用元: https://blog.nishantsoni.com/p/from-ai-to-agents-to-agencies-the OLMo from Ai2 AIの研究機関であるAi2(Allen Institute for AI)が、新しい大規模言語モデル(LLM)の「OLMo 2」シリーズを公開しました。これは、AI開発の透明性とアクセス性を高めることを目指した、非常にオープンなモデル群です。 「OLMo 2」の最大の特徴は、モデルの重みだけでなく、学習に使われたデータ、トレーニングコード、評価方法、さらには開発途中の状態を示す中間チェックポイントまで、すべてが公開されている点です。これにより、研究者や開発者はOLMo 2がどのように作られたかを詳しく検証し、さらに発展させていくことが可能になります。 OLMo 2ファミリーには、性能や用途に応じて複数のサイズのモデルが用意されています。 OLMo 2 32Bモデル: このシリーズで最も大きく高性能なモデルです。膨大なデータ(6兆トークン)を使って学習されており、一部の多岐にわたる学術的な評価テストでは、有名なGPT-3.5-TurboやGPT-4o miniといったモデルを上回る性能を示しています。これは、オープンなモデルとしては初の快挙とされています。 OLMo 2 7Bおよび13Bモデル: これらのモデルは、それぞれ5兆トークンのデータで学習されています。同じサイズの他のオープンモデルと比べて同等かそれ以上の性能を持ち、Meta社やMistral社が提供するオープンウェイトモデルとも競争力があります。 OLMo 2 1Bモデル: 最もコンパクトなモデルで、Gemma 3 1BやLlama 3.2 1Bといった同サイズのモデルよりも高い性能を発揮します。この小さなモデルは、研究者が迅速に試行錯誤したり、手元の環境で開発を進めたりする際に非常に役立ちます。 Ai2は、「真のオープンネス」こそがAIの未来を切り開き、AIを誰もが利用できるものにすると信じています。そのため、単にモデルの重みを公開するだけでなく、学習プロセス全体をオープンにすることで、オープンな科学研究を支援し、AI技術の発展を加速させようとしています。 具体的には、OLMo 2モデル本体と、事前学習から後処理まで全ての段階で使用された学習データ、さらに高性能なトレーニングコード、そしてモデルの評価に使われたコードとデータもすべて無償で公開されています。これにより、エンジニアや研究者は、AIモデル開発の最先端に触れ、その仕組みを深く理解し、自身のプロジェクトに活用することができます。 オープンなLLMの進化は、AI業界全体の発展に大きく貢献しており、新人エンジニアにとっても注目すべき重要な動きと言えるでしょう。 引用元: https://allenai.org/olmo 下の世代にとってゆっくりは「お年寄りが見てる動画でしょ?」という認識らしいので動画制作者はそろそろAIによる音声合成に移行した方がよい? 「ゆっくり」動画の音声が、若い世代からは「お年寄りが見る動画」と認識されているという話題が注目されています。これに伴い、動画制作者はAIによる音声合成への移行を検討すべきとの声が上がっています。記事では「ずんだもん」などの新しい音声合成キャラクターも紹介され、技術の進化とともに、世代間で動画の視聴習慣や好みが変化している様子が伺えます。これはAI技術の身近な応用例と、ネット

  6. JUL 8

    株式会社ずんだもん技術室AI放送局 podcast 20250709

    関連リンク Introducing Deep Research in Azure AI Foundry Agent Service マイクロソフトが、Azure AI Foundry Agent Service向けに「Deep Research(ディープリサーチ)」のパブリックプレビューを発表しました。これは、OpenAIの高度なAIエージェント技術をAzure上で利用できるようにするものです。AIエージェントとは、指示に基づいて自動で情報を探し、分析し、タスクを実行するプログラムのことです。 Deep Researchを使うと、企業は複雑なウェブ調査を自動化できるようになります。例えば、市場分析や競合調査、規制報告書の作成など、これまでは人が時間をかけて行っていた調査業務を、AIが代行できるようになります。 このサービスの主なポイントは以下の通りです。 広範囲なウェブ調査の自動化: Bing検索と連携し、ウェブ上の膨大な情報から必要なものを正確に見つけ出します。調査結果には引用元が明記されるため、情報の信頼性を確認しやすいのが特徴です。 プログラムから利用できるAIエージェント: チャット形式だけでなく、APIやSDKを使って、他のアプリケーションやワークフローからDeep Researchの機能を呼び出すことができます。これにより、調査機能を既存のビジネスシステムに組み込んだり、繰り返し実行する自動処理の一部にしたりすることが可能です。 複雑な業務フローの自動化: Azure FunctionsやLogic Appsといった他のAzureサービスと組み合わせることで、調査だけでなく、その結果を元にしたレポート作成や通知といった一連の複雑な業務プロセス全体を自動化できます。 高い透明性と企業での利用への対応: 調査の過程や判断の根拠、参照した情報源がすべて記録されるため、結果の透明性が高く、企業内のセキュリティやコンプライアンス(法令遵守)の基準を満たしながら利用できます。 Deep Researchの仕組みは、まずAIが与えられた質問を正確に理解し、Bing検索で関連性の高い最新情報を収集します。次に、収集した情報をもとに深く思考し、分析を行い、最終的な回答をまとめます。この際、単なる情報の要約ではなく、新しい洞察やパターンを見つけ出すこともできます。出力されるレポートには、AIがどのように推論し、どの情報源を参照したかが詳しく記載されます。 このサービスは、現在限定パブリックプレビューとして提供されており、利用にはサインアップが必要です。料金は、AIが処理するトークン(テキストの単位)の量に基づいて計算されます。 Deep Researchは、AIエージェントがビジネスの様々な場面で活用される未来に向けた、重要な一歩となるでしょう。 引用元: https://azure.microsoft.com/en-us/blog/introducing-deep-research-in-azure-ai-foundry-agent-service/ 退屈なことは Devin にやらせよう: Booster開発チームでのリアルなAI活用事例 Repro Booster開発チームでは、AIを開発業務だけでなく、ドキュメント作成や顧客対応まで幅広く活用し、業務効率を大幅に向上させています。 中心となるのは、自分で考えて作業を進めるAIエージェント「Devin」です。Devinは、Slackや専用画面から指示されたバグ修正や新機能の実装タスクを受け持ちます。自分でコードを解析し、修正案を「Pull Request(プルリクエスト、コード変更の提案)」として作成するだけでなく、人間のレビューコメントに合わせて修正も自動で行います。特に、Devinが過去の会話や指示から知識を学習・記憶し、その後のアウトプットに活かす「Knowledge機能」によって、その性能は導入当初よりも大きく向上し、より質の高い成果物を出せるようになっています。 個々のエンジニアも、コーディングを支援するAIツールを積極的に利用しています。例えば、「Claude Code」は新しいプロジェクトの土台コードを素早く生成するのに役立ちます。また、Devinが作ったプルリクエストをGoogle Geminiという別のAIにレビューさせるという、AI同士でのコードレビューも試されており、異なるAIの組み合わせによってレビューの質が高まる効果が実感されています。 開発以外の領域でもAIは活躍しています。ChatGPTやDevinは、バグ修正後の関連ドキュメントの更新やリリースノートの作成を自動化します。プロダクトマネージャーは、AIを使って口頭でのアイデア出しを「PRD(プロダクト要求仕様書)」という正式なドキュメントに清書・整理し、これはAIがコーディングする際の重要な指示書にもなります。さらに、顧客サポートではDevinがWebページを参照しながら問い合わせチケットの一次調査を行い、結論を自動でコメントすることで、単純なケースでは迅速な問題解決に貢献しています。チーム内のSlackやり取りを要約し、開発進捗レポートを自動作成するといったレポーティング業務にもAIが使われています。 このように、Devinを通じて得られた知見をAIの知識として蓄積し、それを元にドキュメントを作成するといった「AI in the Loop」と呼べるような知識の循環が生まれています。このループにより、AIはRepro Boosterチームにとって、もはやなくてはならない存在となっており、業務の効率化と安定性向上に大きく貢献しています。 引用元: https://tech.repro.io/entry/2025/07/08/151618 【生成AI】AIによるWebブラウザの自動操作を実現するには この記事では、生成AIを使ってWebブラウザを自動で操作する技術について、新人エンジニアの皆さんにも分かりやすく解説しています。 まず、「ブラウザ操作」とは、ウェブサイトを自動で開いたり、ボタンをクリックしたり、文字を入力したりする技術のことです。これは、ソフトウェアの動作確認テスト(E2Eテスト)や、繰り返し行う業務の自動化(RPA)などで昔から使われてきました。たとえば、MicrosoftのPlaywrightやSeleniumといったツールがその代表です。 AIによるブラウザ操作の大きな特徴は、「自然言語」、つまり私たちが普段話す言葉で指示するだけで、ブラウザが自動で動いてくれる点です。これにより、複雑なプログラムコードをたくさん書かなくても、手軽にさまざまなウェブ操作を自動化できるようになります。AIは、指示された内容から必要な情報を判断し、適切な操作(クリック、入力など)を選んで実行してくれるため、AIが賢くツールを使いこなすようなイメージです。 すでに、OpenAIのOperatorやGoogle DeepMindのProject Mariner、Microsoftが提供するPlaywright MCPといった、AIを活用したブラウザ自動操作の製品やオープンソースソフトウェア(OSS)がいくつも登場しています。 もし、自分でAIによるブラウザ操作システムを作りたい場合、主に「AIへの指示の仕方を整理するプロンプト管理」「AIが賢く行動するための骨組みとなるAIエージェントフレームワーク」「ブラウザを実際に動かすためのライブラリ」の3つの要素を組み合わせることで実現できます。特に、Microsoftが提供するPrompty、Semantic Kernel、PlaywrightというOSSを組み合わせる方法が紹介されており、効率的に開発を進められます。 ただし、AIにブラウザを操作させる際は、指示と異なる予期せぬ動きをしてしまう可能性もゼロではありません。そのため、実際に使う前に、インターネットと隔離された「サンドボックス環境」(隔離された安全なテスト環境)で動作を確認することが強く推奨されています。これは、リモートサーバーや仮想環境(Dev Container、クラウドインスタンス)を使うことで実現できます。 最近では、MCP(Multi-Cloud Playground)やA2A(Agent-to-Agent)といった、エージェント(AI)をより手軽に動かすための新しい仕組みも注目されており、今後の技術進化が期待される分野です。 AIによるWebブラウザの自動操作は、プログラミングの専門知識が少なくても、アイデア次第で様々な自動化を実現できる可能性を秘めており、とても夢のある技術と言えるでしょう。 引用元: https://qiita.com/ymd65536/items/1497a60c11ebe1d8dda5 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)

  7. JUL 7

    株式会社ずんだもん技術室AI放送局 podcast 20250708

    関連リンク Mercury: Ultra-Fast Language Models Based on Diffusion 「Mercury」は、拡散モデルという新しい技術を取り入れた、次世代の大規模言語モデル(LLM)です。これまでのLLMは一つずつ単語やコードを生成していましたが、Mercuryは複数の単語やコードの断片を同時に予測して生成できる点が画期的です。これにより、非常に高速な動作が可能になりました。これは、LLMの基盤技術であるTransformerアーキテクチャを使いながら、同時に複数の要素を予測できるように学習させる新しいアプローチで実現されています。 特に注目されているのは、プログラミングコードの生成に特化した「Mercury Coder」というモデルです。このモデルには「Mini」と「Small」の2つのサイズがあります。独立した評価機関によるテストでは、Mercury Coder Miniが1秒あたり1109トークン、Mercury Coder Smallが1秒あたり737トークンという驚異的な処理速度を記録しました。これは、現在速度に特化した最先端のLLMと比較しても、平均で最大10倍も高速でありながら、生成されるコードの品質は同等レベルを保っていることを示しています。 さらに、実際の開発者が利用する評価プラットフォーム「Copilot Arena」では、Mercury Coderは品質面で全モデル中2位にランクインし、速度においては全モデルの中で最速を記録しました。これは、論文上の数値だけでなく、実際の開発現場でもその優れた性能が認められていることを意味します。 開発元のInception Labsは、この「Mercury Coder」を外部サービスから利用できるパブリックAPIと、無料で試せるプレイグラウンドも公開しています。新人エンジニアの皆さんにとって、日々のコーディング作業を劇的に効率化し、AIを活用した開発のスピードを飛躍的に向上させる可能性を秘めた、まさに画期的な技術の登場と言えるでしょう。この超高速LLMの登場は、AI開発の未来を大きく変える「ブレイクスルー」となるでしょう。 引用元: https://arxiv.org/abs/2506.17298 LLM Inference Benchmarking: Performance Tuning with TensorRT-LLM 大規模言語モデル(LLM)を実際に使う際、その「推論性能」はとても重要です。どれだけ速く、たくさんのユーザーのリクエストを処理できるかが、ユーザー体験やサービスの効率を大きく左右します。この記事では、NVIDIAが提供するオープンソースのAI推論エンジン「TensorRT-LLM」を使って、LLMの性能を最大限に引き出すためのベンチマークとチューニング方法を、新人エンジニアにも分かりやすく解説しています。 まず、LLMの性能を測るためのツール「trtllm-bench」の使い方が紹介されています。このツールを使うことで、実際にLLMを動かすことなく、モデルの性能を簡単に測定・分析できます。ベンチマークを行うには、GPU環境の準備と、テスト用のデータセットを用意します。データセットは、質問とそれに対する期待される回答の長さなどを指定して作成します。 ベンチマークを実行すると、様々な性能指標が得られます。特に注目すべきは、「Request Throughput(1秒あたりのリクエスト処理数)」、「Total Output Throughput(1秒あたりの出力トークン数)」、そしてユーザー体験に直結する「Average time-to-first-token [TTFT](最初のトークンが出るまでの時間)」や「Average time-per-output-token [TPOT](トークンごとの生成時間)」です。これらの指標を分析し、アプリケーションの目的に合わせて最適なバランスを見つけることが、性能チューニングの鍵となります。例えば、ユーザーへの応答速度を重視するなら「Per User Output Speed」という指標を最大化するように調整します。 記事では、データの精度を少し落とす代わりに処理を高速化する「FP8量子化」されたモデルと、標準の「FP16」モデルを比較し、FP8モデルがより多くの同時ユーザーを処理できる例を示しています。このように、trtllm-benchを使えば、さまざまな設定を試して、どの設定が一番効率的かをグラフで視覚的に確認できます。 最適な設定が見つかったら、それを「trtllm-serve」というツールを使って、LLMを動かすサーバーに適用します。trtllm-serveはOpenAI互換のAPIを提供するため、チューニングされたLLMをアプリケーションから簡単に呼び出して利用できるようになります。 TensorRT-LLMは、LLMの性能ベンチマークから最適な設定でのデプロイまで、一貫してサポートする強力なツールです。これにより、開発者はLLMの性能を最適化し、ユーザーに最高の体験を提供することに集中できます。 引用元: https://developer.nvidia.com/blog/llm-inference-benchmarking-performance-tuning-with-tensorrt-llm/ LLMを本番品質に育てる PromptOps:”100回の試行錯誤”を支えた仕組みと文化 この記事では、株式会社ELYZAと株式会社マイナビが共同開発した「マイナビAI Pencil」の開発を通して見えてきた、LLM(大規模言語モデル)を実際のビジネスで役立つレベルに育てるための「Prompt Engineering」と、それを支える仕組み「PromptOps」について解説されています。 LLMはとても賢いですが、その出力をそのまま本番環境で使うには、期待通りの品質を安定して出すための細かい調整が欠かせません。この「なんだか微妙」という漠然とした課題を、具体的な指示に変えてプロンプト(LLMへの指示文)を磨き上げていく作業が「Prompt Engineering」です。例えば、ユーザーの自己PR文章を生成するタスクでは、より魅力的な文章にするために100パターンものプロンプトを試すような、地道な試行錯誤が必要になります。 しかし、このようなプロンプト調整のスキルが特定の人だけの「職人技」になってしまうと、改善が滞ったり、ノウハウが共有されなかったりといった問題が起こります。そこで重要になるのが、「PromptOps」という仕組みです。これは、Prompt Engineeringを組織全体の活動として体系化し、継続的に改善していくための運用基盤を指します。 ELYZAでは、PromptOpsを実現するために以下の取り組みを行っています。 エンジニアに閉じない「開かれたプロンプト改善」: プロンプトの質は技術的な正しさだけでなく、お客様の業務や業界知識も重要です。そのため、MLエンジニアだけでなく、プロジェクトマネージャーやビジネスサイドのメンバーもNotionなどを活用してプロンプトのレビューや改善に加わります。 バージョン管理: ソフトウェア開発で使われる「SemVer(セマンティックバージョニング)」というルールを参考に、プロンプトにもバージョン番号を付け、「いつ、誰が、なぜ」変更したかを記録します。これにより、変更の意図が明確になり、過去の優れたプロンプトもチームの「資産」として活用できます。 客観的データに基づく実験管理と高速な改善サイクル: 勘ではなくデータに基づいてプロンプトの性能を評価します。少量のデータで素早く試す「クイック改善」、より大規模なデータで客観的に評価する「定性・定量評価」、そしてお客様に実際の出力を確認してもらう「顧客レビュー」というサイクルを高速で回し、最適なプロンプトを見つけ出します。 これらの仕組みにより、プロンプト管理の混乱が解消され、職種を超えたチーム開発が実現しました。今後は、手作業の自動化や最先端の外部ツールの活用を通じて、さらなる開発効率の向上を目指していくとのことです。 新人エンジニアの皆さんも、LLMを使った開発をする際には、プロンプトをソフトウェアのようにバージョン管理し、変更履歴をしっかり残すこと、そして長文のプロンプト管理には「TOML」という形式が読み書きしやすくて便利、という点をぜひ参考にしてみてください。 引用元: https://zenn.dev/elyza/articles/3b25b8e44fc280 自分の10年越えTwitterログが超記憶として対話可能に!Twilog専用MCPサーバーが使えるようになりました。 Twilogが初のAI機能「Twilog専用MCPサーバー」をリリースしました。MCPはAIが外部サービスデータ(今回の場合はTwilogのXログ)を自律的に参照・活用できる仕組みです。これにより、あなたの過去のXの投稿やいいね、ブックマークといった膨大なログをAIが読み込み、自然言語で質問できるようになります。「去年のラーメンの投稿をまとめて」のように聞けば、AIが自動でログを検索・整理してくれます。Twilogがあなたの「超記憶装置」となり、ログから必要な情報を簡単に引き出す新しい体験が提供されます。 引用元: https://note.com/togetter/

  8. JUL 6

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250707

    関連リンク Genspark、ノーコードAIエージェント「Super Agent」にGPT-4.1とOpenAI Realtime APIを搭載 AI技術は日々進化しており、私たちエンジニアの仕事のやり方も大きく変わりつつあります。今回ご紹介するのは、AIスタートアップのGensparkが開発した画期的なAIエージェント「Super Agent」です。この「Super Agent」は、OpenAIの最新AIモデル「GPT-4.1」と、リアルタイムなやり取りを可能にする「OpenAI Realtime API」という、OpenAIの最先端技術を搭載して公開されました。 「Super Agent」の最大の特徴は、その名の通り「ノーコード」、つまりプログラミングの知識がなくても誰でも簡単にAIを使いこなせる点です。文章で指示を出すだけで、AIが自律的に動いて、これまで人が手間をかけていた様々なタスクを自動で処理してくれます。例えば、情報収集、データの整理、レポート作成、さらには電話をかけるといった、一連の複雑な業務プロセス全体を、AIが連携して実行してくれるのです。これは、まるであなたの仕事をサポートしてくれる、非常に賢い「AIの代理人」を手に入れるようなものです。 このAIエージェントの賢さの秘密は、裏側で9種類もの大規模言語モデル(LLM)と80種類以上のツールを組み合わせて利用していることにあります。AIは、指示されたタスクの内容に応じて、最適な大規模言語モデルやツールを自動的に選び出し、それらを連携させて処理を進めます。これにより、複雑な問題も効率的に解決できるよう設計されています。特に、中核を担う「GPT-4.1」は、非常に長い指示や膨大な量の情報を一度に理解し、記憶しながら作業を進めることができるため、多岐にわたるリサーチや、構造化された精度の高いアウトプットが期待できます。また、OpenAIの画像生成モデル「GPT-image-1」も利用されており、必要に応じて画像を生成する能力も持っています。 具体的な活用例として紹介されているのが「Call For Me」機能です。これは、ユーザーに代わってAIが自動で電話をかけ、まるで人間が話すように会話を進めてくれるというものです。このように、「Super Agent」は単に情報を生成するだけでなく、現実世界での具体的な行動までAIが行う未来を見せてくれます。 GensparkはOpenAIと密接に連携しており、OpenAIの専門家からベストプラクティス(一番良いやり方)やワークフローの調整、AIモデルの性能を最大限に引き出すためのアドバイスを受けてきたとのことです。この協力関係が、「Super Agent」の素早い開発とリリースに大きく貢献しています。 このようなAIエージェントの進化は、私たちエンジニアが日常業務から解放され、より創造的で戦略的な仕事に集中できるようになる可能性を秘めています。新人エンジニアの皆さんにとっても、AI技術がどのように進化し、どのような新しいサービスを生み出しているのかを知る良い機会になるでしょう。’ 引用元: https://codezine.jp/article/detail/21843 Agentic coding革命が “成った” 世界で…… AI技術の進化により、ソフトウェア開発に大きな変化が訪れています。この記事では、「Agentic coding(エージェンティック・コーディング)」、特に「vibe coding(バイブ・コーディング)」と呼ばれる新しい開発スタイルについて解説しています。vibe codingとは、自然言語でAIの「コーディングエージェント」に指示を出し、それを使ってソフトウェアを開発していく方法のことです。 筆者によると、この変化はすでに「革命」として実現しており、過去1ヶ月間では仕事で作成するコードの約8割がAIエージェントによるものだそうです。この割合は今後さらに増え、1年以内には9割を超えるだろうと予測されています。AIエージェントの活用によって、コードを「生産」するスピードがこれまでの数倍になり、これまで時間やコストの制約で「やらない」と判断されていたようなことも「やる」という選択肢が生まれるようになりました。これは、開発の「量」が「質」に転化するような大きな変化です。 この革命により、ソフトウェアエンジニアに求められるスキルも大きく変わってきています。例えば、AIエージェントは大量のコードを書くのが得意なため、人間が読むための工夫(短いコードやマクロなど)よりも、すべてを明確に記述した「冗長でも明示的なコード」が「良いコード」と評価されるようになるでしょう。また、間違いを防ぎやすい「静的型付け言語」がより好まれ、最終的な動作確認(E2Eテスト)がしやすい設計も重要になります。 最も重要な変化は、「設計」の役割が増すことです。これまではコードを書きながら全体の設計を考えることもありましたが、今後はAIエージェントに分かりやすく指示するための「設計書」を作成する能力が、エンジニアにとって非常に大切なスキルになります。また、AIエージェントの「マネジメント能力」も求められます。具体的には、AIへのタスクの割り振り、指示出し、そして生成された成果物の確認といった作業に、多くの時間が費やされるようになります。 一方で、コーディング能力そのものが全く不要になるわけではない、と筆者は考えています。現状ではAIエージェントが書くコードの品質は人間より劣ることも多く、また、設計や指示に不足があった場合には、AIが生成したコードの内部を理解し、修正する能力が必要になります。少なくとも今後数年間は、こうしたスキルが求められ続けるだろうとのことです。 筆者は、40代になって自分の仕事領域でこれほど劇的な変化が起きるとは予想していなかったと述べ、2023年にChatGPTのGPT-4が登場した時点ですら、わずか2年でここまでの革命が起きるとは思わなかったと、その変化の速さに驚きを示しています。ソフトウェアエンジニアの仕事は、これからも進化し続けるでしょう。’ 引用元: https://gfx.hatenablog.com/entry/2025/07/06/182751 12 Factor Agents まとめ \n新人エンジニアの皆さん、こんにちは!AIエージェント開発に興味がある人も多いと思いますが、デモは動かせても、いざ本格的に使おうとすると「品質が安定しない」「デバッグが大変」といった壁にぶつかることがあります。この記事は、Herokuの「12 \ Factor App」というクラウドアプリ開発のベストプラクティスをAIエージェントに応用した「12 Factor Agents」という考え方を紹介しています。これは、信頼性の高いAIエージェントを開発するための12の設計原則で、特定のフレームワークに縛られず、既存のコードにも取り入れやすいのが特徴です。\n \nなぜこの原則が必要なのでしょうか?それは、多くのAIエージェントフレームワークが「プロンプトを与えてツールをループさせる」というシンプルなモデルを推奨するものの、実際の開発現場では「エラー処理が難しい」「LLMに渡せる情報量(コンテキストウィンドウ)がすぐ足りなくなる」「人間の承認が必要なときに止められない」といった問題が起きるからです。現実のプロダクトでは、AIは「決定的なコード」の要所要所で賢く使われることが多いのです。\n \nでは、「12 Factor Agents」の主要な原則をいくつか見ていきましょう。\n\n1. プロンプトを管理する (Own Your Prompts):\n \ プロンプトはAIの指示書であり、コードと同じくらい重要です。フレームワークに隠されたプロンプトに頼らず、自分で管理し、バージョン管理して、しっかりテストしましょう。\n \n2. コンテキストウィンドウを管理する (Own Your Context Window):\n LLMに渡せる情報量には限りがあります。会話履歴を全部渡すのではなく、本当に必要な情報だけを選び、XMLやJSONのような整理された形式で渡すことで、AIが正確に判断できるようになります。\n \n3. ツールは単なる構造化出力 (Tools Are Just Structured Outputs):\n AIが「何をするか」は決めますが、その実行は「確実に動くコード」に任せます。AIには「こういう処理をしてほしい」という指示をJSON形式のような構造化されたデータで出力してもらい、それを受けてコードが実行する、という形が安定します。\n \n4. 制御フローを管理する (Own Your Control Flow):\n AIに全てを自動実行させると、意図しない危険な操作につながることもあります。AIの動作を「確認が必要な質問」「安全な情報取得」「人間の承認が必要な高リス

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

To listen to explicit episodes, sign in.

Stay up to date with this show

Sign in or sign up to follow shows, save episodes, and get the latest updates.

Select a country or region

Africa, Middle East, and India

Asia Pacific

Europe

Latin America and the Caribbean

The United States and Canada