株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20251107

    1D AGO

    私立ずんだもん女学園放送部 podcast 20251107

    youtube版(スライド付き) 関連リンク Introducing Parallel Search: the highest accuracy web search API engineered for AI 皆さん、こんにちは!今回は、AI(人工知能)開発に役立つ新しいWeb検索API、「Parallel Search」が発表されたというニュースをお届けします。特にAIエージェントを作るエンジニアさんにとっては、とても興味深い内容ですよ。 これまで主流だったWeb検索エンジンは、人間がキーワードで検索し、表示されたリンクをクリックして情報を見つけることを前提に作られていました。しかし、AIエージェントは少し違います。彼らは「何をすべきか」という意図(目的)を理解し、そのタスクを効率的に達成するための「情報(トークンと呼ばれるテキストの最小単位)」を求めているのです。AIにとって最適なのは、クリック率が高いページではなく、モデルが思考・推論するために最も関連性の高い情報が詰まった部分になります。 Parallel Search APIは、このAIのニーズに特化してゼロから設計されました。主な特徴は以下の通りです。 セマンティックな目標理解: キーワードだけでなく、AIエージェントの「目的」を深く理解して検索します。 トークン関連性ランキング: AIがreasoning(推論)しやすいように、最も関連性の高い情報(トークン)を優先的に提供します。 情報密度の高い抜粋: 長いページ全体ではなく、必要な情報が凝縮された部分を効率的に抽出してくれます。 単一呼び出しでの複雑なクエリ解決: 通常、何度も検索を繰り返さないと解決できないような複雑な質問でも、少ないAPI呼び出しで答えを見つけやすくします。 これらの工夫により、AIエージェントはより少ない検索回数で、高い精度で必要な情報を手に入れられ、結果としてAPI呼び出しのコスト削減や処理速度の向上に繋がります。 実際に様々なベンチマークテストでは、Parallel Search APIは他の既存サービスと比較して、特に複数の情報源を組み合わせたり、深い理解が必要な「複雑な検索」において、約2倍の精度と約半分のコストで優れたパフォーマンスを発揮しています。シンプルな検索でも、業界トップレベルの精度を維持しつつ、最も低いコストを実現していることが示されています。 この高い性能は、Parallel社が過去2年間で独自のWebインデックスを構築し、Webクローリングからデータのインデックス化、そしてAIに最適なランキング付けまで、検索の全工程を自社で垂直統合しているからこそ実現できたものです。 AIエージェントが「コンテキストウィンドウ」(LLMが一度に処理できる情報の範囲)に、いかに質の高い情報を取り込むかが、タスク達成の鍵となります。Parallel Search APIは、この課題を解決し、AIエージェントの能力を最大限に引き出す強力なツールとなるでしょう。もし皆さんがAIエージェントの開発に携わる機会があれば、ぜひこの新しい検索APIを試してみてはいかがでしょうか。 引用元: https://parallel.ai/blog/introducing-parallel-search ビジネス出身PMが、「AIのことはエンジニアにお任せ派」から「PMもAIエージェントを自作しよう派」になるまで この記事は、コーディング経験のないビジネス出身プロダクトマネージャー(PM)が、AIエージェント開発に挑戦し、その過程で得た実践的な学びを共有しています。 筆者が開発したのは、自社サービス「バクラク申請・経費精算」のお客様の社内運用ルールを、システムで使えるルールに自動翻訳し、AIによる申請レビューが可能か評価するAIエージェントです。これにより、お客様と社内担当者の設定作業負担を減らすことを目指しました。 このエージェントを実用的なものにするため、以下の3つの工夫を凝らしています。 「利用可能な項目」をTool(ツール)で外部から与える: LLM(大規模言語モデル)に自由にルールを生成させるのではなく、データベースの項目リストを「Tool」として提供し、その中からしか使えないように制限しました。これにより、LLMが架空の項目を作るのを防ぎ、出力の正確さを向上させています。 要所で人間がレビューを挟む(HITL: Human-in-the-Loop): エージェントが重要な判断をする際には、必ず人間が確認・修正できるステップを組み込みました。これにより、AIの誤った解釈が進行するのを防ぎ、最終的なルールの品質を保証します。 対象ルールと動作検証済ルールの「構造」が似ているかをRAGで検索する: 「タクシー代であれば〇〇」「リムジンバス代であれば〇〇」のように、具体的な値は違ってもルールの「構造」が同じものを検出するため、ルールを変数化した上でRAG(検索拡張生成)のベクトルデータベースに登録し、構造的な類似度で検索できるようにしました。 開発を通じて、筆者は以下の重要な学びを得たと述べています。 普段使っているChatGPTのような「よしなに」動くAIは、裏で多くの「お膳立て」があって初めて実現できる。素のLLMを動かすには、その土台作りが必要。 特にビジネスで使うAIエージェントは、自由にさせるのではなく、Toolやプロンプトで適切に「制御」することで初めて価値を出せる。 AIはあくまで課題解決のための「手段」であり、AI技術そのものにこだわるのではなく、お客様への価値提供という本来の目的を冷静に評価することが重要。 非エンジニアがAIエージェントを自作するには、Pythonの基礎やAI関連ライブラリの知識など、多くのスキルが求められ、一人で完遂するのは非常に困難です。しかし、社内のエンジニアからのサポートがあれば、実践を通じてPMもAI技術への理解を深めることができます。PMとエンジニアが協力してAIを活用することで、プロダクトの価値提供スピードを加速できる、というメッセージで締めくくられています。 引用元: https://tech.layerx.co.jp/entry/2025/11/06/080000 Code execution with MCP: building more efficient AI agents この記事は、AIエージェントをより効率的に動かすための新しい技術「コード実行」について解説しています。特に、AIエージェントが外部システムと連携するための標準プロトコル「MCP(Model Context Protocol)」利用時の課題解決に焦点を当てています。 新人エンジニアの皆さん、AIエージェントはGoogle DriveやSalesforceのような様々なツールと連携して複雑なタスクをこなしますが、その連携方法には工夫が必要です。 MCPの課題:AIの情報処理負担 MCPは、AIエージェントが多くの外部ツールと効率的につながるための共通ルールです。しかし、接続するツールが増えると、AI(LLM)が処理できる情報量(コンテキストウィンドウ)に負担がかかるという問題が発生します。 ツール定義で情報過多:エージェントが使えるツールの説明が多すぎると、AIは毎回大量の情報を読み込む必要があり、処理が遅くなりコストも増えます。まるで、必要なページを探すために分厚い辞書を毎回全てめくるような状態です。 中間結果も負担に:ツールを使って得られたデータ(例:会議の議事録全文)も、AIのコンテキストウィンドウを通過するたびに情報量が増え、AIの処理負担となります。これにより、データ量が多いとエラーを起こしやすくなることもあります。 コード実行による解決策:効率的な連携 この課題を解決するのが「コード実行」というアプローチです。これは、MCPサーバーを「コードAPI(プログラムから呼び出せる機能)」として扱い、AIエージェントが自分でプログラムコードを書いてツールを操作する方法です。 このアプローチには、以下のようなメリットがあります。 必要なツールだけ読み込む:AIエージェントは、タスクに必要なツールの定義だけをオンデマンドで読み込みます。これにより、無駄な情報でコンテキストウィンドウを圧迫することがなくなり、処理速度とコストを大幅に削減できます(例:15万トークンが2千トークンへ、98.7%削減)。 効率的なデータ処理:大量のデータ(例:1万行の表データ)を処理する場合でも、AIエージェントはコードを使って必要な部分だけをフィルタリングしたり整形したりできます。AIには処理済みの少ないデータだけが渡されるため、負担が軽くなります。 複雑な処理をコードで:繰り返し処理(ループ)や条件分岐、エラー処理といった複雑なロジックも、AIが直接ツールを呼び出すよりも、コードとして書く方が

  2. 2D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251106

    youtube版(スライド付き) 関連リンク 2025/11/04 Builders Flash にて “AWS と LiteLLM で実現する、セキュアで柔軟な AI エージェント基盤のアーキテクチャ” を公開しました freeeのAI駆動開発チームの中山さんが、AWSの公式ブログメディア「Builders Flash」に、最新のAI技術活用に関する記事を寄稿されました。タイトルは「AWS と LiteLLM で実現する、セキュアで柔軟な AI エージェント基盤のアーキテクチャ」で、2025年11月4日に公開されています。 この記事の最も大切なポイントは、AIエージェントを企業で安全かつ効率的に動かすための「プロキシ基盤」の構築方法について解説している点です。最近、ChatGPTのような大規模言語モデル(LLM)をベースにしたAIエージェントが注目されていますが、これを実際にビジネスで使うには、情報漏洩を防ぐセキュリティ対策や、費用を抑えるためのコスト管理、そしてシステムが安定して動き続けるための仕組みなど、考慮すべき点がたくさんあります。 そこで、この記事では「LiteLLM」というオープンソースライブラリが重要な役割を果たします。LiteLLMは、OpenAIやAnthropic、Googleなど、様々なLLMサービスへのアクセスを統一された方法で扱えるようにしてくれるツールです。記事では、このLiteLLMをプロキシとして利用し、AWSのサービス(例えば、計算リソースを提供するEC2やLambda、ネットワークを安全に構築するVPCなど)と組み合わせることで、次のような大きなメリットを持つAIエージェント基盤を実現できると紹介しています。 セキュリティの強化: LLMサービスへ直接アクセスするのではなく、間にプロキシを置くことで、リクエストの内容を監視したり、認証・認可を一元的に管理したりできます。これにより、機密情報の漏洩や不正な利用を防ぎ、安全性を高めることができます。 柔軟なLLMの選択と切り替え: LiteLLMは多様なLLMプロバイダに対応しているため、もし将来、より性能が良かったり、費用が安かったりする新しいLLMが登場しても、アプリケーションのコードを大きく変更することなく、簡単に切り替えることが可能です。これは、特定のベンダーに縛られず、常に最適なAIモデルを選べるという点で非常に重要です。 コストの管理と最適化: プロキシを通じてLLMへのリクエストを集中させることで、APIの利用状況を詳細にモニタリングし、不要な利用を制限(レートリミット)するなどして、コストを効率的に管理・最適化できます。 開発効率の向上: 開発者は個々のLLMプロバイダのAPI仕様を詳しく覚える必要がなく、LiteLLMという共通のインターフェースを通して開発を進められるため、開発スピードを上げることができます。 新人エンジニアの皆さんにとって、AIエージェントを「どう使うか」だけでなく、「どうやって安全に、効率よく、そして将来性を見据えてシステムを構築するか」という視点は、これからのキャリアで非常に役立つでしょう。この記事は、AIエージェントのインフラ設計や運用に興味がある方にとって、具体的なヒントと実践的な知見を与えてくれるはずです。ぜひリンク先の記事を読んで、AIエージェント基盤の奥深さを学んでみてください。 引用元: https://developers.freee.co.jp/entry/aws-builders-flash-202511 LLM APIを2年間本番運用して苦労した話 この発表は、株式会社IVRyが電話の自動応答システムでLLM APIを2年間本番運用する中で直面した課題と、それらを乗り越えるための知見を新人エンジニアにも分かりやすく解説しています。 まず、LLM APIは様々な質問に対応できる「zero-shot learner」として非常に有用で、多くのタスクに活用できると指摘されています。しかし、既存の一般的なAPIとは異なる特有の問題があることも強調されました。 運用初期には大きな問題はなかったものの、ある日発生した大規模なAzure OpenAI障害をきっかけに、「LLM APIは必ず落ちる可能性がある」という現実を痛感。これを受けて、障害発生時に別のLLMに切り替える「フォールバック」の仕組みを導入し、さらに「監視体制を強化」しました。 しかし、フォールバックだけでは解決できない新たな課題が見つかります。それは、LLMが完全に停止するわけではなく、「応答が遅くなる(レイテンシーの悪化)」や「不正確な回答を返す(精度劣化)」といった、エラーとして検知されにくい障害パターンです。これらはフォールバックが効かないため、ユーザー体験に直接影響を与えてしまいます。 これらの問題に対し、IVRyでは以下の対策を講じました。 きめ細かい監視の実施: LLMの応答速度は、利用するモデル、入力の長さ、情報の種類(モダリティ)、出力の長さなど、様々な要因で変動します。そのため、これらの要因ごとに分けて監視することで、異常を早期に発見できるようにしました。 障害パターンごとの対応手順書(Playbook)作成と訓練: どんな異常が起きたらユーザーにどのような影響があるのか、どうやって検知するのか、そしてどのようなアクションを取るべきかを事前に具体的にまとめたPlaybookを作成。さらに、実際に障害が発生したと想定して訓練を行うことで、迅速かつ適切な対応ができるようにしました。 ライブラリ選定の注意点: LLM APIの共通化やフォールバックのために便利なライブラリ(例: LiteLLM)を使っていたものの、バージョンアップで予期せぬCPU使用率の増加が発生しました。ライブラリに頼りきるのではなく、場合によっては自前で実装することも含め、コントロールが効く選択肢を検討することの重要性が示唆されました。 まとめとして、LLM APIを安定して本番運用するためには、「障害は必ず起こる」という前提に立ち、フォールバックの仕組みだけでなく、多角的な監視、具体的な対応手順の準備、そして使用する技術スタックの選定に至るまで、徹底した対策が必要であると締めくくられています。これは、これからLLMを活用したサービス開発に挑戦する新人エンジニアにとって、非常に実践的な教訓となるでしょう。 引用元: https://speakerdeck.com/ivry_presentationmaterials/llm-apiwo2nian-jian-ben-fan-yun-yong-siteku-lao-sitahua AIを賢く動かすのは「指示力」ではなく「文脈設計力」 AIを効果的に活用するためには、細かく指示を出す「指示力」だけでなく、「AIに何を見せるか」を設計する「文脈設計力(コンテキストエンジニアリング)」が非常に重要である、という内容の記事です。特に、AIコーディングでAIとのやり取りに時間がかかってしまう新人エンジニアの皆さんに、AIの特性と賢い付き合い方を分かりやすく解説しています。 なぜAIとの会話がうまくいかないことがあるのでしょうか?その理由は、大規模言語モデル(LLM)が持ついくつかの制約にあります。 LLMは確率で動いている: AIは次に続く単語を確率的に予測して生成しています。同じ指示でも結果が微妙に変わるのはこのためです。この確率の精度は「コンテキスト(文脈)」に大きく左右されます。 会話が長くなると品質が下がる(コンテキストの腐敗): 人間と同じで、AIも一度にすべての情報に完璧に注意を払うことはできません。会話が長くなると重要な情報が埋もれたり、途中の情報を忘れやすくなる「Lost in the Middle問題」が発生します。 記憶力には限りがある(コンテキストウィンドウ): LLMには一度に処理できる情報量に「コンテキストウィンドウ」という上限があります。この上限を超えると、AIは古い情報を忘れてしまいます。プロジェクトルール、ツール定義、会話履歴などがこのウィンドウを圧迫し、重要な情報がAIに伝わりにくくなる原因になります。 これらの制約を踏まえ、AIを賢く動かすためには、単にプロンプトを詳しく書く「足し算」のアプローチではなく、本当に必要な情報だけをAIに見せる「引き算」のアプローチ、つまり「コンテキストエンジニアリング」が不可欠です。 具体的な対処法としては、以下のようなものがあります。 会話をこまめにリセットする: タスクが変わったり、会話が行き詰まったりしたら新しいチャットを始める。 プロジェクトルールの見直し: 使わないルールや細かすぎる指示は削除する。 ツールの整理: 今のタスクで必要なツールだけを有効化する。 関係ないファイルを除外する: AIに見せる必要のないファイルは.gitignore

  3. 3D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251105

    youtube版(スライド付き) 関連リンク 組織全体の開発スループットを劇的に向上させた「AIプランナー」とは? 〜Speeeが実践する3つのTipsと新しい開発チームのかたち〜 Speee社は、開発のスピード(スループット)を劇的に向上させるため、「AIプランナー」という新しい取り組みを実践しています。これは、通常エンジニアではない企画担当者(プランナー、PM、PO)がAIの力を借りて、企画から開発、リリースまでの一連のプロセスを自分たちで行う役割です。 この背景には、「簡単な修正に時間がかかる」「バグ確認やデータ取得のためにエンジニアに依頼が必要」「もっとリリースしたいがエンジニアのリソースがない」といった、開発チームが抱える課題がありました。そこで、企画者自身がアイデアを最も深く理解しているという考えのもと、AIを前提とした開発体制を築き、Issue(開発タスク)を立てた人がそのまま開発まで完結させることを目指しています。 「AIプランナー」の導入により、組織全体のリリース量は134%も増加し、プランナーによるリリースが全体の15%を占めるまでに成長しました。具体的な成果としては、高価なAI-OCRサービスの内製化によるコスト削減(10分の1)、デザイン情報からのUI自動生成、バグ修正の自己完結、Miroの仕様をAIが読める図に変換してエンジニアへの伝達をスムーズにするなどがあります。 もちろん、新しい取り組みには課題も伴いました。 環境構築の難しさ: クラウド開発環境(GitHub Codespaces)だけでは解決せず、複雑な修正ではローカル環境設定が必要なケースも。 【Tips】 簡単な修正はCodespaces、複雑な修正はローカル環境と、タスクに応じて最適な環境を使い分ける柔軟性が重要です。 AIによるUI修正の難しさ: 自然言語での指示だけでは、AIにコンポーネント構造を正確に理解させ、意図通りにUIを修正させるのは難しい。 【Tips】 AIはあくまで補助ツール。プランナー側にもコードを理解する基礎知識が求められ、失敗を繰り返しながら学習するプロセスが不可欠です。 コード品質と一時的なエンジニアの負荷増: AIが生成したコードが冗長だったり、プランナーが解決できない問題でエンジニアのレビューやサポートが必要になったりすることも。 【Tips】 短期的なエンジニアの負荷増は、プランナーが細かな修正を吸収することで、エンジニアがより本質的な開発に集中できるようになるための「投資」と捉え、長期的には組織全体の生産性向上につながると考えられています。 このプロジェクトでは、「参加者全員が最低1回リリースする」「20%の参加者が週5件以上リリースする」といった目標を設定し、毎月の「ウィンセッション」でノウハウを共有し、参加者同士が助け合える環境を構築しています。 AIプランナーたちは、「Claude Code」(ターミナルで対話しながら開発できるAIツール)と「VS Code」、「Docker Compose」(ローカル開発環境)、そして「GitHub Codespaces」(クラウド開発環境)を主なツールとして活用しています。この経験を通じて、システムへの理解が深まり、Issue作成の精度やスピードが大幅に向上したとのことです。 記事は最後に、AIが言語化されたタスクをこなす時代において、PM(プロダクトマネージャー)を含む人間に求められるのは、「まだ言葉にされていない価値や課題を見つけ、問いを立て、言語化する力」であると締めくくっています。AIを強力なパートナーとし、人間にしかできない価値創造に挑むSpeee社の実践は、AI時代における開発チームのあり方を考える上で、新人エンジニアの皆さんにとっても大きなヒントになるでしょう。 引用元: https://tech.speee.jp/entry/AIplanner Introducing IndQA OpenAIが、インドの多様な言語と文化を深く理解し、推論するAIモデルの能力を評価するための新しいベンチマーク「IndQA(インドア)」を発表しました。これは、AGI(人間のように考えて行動するAI)を世界中の誰もが活用できるようにすることを目指す、重要な一歩となります。 なぜIndQAが必要なのか? 現在、世界の約8割の人々は英語を第一言語としていません。しかし、多くのAIモデルは英語を中心に開発され、その性能を測る既存のベンチマーク(MMMLUなど)も、主に翻訳や単純な選択問題に偏りがちでした。これでは、AIが地域の文化、歴史、日常の文脈をどれだけ理解しているかを十分に測ることができません。また、主要なベンチマークはAIモデルの進化により高得点が続出し、「飽和状態」となり、真の進歩を見極めるのが難しくなっていました。 IndQAの目的と特徴 IndQAは、これらの課題を解決するために作られました。特にインドを選んだのは、約10億人もの非英語話者がおり、22の公用語を持つ多言語・多文化国家だからです。OpenAIは、インド市場のユーザー向け製品改善にも力を入れています。 このベンチマークは、インド各地のジャーナリスト、学者、アーティストなど261名の専門家と協力して作成されました。建築、食文化、歴史、宗教、スポーツなど10の幅広い文化領域、そして英語、ヒンディー語、ベンガル語、タミル語、マラヤーラム語、さらにヒングリッシュ(ヒンディー語と英語を混ぜた話し方)を含む12の言語で、計2,278問の質問が含まれています。 IndQAの最大の特徴は、AIが簡単に答えられないような、深く文化的な知識や高度な推論を必要とする難しい問題を集めている点です。質問作成時には、当時の最新AIモデル(GPT-4oなど)が解けない問題だけを厳選する「敵対的フィルタリング」という手法が用いられました。また、各回答は、専門家が詳細に定めた評価基準(ルーブリック)に基づいて、AIモデルによって採点されます。 今後の展望 IndQAを通じて、OpenAIのAIモデルがインドの言語や文化に対してどのように理解度を向上させているかを継続的に測定していきます。このベンチマークは、どのAIが「一番優秀か」を競うためではなく、特定のAIモデルが時間と共にどのように進化するかを測るためのものです。OpenAIは、IndQAの公開が、他の言語や文化領域でも同様の新しい評価基準が生まれるきっかけとなり、より多様でグローバルなAI開発が加速することを期待しています。 新人エンジニアの皆さんにとって、このような多言語・多文化対応の評価軸は、AIが社会でより広く活用されるために非常に重要だということを理解する良い機会になるでしょう。 引用元: https://openai.com/index/introducing-indqa Circuits Updates – October 2025 Anthropicの研究チームが、LLM(大規模言語モデル)の内部メカニズムに関する最新の進捗を報告しています。特に、LLMがどのように情報を理解し、処理しているかを探る上で重要な2つの研究成果が紹介されています。 一つ目は、「異なる表現形式をまたぐ視覚的特徴の理解」についてです。 LLMが単なる文字の羅列だけでなく、ASCIIアートやSVGコードといった「絵や図形」の視覚的な情報も理解していることが示されました。例えば、「目」という概念を認識するLLMの内部的な特徴は、ASCIIアートで描かれた目、SVGコードで記述された目、そして自然言語で「目」と書かれた箇所の、すべてで活性化することが分かりました。これは、LLMが様々な表現形式を横断して、同じ意味を持つ情報を認識できる「クロスモーダル特徴」を持っていることを示しています。 また、これらの特徴は、その図形がどのような文脈に置かれているか(例えば、円が「顔」の構造の中にないと「目」として認識されない)によって活性化の仕方が変わる、文脈依存性を持つことも明らかになりました。さらに、これらの特徴を意識的に操作(「steering」と呼びます)することで、LLMが生成するテキストベースの絵(例:ASCIIアートのしかめっ面を笑顔に変える、SVGの顔にシワを加える)を、意味のある形で変更できることも実証されました。これにより、LLMが絵を認識するだけでなく、その意味を理解して生成を制御する能力を持つことが示唆されています。 二つ目は、「辞書学習モデルのデータポイント初期化」についてです。 LLMの複雑な内部をより深く理解するために使われる「辞書学習モデル(Sparse Auto-Encoder: SAE)」という解析ツールの性能を向上させる、新しい初期化手法「Data Point Initialization (DPI)」が提案されました。辞書学

  4. 4D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251104

    youtube版(スライド付き) 関連リンク How Code Execution Drives Key Risks in Agentic AI Systems AIの進化により、AIが自分でコードを生成し、それを実行して自律的に動く「AIエージェント」が注目されています。これは非常に便利な機能ですが、同時に新たなセキュリティリスクも生み出しています。新人エンジニアの皆さんも、AIシステムを扱う際には特に注意が必要です。 一番のポイントは、AIが生成したコードは「信頼できないもの」として扱うべきだということです。なぜなら、悪意のあるユーザーが巧妙な指示(プロンプト)を与えることで、AIに危険なコードを生成させ、それがシステム上で実行されてしまう可能性があるからです。これが「リモートコード実行(RCE)」のような、システムを乗っ取られるほどの深刻な脆弱性につながる可能性があります。 これまでのセキュリティ対策として、生成されたコードの中から危険な部分を検出・除去する「サニタイズ(フィルタリングや無害化)」という手法がよく使われてきました。しかし、この記事では、サニタイズだけでは不十分だと指摘しています。攻撃者は、フィルタリングをすり抜ける方法を常に探し、見つける可能性があるからです。たとえば、既存の安全なライブラリ機能を悪用したり、AIの挙動を操作したりすることで、サニタイズを回避できてしまうケースが実際に確認されています。 NVIDIAのセキュリティチームも、AIを活用した分析ツールで実際にこのような脆弱性を発見しました。この事例は、サニタイズだけでは防ぎきれない、システム全体のリスクであることを示しています。 では、どうすれば良いのでしょうか? 記事が強調しているのは、「サンドボックス化」の導入が必須であるという点です。サンドボックスとは、AIが生成したコードを実行するための隔離された安全な環境のことです。たとえ悪質なコードが生成されても、このサンドボックス内で閉じ込めることで、システム全体への影響を最小限に抑えることができます。これは、コードがシステム全体を自由に操作するのを防ぐための「実行境界線」を設けるイメージです。 重要な教訓は以下の3点です。 AIが生成したコードは、ユーザーからの入力と同様に「信頼できないもの」と考える。 サニタイズは補助的な対策であり、それだけに頼るのは危険。 実行環境の「サンドボックス化」は、AIがコードを実行するシステムには必須のセキュリティ対策である。 AI技術を安全に活用していくためには、単にコードをフィルタリングするだけでなく、実行環境を根本的に隔離するという構造的な対策が不可欠です。AIエージェントを開発する際は、この「サンドボックス化」を設計の初期段階から考慮に入れるようにしましょう。 引用元: https://developer.nvidia.com/blog/how-code-execution-drives-key-risks-in-agentic-ai-systems/ Tongyi DeepResearch: A New Era of Open-Source AI Researchers 皆さん、最新のAI技術に触れる良い機会です!今回ご紹介するのは、Alibabaが発表したオープンソースのWebエージェント「Tongyi DeepResearch」です。これは、複雑な情報探索や問題解決を自律的に行うことができるAIで、なんとOpenAIの同様のエージェントに匹敵するほどの高性能を実現しています。GitHubでその詳細が公開されているため、私たちエンジニアが実際に触れて学ぶことができるのは大きな魅力です。 Tongyi DeepResearchは、Webブラウジングやデータ分析をこなし、人間が与えるような多様なタスクを高い精度で実行します。例えば、「Humanity’s Last Exam」という学術推論タスクや、Web上の情報を探索する「BrowseComp」といった難しいベンチマークで、これまでのAIを上回る優れた結果を出しています。 この高性能を支えるのは、独自の学習方法です。特に注目すべきは、完全に自動化された高品質な合成データ生成です。人間が介入することなく、AIがより高度な学習をするための高品質なデータを大量に作り出すことで、AIエージェントの能力を限界まで引き上げています。これにより、継続的事前学習(CPT)、教師ありファインチューニング(SFT)、そして強化学習(RL)という一連の学習プロセスが、効率的かつ安定して行われています。開発チームは、アルゴリズムだけでなく、このデータの質と学習環境の安定性が、AIエージェントの性能を決定する上で非常に重要だと強調しています。 Tongyi DeepResearchには、タスクの性質に応じて二つの動作モードがあります。 一つはシンプルな「ReActモード」。これは「思考→行動→観察」というサイクルを繰り返し、モデル本来の能力を発揮させます。もう一つは、より複雑な長時間のタスクに対応する「Heavyモード」です。このモードでは「IterResearch」という革新的なアプローチを採用しており、過去の情報を全て溜め込むのではなく、必要な情報だけを選んでタスクを「研究ラウンド」に分解します。これにより、情報過多による「認知的窒息(cognitive suffocation)」を防ぎ、AIが常にタスクに集中し、高い推論品質を維持できるよう設計されています。 すでに現実世界での応用も始まっており、Alibaba社内では地図ナビゲーションエージェント「Xiao Gao」や、法律調査を行うエージェント「Tongyi FaRui」として活躍しています。これらの例は、Tongyi DeepResearchが単なる研究成果に留まらず、具体的なビジネス課題を解決できる実用的なAIであることを示しています。 もちろん、まだ改善の余地はあります。現在の課題としては、より長いコンテキスト(文脈)を扱えるようにすること、さらに大規模な基盤モデルへの適用、強化学習の効率化などが挙げられています。 新人エンジニアの皆さんにとって、このようなオープンソースで高性能なAIエージェントの登場は、最先端の技術動向を理解し、実際にAIエージェントを構築するヒントを得る貴重な機会になるでしょう。ぜひ、GitHubリポジトリを覗いてみてください。 引用元: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/ 【備忘録】AI駆動開発Conference Autumn 2days で 学びと気づきが得られすぎたので、共有したい… 2025年10月に開催された「AI駆動開発 Conference Autumn」での学びを、新人エンジニアの方々にも役立つようにまとめました。AIを活用した開発の最前線と実践的な知見が詰まっています。 AIとの賢い付き合い方:同僚のように協業しよう AIは「同僚エンジニア」として捉え、期待することを具体的に、そして背景情報も添えて伝えると、より質の高い結果が得られます。例えば、コードの質問をする際は「なぜこのコードについて質問するのか?」といった目的も一緒に伝えると効果的です。また、「think ultrathink」のような指示でAIの推論を深めることができ、計画作成時に特に役立ちます。AIの機能が分からなければ、AI自身に「どう使ったらいい?」と質問してみるのも良いでしょう。 開発プロセスの改善:効率と品質を高める工夫 AIにタスクを依頼する際は、進捗状況を共有するためのDBを用意したり、タスクを10分単位など細かく分割して指示したりすることで、効率的に並行開発を進められます。また、AIに実装させたコードは「さらに改善して」と繰り返し指示し、テストが通るまで修正させることで品質を高めます。TDD(テスト駆動開発)は単にテストを先に書くことではなく、テストからのフィードバックを通して「最適な設計を考え続ける」プロセスです。コード品質を測る指標は、互いに補完しあうもの(例:テスト/ソース比率とカバレッジ)を選ぶと、偏りのない良いコードになります。 組織へのAI浸透と未来のエンジニア像 AI活用を組織に広めるには、「業務理解」が最も重要です。現場の業務を深く知り、「なぜ?」を掘り下げることが成功の鍵。また、AI導入には「技術理解」「組織理解」「心理的抵抗」の3つの壁がありますが、AIを使いこなす人をロールモデルにしたり、社内勉強会を開いたりして、多くの人がAIを使える文化を作ることが大切です。 AIがコード生成を高速化する一方で、デバッグやレビューがボトルネックになることもあります。AIによる効率化は、開発フロー全体を見直す視点が必要です。最終的に人がコードを読み、そこから学ぶ習慣は忘れずに。未来のAI駆動開発では、AIはテストや改善も行い、エンジニ

  5. 私立ずんだもん女学園放送部 podcast 20251031

    OCT 30

    私立ずんだもん女学園放送部 podcast 20251031

    youtube版(スライド付き) 関連リンク Introducing Aardvark: OpenAI’s agentic security researcher OpenAIは、GPT-5を搭載した新しいAIエージェント「Aardvark」を発表しました。これは、ソフトウェアのセキュリティ脆弱性を自動で見つけて修正を支援する画期的なツールです。 現代のソフトウェア開発では、毎年何万もの新しい脆弱性が見つかり、開発者は常にその対策に追われています。Aardvarkは、この「防御側」が優位に立てるように設計されました。人間のセキュリティ研究者のようにコードを読み、分析し、テストを行い、ツールを駆使することで、脆弱性を大規模に特定し、対処します。 Aardvarkの主な機能は以下の通りです。 分析: リポジトリ全体のコードを分析し、プロジェクトのセキュリティ目標や設計を理解します。 コミットスキャン: 新しいコードの変更が加えられると、すぐにその変更をスキャンして脆弱性をチェックします。過去の履歴も分析できます。 検証: 見つけた可能性のある脆弱性が実際に悪用できるか、安全な隔離環境(サンドボックス)でテストして確認します。 パッチ提案: 脆弱性が確認されたら、OpenAIのCodexと連携して修正パッチを生成し、人間がレビューしてワンクリックで適用できるように提案します。 Aardvarkは、従来のセキュリティツールとは異なり、AIの推論能力を活用してコードの挙動を深く理解します。GitHubなどの開発ツールや既存のワークフローとスムーズに連携し、開発スピードを落とすことなく、具体的で役立つセキュリティ情報を提供します。セキュリティ問題だけでなく、ロジックのミスやプライバシーに関するバグなども発見できるとのことです。 すでにOpenAI内部や外部パートナーのプロジェクトで数ヶ月間稼働しており、重要な脆弱性を発見し、高い検出率を示しています。特に、オープンソースプロジェクトでは10件の脆弱性がCommon Vulnerabilities and Exposures (CVE) 識別子を取得しました。OpenAIは、一部の非商用オープンソースプロジェクトに対して、無料でスキャンを提供し、オープンソースエコシステムのセキュリティ向上にも貢献していく方針です。 ソフトウェアの脆弱性は、ビジネスや社会のインフラにとって大きなリスクとなります。Aardvarkは、コードが進化するにつれて継続的に保護を提供することで、イノベーションを妨げることなくセキュリティを強化する「防御者優先」の新しいモデルを示しています。現在はプライベートベータ版として一部のパートナーに提供されており、今後さらに広く利用できるようになる予定です。 引用元: https://openai.com/index/introducing-aardvark AI エージェント時代のリスク対策 : 認証・認可をあらためて学ぶ AIエージェントが「目的を与えれば自律的にタスクを完遂する」時代が到来し、セキュリティ、特に「認証」と「認可」の重要性が増しています。AIエージェントがあなたの代理で社内ツールや機密情報を扱うようになるため、悪意ある第三者に利用された際の被害は甚大です。そこで、「誰が」「何を」「どれだけ」実行したかを追跡できる仕組みが不可欠になります。 従来のシステムでは想定されなかったAIエージェント独自のリスクとして「意図しない過剰な権限でツールを操作してしまう可能性(Excessive agency)」があります。これは、AIがユーザーの指示を解釈し、自律的に外部ツールを呼び出すことで発生します。このリスクに対処するため、AWSのベストプラクティスであるGenerative AI Lensでも言及されています。 リスク対策をしっかり行うことで、利用状況のデータに基づいた改善、コスト管理の精度向上、監査対応の効率化、そして新しいツール導入時の安全確保といった多くのメリットが得られます。 AIエージェントに適切な権限を与えるには、「認証情報(パスワードなど)を直接渡さずに、必要な範囲だけアクセスを許可する」仕組みが必要です。これを実現するのが「OAuth(オーオース)」という技術です。OAuthでは、ユーザーが一度「このAIエージェントに、この範囲の作業を許可します」と承認すると、AIエージェントは期限付きの「アクセストークン」を使ってその範囲内でのみツールを利用できます。これにより、AIエージェントにパスワードを教える必要がなく、安全に代理作業をさせることが可能です。 Amazon Bedrock AgentCoreは、このようなAIエージェントのセキュリティ対策を効率的かつ安全に実装するためのAWSのマネージドサービスです。 AgentCore Identity:ユーザーがエージェントを使う際の認証・認可(Inbound Auth)や、エージェントが外部ツールを使う際の認可(Outbound Auth)をサポートします。Amazon Cognitoなどの既存の認証プロバイダーと連携し、必要な認証情報を代わりに取得してくれます。取得した情報は「Token Vault」に安全に保管され、再利用も可能です。 AgentCore Observability:AIエージェントの行動記録を詳細に収集し、監視できます。誰がいつ、どのようなツールを使ったか、認証が成功したか失敗したかなどを追跡できるため、不正利用の早期発見やトラブルシューティングに役立ちます。 AIエージェントの安全な社会実装には、こうしたセキュリティ対策が欠かせません。Amazon Bedrock AgentCoreを活用すれば、面倒に思える認証・認可の実装や行動記録の管理も手軽に行えるため、ぜひ積極的に取り組んでいきましょう。 引用元: https://zenn.dev/aws_japan/articles/f1a0549c8e533a 【プロンプトから生まれる映像体験】Google AI Agent Summit 25 を彩った Veo のクリエイティブ 皆さん、こんにちは!Google AI Agent Summit ‘25という、AIエージェントの最先端を紹介する大きなイベントが開催され、その中で流れる印象的な映像が、Googleの生成AIモデル「Veo(ヴェオ)」によって作られたことが紹介されました。AIがこのような大規模イベントのクリエイティブな部分、具体的には幕間映像やキービジュアルなどを手掛けているというのは、AIの進化と可能性を強く感じさせるニュースですね。 このイベントで流れた映像は、「黒猫が歌っている!」とか「カピバラがかわいすぎる!」といった感想が聞こえてきそうな、個性豊かでユーモラスな動物たちのショートクリップでした。例えば、書斎で思索にふけるフクロウ教授、市場を敏捷に駆け抜けるキツネ泥棒、日本の新幹線を操縦するウサギ車掌、雪が降る中で気持ちよさそうに温泉につかるカピバラ、流れるような手つきで寿司を握るカワウソ職人、優しい表情で絵を描くリス画家、法廷で迫力満点に主張するブルドッグ弁護士、そしてディープなブルースを歌い上げる黒猫シンガーなど、まるで夢のような「もしもの世界」が生き生きと描かれています。 これらの映像は、すべて私たちが書く「プロンプト」、つまりAIへの具体的な指示文から生み出されました。記事には、それぞれのショート動画を生成するためにAIに与えられた英語のプロンプトが紹介されています。例えば、温泉のカピバラのプロンプトは「ASMR風の超クローズアップ動画。雪が穏やかに降る中、湯気の立つ温泉にうっとり浸かるカピバラ」といったように、カメラワークから情景、音響の指定まで、非常に詳細な描写が含まれています。AIにどんな言葉で、どれだけ具体的にイメージを伝えれば、こんなにも豊かで高品質な映像が生成できるのか、その表現力と可能性に驚かされます。 新人エンジニアの皆さんにとって、AIというとデータ処理や自動化、あるいはコード生成といったイメージが強いかもしれません。しかし、今回のようにAIが想像力豊かな映像コンテンツを生み出す力を持っていることを知ると、AIが活躍する分野の広さや、クリエイティブなパートナーとしての可能性に改めて気づかされるのではないでしょうか。私たちが書くプロンプトが、AIの創造性を引き出す鍵となるという点で、「プロンプトエンジニアリング」の重要性が示されています。 今回紹介された素晴らしいクリエイティブが、どのような企画やプロンプトを経て制作されたのか、その詳しい舞台裏は後日公開される予定です。AIを活用したコンテンツ制作のノウハウを知ることは、皆さんの今後のエンジニアリングやアイデア創出のヒントになるはずです。ぜひ、今後の情報にも注目してみてください。AIがもたらす創造的な

  6. OCT 29

    株式会社ずんだもん技術室AI放送局 podcast 20251030

    youtube版(スライド付き) 関連リンク Introducing LangSmith’s No Code Agent Builder 皆さん、こんにちは!今回は、AI開発の最前線から、新人エンジニアの皆さんにもぜひ知ってほしい画期的なニュースをお届けします。AIエージェント開発で有名なLangChainの製品「LangSmith」から、「ノーコードAIエージェントビルダー」が発表されました。これは、プログラミングの知識がなくても、誰でも簡単にAIエージェントを作れるようになるという、すごいツールなんです! これまでのAIエージェント開発は、コードを書く必要があり、主に開発チームが担当していました。しかし、この「LangSmith Agent Builder」を使えば、社内のあらゆる部署の人が、それぞれの仕事に役立つAIエージェントを自分で作れるようになります。例えば、毎日決まった時間にメールで会議の準備状況をまとめてくれたり、送られてきたメールの内容に応じて自動でタスクを作成したりするAIエージェントを、コードなしで設定できるようになるイメージです。 一般的なビジュアルワークフローツールとは違い、LangSmith Agent Builderでは、AI(大規模言語モデル、LLM)が自ら状況を判断し、次に何をするかを決めることができます。これにより、あらかじめ決まった流れだけでなく、もっと柔軟で賢いエージェントを作れるのが大きな特長です。 AIエージェントは、主に以下の4つの要素で構成されます。 プロンプト: エージェントが何をするべきかを指示する「脳」にあたる部分です。 ツール: エージェントが外部のサービス(Gmail、Slack、LinkedInなど)と連携するための「手足」のようなものです。 トリガー: 「メールを受け取ったら」「特定のスラックチャンネルにメッセージがあったら」といった、エージェントを起動するきっかけです。 サブエージェント: 複雑なタスクを、より小さな専門のエージェントに任せることで、管理しやすくする仕組みです。 特に、AIエージェントを作る上で一番難しいと言われる「効果的なプロンプトの作成」について、このビルダーは強力なサポートを提供します。例えば、「こんなことをしたい」と話しかけるだけで、システムが詳細な質問をしながら、適切なプロンプトを自動で生成してくれます。また、エージェントが過去のやり取りやユーザーからの修正を覚えて、次回以降に活かす「記憶機能」も備わっています。 このツールは、LangChainがこれまで培ってきたAIエージェント開発の知見(LangChainやLangGraphといったオープンソースフレームワーク)を活かして作られており、エージェントが複雑な計画を立てたり、複数のステップを踏んで問題を解決したりできる「Deep Agents」という技術が土台になっています。 つまり、この「LangSmith Agent Builder」は、AIエージェント開発のハードルを大きく下げ、より多くの人がAIの力を活用できる未来を切り開くものだと言えるでしょう。現在、プライベートプレビューのウェイティングリストを募集中なので、興味のある方はぜひチェックしてみてください。 引用元: https://blog.langchain.com/langsmith-agent-builder/ StreetReaderAI: Towards making street view accessible via context-aware multimodal AI この研究は、Google Street Viewのような没入型ストリートビュー体験を、視覚に障がいのある方々(ブラインド・ロービジョンコミュニティ)にとって、より利用しやすくするための画期的なプロジェクト「StreetReaderAI」について紹介しています。これは、マルチモーダルAIと画像認識技術を活用し、これまでのストリートビューが対応していなかったスクリーンリーダーによる画像解釈や代替テキストの提供を可能にするものです。 StreetReaderAIは、UIST’25で発表されたコンセプト実証プロトタイプで、リアルタイムの文脈認識AIとアクセスしやすいナビゲーション機能を組み合わせています。チームには視覚に障がいのある研究者も参加し、アクセシビリティを重視して設計されました。主な機能は以下の通りです。 リアルタイムAI記述: 周囲の道路、交差点、場所をAIがリアルタイムで音声説明します。 ダイナミックなAIチャット: マルチモーダルAIエージェントと会話しながら、景色や地理について質問できます。 アクセスしやすい操作: 音声コマンドやキーボードショートカットで、パノラマ画像の移動や視野の変更が可能です。 ナビゲーションは、まるでビデオゲームのように音声が主要なインターフェースとなります。キーボードの矢印キーで視点変更や移動を行い、「今、北を向いています」といった音声フィードバックを得られます。 StreetReaderAIの核となるのは、Geminiをベースにした二つのAIシステム「AI Describer」と「AI Chat」です。 AI Describerは、現在のストリートビュー画像と地理情報を組み合わせて、リアルタイムで音声記述を生成します。ナビゲーションや安全性を重視したモードと、観光情報を提供するツアーガイドモードがあります。 AI Chatは、GoogleのMultimodal Live APIを活用し、ユーザーが現在の視点や過去の視点、周辺の地理について質問できるシステムです。最大約4,000枚の画像に相当する膨大な情報を一時的に記憶する能力があり、「あのバス停はどこにあった?」といった過去の質問にも文脈を理解して応答できます。 実際に11名の視覚に障がいのあるユーザーによる評価では、StreetReaderAIは高い有用性が示され、特にAIチャットのインタラクティブ性が好評でした。既存のツールにはないアクセシビリティの進歩が強調されています。AIチャットはAI Describerの6倍も利用され、パーソナライズされた会話型クエリへの明確な好みが示されました。質問内容は、位置や距離(空間的方位)、障害物の有無(オブジェクトの存在)、一般的な説明、場所の特定が多かったです。 AIチャットの応答精度は86.3%が正確で、今後の改善点としては、ユーザーがAIの回答の真偽を見極める難しさや、AIの知識の限界を理解する点などが挙げられています。 今後の展望として、より自律的な「ジオビジュアルエージェント」の開発、完全なルートプランニングのサポート、そして空間化されたオーディオなど、より豊かなオーディオインターフェースの実現が検討されています。 StreetReaderAIはまだプロトタイプですが、没入型ストリートビュー環境をすべての人にアクセス可能にする大きな可能性を示しています。 引用元: https://research.google/blog/streetreaderai-towards-making-street-view-accessible-via-context-aware-multimodal-ai/ 「Google Gemini」がプレゼン資料の自動生成に対応–「Canvas」ツールでスライド作成が可能に GoogleのAI「Gemini」に、プレゼンテーション資料を自動で作成してくれる便利な新機能が加わりました。この機能は「Canvas」というツールを使って提供され、現在はGoogleのProアカウント向けに先行公開されていますが、近いうちには無料プランでも利用できるようになる予定です。 普段PowerPointやGoogleスライドで資料を作る際、「どんな内容にしようか」「どう見せたら伝わるだろうか」と悩むことはありませんか?Geminiの新機能を使えば、その悩みから解放されるかもしれません。使い方はとても簡単で、Geminiにプレゼンテーションのテーマを伝えたり、元になるドキュメントをアップロードしたりするだけで、テーマに合った内容と関連画像を含んだスライドセットを自動で生成してくれます。 Canvasツールは、プロンプト(指示)を入力する側と、生成されたスライドのプレビューが表示される側が左右に分かれていて、リアルタイムで結果を確認しながら調整できるのが特徴です。完成した資料は、Googleスライドにエクスポートしてさらに細かく編集したり、PDFとしてダウンロードしたり、共有リンクを作成したりできます。 記事には実際に使ってみた感想も書かれており、例えば「パスワードマネージャーの長所と短所」についてプレゼンを依頼すると、13枚のスライドが生成されたそうです。ただし、AIはまだ完璧ではなく、細かいデザインの指示が意図通りに反映されないこともあったとのこと。そのため、まずはAIに大まかな草案を作成させ、その後にGoogleスライドなどで手動でテキストやデザインを調整するという使い方が、最も効率的で現実的な活用法だと結論付けられています。 この機能は、プレゼン資料作成の初期段階

  7. OCT 28

    株式会社ずんだもん技術室AI放送局 podcast 20251029

    youtube版(スライド付き) 関連リンク Develop Specialized AI Agents with New NVIDIA Nemotron Vision, RAG, and Guardrail Models タイトル: Develop Specialized AI Agents with New NVIDIA Nemotron Vision, RAG, and Guardrail Models 要約: NVIDIAは、AIエージェントの開発を加速するための新しいNemotronモデル群を発表しました。AIエージェントとは、自分で考えて計画を立て、状況に応じて行動できる自律的なAIのことです。今回の発表は、特定の業務に特化したAIエージェントを、より効率的かつ安全に構築できるようにすることを目指しています。 発表された主なモデルと、それぞれがAIエージェント開発にどう役立つかを簡単にご紹介します。 Nemotron Nano 3: これは、AIエージェントがもっと賢く、効率的に「思考」するためのモデルです。例えば、複雑な科学的な問題を解いたり、プログラミングをしたり、数学的な計算をしたり、他のツールをAIが使う際の精度を高める役割をします。MoE(Mixture-of-Experts)という特別な技術を使うことで、処理速度を速くしつつ、開発コストも抑えることができます。 Nemotron Nano 2 VL: 文書、画像、動画といったさまざまな種類の情報を理解できる「マルチモーダル」なAIエージェントを作るためのモデルです。これはAIエージェントに「目と耳」の役割を与えるようなもので、データ分析、文書の自動処理、動画の内容理解など、視覚情報とテキスト情報を組み合わせて判断するAIアシスタントの開発に役立ちます。 Nemotron Parse 1.1: 主に文書から必要な情報(テキストや表など)を正確に抽出することに特化した、コンパクトなモデルです。例えば、スキャンした書類から特定のデータを自動で抜き出すような場面で活躍し、その後の情報検索の精度向上や、AIの学習データを質の高いものにするのに役立ちます。 Nemotron RAG: AIエージェントが、最新の情報や企業内の独自のデータソースから知識を引き出して、より正確で信頼性の高い回答を生成するためのRAG(Retrieval-Augmented Generation)パイプラインを構築するのに使うモデル群です。社内マニュアルを参照して質問に答えるAIや、リアルタイムのビジネス分析を行うAIエージェントの基盤となります。 Llama 3.1 Nemotron Safety Guard: AIエージェントが意図せず不適切または有害な内容を出力しないように監視し、安全性を確保するためのモデルです。特に、多言語に対応しており、文化的な違いも考慮しながら、危険なプロンプト(指示)や応答を検出する能力を持っています。 これらのモデルに加え、NVIDIAはAIモデルの性能を評価するための「NeMo Evaluator SDK」や、AIエージェントの最適な設定を自動で見つける「NeMo Agent Toolkit」も提供し、開発者がより信頼性の高いAIエージェントを効率的かつ安全に作れるようサポートしています。 引用元: https://developer.nvidia.com/blog/develop-specialized-ai-agents-with-new-nvidia-nemotron-vision-rag-and-guardrail-models/ ClaudeCodeを使ったら手作りAWSが3日でTerraform化できた話 SREのgumamonさんが、AI Agentの一種である「ClaudeCode」を使って、既存のAWS環境をわずか3日でTerraform化できたという、実践的な事例を紹介する記事です。新人エンジニアの皆さんも、これからのインフラ管理でAIがどう役立つのか、その可能性と注意点を知る良い機会になるでしょう。 まず、Terraform(テラフォーム)とは、AWSのようなクラウドサービスのインフラ構成を「コード」として定義・管理できるようにするツールです。これにより、手作業に比べてミスの削減や繰り返し作業の効率化が期待できます。この記事では、これまで手作業で作られてきたAWS環境をTerraformのコードで管理できるように変更する「Terraform化」にClaudeCodeを活用しました。 AI Agentをインフラ管理に使う際、筆者は「AIは怒れるインターン生」という比喩を使い、その限界と注意点を指摘しています。AIは指示通りに動きますが、長い指示を覚えきれず、時には「やってはいけないこと」を提案することもあります。そのため、AIにインフラの変更を直接許可するのではなく、サンドボックス環境という隔離された場所で作業させ、権限を制限する「ガードレール」の設置が必須であると強調しています。具体的には、AWSへのアクセスは読み取り専用(ReadOnly)に限定し、Terraformの状態を管理するS3やDynamoDBへの最小限の書き込み権限のみ与えるといった工夫をしています。 実際の3日間のTerraform化プロセスでは、以下のステップを踏みました。 Day1: ClaudeCodeの導入と、プロジェクトの目的や構成をAIが理解しやすいようにプロンプト(指示文)を整備。この過程で、自分自身の既存AWS構成への理解が深まったそうです。 Day2: 既存のAWSリソースからTerraformコードを生成させ、terraform importを使ってリソースをTerraformの管理下に置きました。AIとの「ペアプログラミング」のように試行錯誤しながら、プロンプトを改善していきました。 Day3: 生成されたコードのリファクタリング(より良い形に整理すること)を行いました。AIにレビューさせて命名規則のばらつきなどを指摘してもらい、修正を進めました。プロンプトを分割することで、AIがより効率的に作業できるように改善した点もポイントです。 この取り組みを通じて、筆者は以下の大きな効果を実感しました。 圧倒的なスピード: 自力で1ヶ月かかるような作業が、試行錯誤を含めてたった3日で完了。 高い応用力: 通常のツールでは対応が難しいAWSリソースについても、ClaudeCodeはコードを生成できた。 大胆な意思決定: AIの力を借りることで、手作業では諦めていた大規模なリファクタリングにも挑戦できた。 思考の整理: AIに明確な指示を出すためにプロンプトを考える過程で、自身のインフラ構成への理解が深まった。 このように、AI Agentはインフラ管理の生産性を大きく向上させる可能性を秘めていますが、その特性を理解し、適切な権限管理や監視体制のもとで活用することが非常に重要です。AIをただ使うだけでなく、AIが働きやすい環境を人間が整えることで、より効果的な協働が生まれることを示唆する良い事例です。 引用元: https://tech-blog.rakus.co.jp/entry/20251028/ai-terraforming Doubling down on DeepAgents LangChainチームは、複雑で長期間にわたるタスクを自律的に実行できるAIエージェント「DeepAgents」のバージョン0.2リリースを発表しました。これは、AIエージェントが単発のタスクを超え、より広範な問題解決に貢献することを目指すものです。 DeepAgentsの核となるのは、計画ツール、ファイルシステムへのアクセス、サブエージェント、詳細なプロンプトという4つの要素です。これらの機能をパッケージ化したdeepagentsライブラリにより、開発者は独自のツールやプロンプトを組み合わせるだけで、高度なエージェントを効率的に構築できます。 今回の0.2リリース最大の目玉は、「Pluggable Backends(プラグ可能なバックエンド)」です。これまでのDeepAgentsは、エージェントが一時的に情報を保存する「仮想ファイルシステム」のみに限定されていました。しかし0.2からは、エージェントのファイルシステムとして、永続的なデータ保存が可能な「LangGraphストア」や「ローカルファイルシステム」など、様々な種類のストレージを自由に選べるようになりました。 この機能は、エージェントに長期記憶を持たせる上で非常に重要です。例えば、特定のディレクトリへのファイル操作をAmazon S3のようなクラウドストレージにマッピングすることで、エージェントは過去の経験や学習結果を永続的に保持し、将来のタスクに活かせるようになります。また、独自のデータベースと連携するカスタムバックエンドを作成したり、ファイル書き込みにルール(ガードレール)を設定したりする柔軟性も提供されます。 その他、0.2ではエージェントの運用効率を高める改善も複数追加されました。具体的には、大規模なツール実行結果の自動ファイル保存、会話履歴が長くなった場合の自動要約によるトークン最適化、ツール呼び出し中断時の履歴自動修正などが挙げられます。 LangChainチームは、LangChain、LangGraph、DeepAgentsという3つのオープンソースライブラリを提供しており、それぞれ異なる役割を持っています。LangGraphはワークフローとエージェントを組み合わせる「エージェン

  8. OCT 27

    株式会社ずんだもん技術室AI放送局 podcast 20251028

    youtube版(スライド付き) 関連リンク 【Claude】Agent Skills入門 - はじめてのスキル作成 - こんにちは、新人エンジニアの皆さん!今回は、生成AIの「Claude」に新しく追加された画期的な機能、「Agent Skills」について、その概要とメリット、簡単な作り方をご紹介します。 最近、GitHub CopilotのようにAIが開発をサポートするツールが増えていますが、ClaudeのAgent Skillsは、AI自身を特定のタスクに特化させ、あなたの仕事をもっと効率的にしてくれる機能です。まるで、Claudeに新しい「専門スキル」を教えるようなイメージですね。 Agent Skillsって何がすごいの? 機能拡張と特化: あなたのプロジェクトに合わせて、Claudeに独自の機能や知識を教え込めます。例えば、「このプロジェクトのコミットメッセージのルールはこれ!」と教えれば、それに沿ったメッセージを自動で作ってくれるようになります。 繰り返し作業の削減: 一度スキルを作れば、Claudeが必要に応じて自動で使ってくれるので、同じプロンプト(指示)を何度も入力する手間が省けます。まるで賢いアシスタントがあなたの意図を汲んで動いてくれるようなものです。 効率的な処理: たくさんのスキルを教えても、Claudeが賢く情報を管理してくれるのが大きな特徴です。必要なときにだけスキルの中身を読み込む「Progressive disclosure(段階的開示)」という仕組みのおかげで、AIが処理する情報量(コンテキスト)が肥大化せず、常にスムーズに動作します。これは、従来のAIの拡張方法との決定的な違いです。 どうやってスキルを作るの? スキルを作るのは意外とシンプルです。 .claude/skillsフォルダの中に、スキルごとにフォルダを作成します。 その中にSKILL.mdというファイルを作成し、スキルを定義します。 SKILL.mdには、スキルの「名前」や「簡単な説明」(これはClaudeがスキルを選ぶときに使う大切な情報です!)と、具体的な「指示」や「使用例」を記述します。 Anthropics社が提供する「skill-creator」というツールを使えば、これらのファイル作成を自動で行ってくれるので、初めてでも簡単に始められます。 記事では、Semantic Versioning(バージョン管理のルール)に沿ったコミットメッセージを自動生成するスキルを作成する例が紹介されています。一度作成したスキルは、Claude Codeを再起動するだけで自動的に有効になり、「コミットしてください」といった指示に対して、Claudeが状況を判断して適切なコミットメッセージを生成してくれます。 まとめ Agent Skillsは、あなたの開発ワークフローを大きく改善する可能性を秘めた、Claudeの新しい強力な機能です。今後も機能拡張が予定されており、ますます目が離せません。ぜひ皆さんも、このAgent Skillsを活用して、より快適で効率的な開発環境を築いてみてください! 引用元: https://tech.findy.co.jp/entry/2025/10/27/070000 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント 近年、大規模言語モデル (LLM) の進化に伴い、LLMが自律的に意思決定し外部ツールを使って複雑なタスクをこなす「AI エージェント」が注目されています。これは、単なるテキスト生成を超え、現実世界の問題解決に役立つ可能性を秘めています。 この記事では、AI エージェントの主要な手法である「ReAct (Reasoning and Acting) エージェント」に焦点を当て、その仕組みと実装、そして開発・運用を効率化するツールキットを紹介しています。 ReAct エージェントの核となるのは、LLMが「リーズニング(推論)」と「アクション(行動)」を繰り返すプロセスです。ユーザーの指示に対し、LLMはまず次に何をすべきかを推論し、必要であれば「Tool Calling(ツール呼び出し)」機能を使って外部ツール(例:Wikipedia検索、現在時刻取得など)を選択します。Tool Callingは、LLMが最適なツールとその使い方を判断する機能で、実際のツール実行は別のプログラムが行います。この推論とツールの実行を繰り返すことで、エージェントは目標を達成し、最終的な回答を導き出します。 ReActエージェントの実装には、LLMのオーケストレーションツールであるLangChainから派生した「LangGraph」が活用されます。LangGraphの最大の特徴は、エージェントの挙動を「ノード(処理の単位)」と「エッジ(ノード間の接続)」で構成されるグラフとして構築できる点です。これにより、ループや条件分岐といった複雑なエージェントの処理フローも直感的に、かつ柔軟に設計・実装することが可能です。ノード間で情報を共有する「ステート」を使い、LLMの推論やツール実行といった各ステップをノードとして定義し、ツール使用の有無に応じて処理を分岐させる「条件付きエッジ」でReActの反復構造を表現します。 さらに、エージェントシステムの開発から運用までを一貫して支援するNVIDIAのオープンソースツールキット「NeMo Agent Toolkit」も紹介されています。エージェント開発では、様々な構成の迅速な試行、パフォーマンスの最適化、そしてシステムの状態を把握する「オブザーバビリティ(可観測性)」が重要となります。NeMo Agent Toolkitは、YAMLファイルを使ってエージェントやツール、LLMの構成を簡単に定義・実行できるのが特徴です。評価やパフォーマンスボトルネックを特定するプロファイリング機能、エージェントの思考過程やツールの利用状況を詳細にトレースできるオブザーバビリティ機能(Phoenixなどと連携)を提供し、開発者がエージェントの機能改善に集中できるよう支援します。 LangGraphによる柔軟なReActエージェントの実装と、NeMo Agent Toolkitによる効率的な開発・運用支援は、AIエージェントシステムの構築を大きく加速させます。 引用元: https://developer.nvidia.com/ja-jp/blog/practical-tutorial-on-react-langgraph-nemo-agent-toolkit/ AIエージェントはなぜ複雑なタスクを完遂できないのか? 〜コンテキストエンジニアリング+マルチエージェント化で解く最新研究〜 最近のAI技術、特に自律型AIエージェントは、まるで人間のように考えて行動できると期待されています。しかし、実際に複雑な指示を与えると、途中で「何をすべきだったか」を忘れてしまい、タスクを最後までやり遂げられないという困った問題が起こりがちです。これは、AIが大量の情報を処理し続ける中で、最初に与えられた指示(高レベルな計画)と、その途中で行う具体的な操作や環境からの情報(低レベルな実行やフィードバック)を、一つの「コンテキスト(文脈や記憶のようなもの)」として管理しきれなくなり、混乱してしまうことが原因です。 この問題を解決するために、「コンテキストエンジニアリング」というアプローチが注目されています。これは、AIエージェントが持つコンテキストを賢く管理する手法で、特に「Isolate Context(コンテキストの分離)」が有効だとされています。簡単に言うと、一つのAIエージェントに全てをやらせるのではなく、役割に応じて複数のAIエージェントに仕事を分担させることで、それぞれが担当するコンテキストをシンプルに保ち、効率よくタスクを進めようという考え方です。 具体的な解決策として、以下の3つの手法が紹介されています。 Plan and Act(計画と実行の分離): これは、大まかな計画を立てる専門の「Planner(プランナー)」エージェントと、その計画に基づいて具体的な操作を実行する「Executor(エグゼキューター)」エージェントに分ける方法です。Plannerは全体のゴールを忘れずに計画を練り、Executorは目の前のタスクに集中します。これにより、AIエージェントが途中で指示を忘れることなく、複雑なタスクも高い確率で完遂できるようになります。 階層型マルチエージェント(オーケストレーター): Plan and Actのさらに進んだ形で、全体の司令塔となる「オーケストレーター」エージェントが、大きな指示を細かなサブタスクに分解し、それを担当する複数のサブエージェントに割り振ります。オーケストレーターがサブタスクをいかに明確に指示するかが成功の鍵となりますが、うまく機能すれば非常に複雑な調査や作業も効率的に進められます。 特化型の専門家エージェントへの分解: この手法では、サブエージェントをさらに「専門家」に特化させます。例えば、「データ分析専門エージェント」や「コード生成専

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

You Might Also Like