株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局
株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 20小時前

    株式会社ずんだもん技術室AI放送局 podcast 20250722

    関連リンク 【Kiroだけじゃなかった!AWSがAIインフラ続々リリースして凄すぎたので緊急整理🔥】AWSがAIエージェント開発の「実験→本番」への難題を解決!AgentCoreで誰でも本格的なAIエージェントを動かせる時代に突入 AWS Summit NYC 2025で発表された「Amazon Bedrock AgentCore」は、これまで「デモ止まり」だったAIエージェントを、企業で実用的に使えるレベルへ引き上げる画期的なサービスです。 これまでのAIエージェント開発は、プロトタイプは簡単でも、セキュリティ、多数のユーザーが同時に使うための拡張性(スケーラビリティ)、過去の会話を覚える記憶機能、そして予測が難しい動的な動作の管理といった課題があり、本番環境への導入が困難でした。 AgentCoreは、これらの課題を解決するために7つの主要な機能を統合しています。 Runtime: AIエージェントを最長8時間連続で動かせ、何千人ものユーザーが同時にアクセスしても自動で対応し、問題が起きても自動で復旧します。 Memory: 人間のように短期記憶と長期記憶を自動で切り替え、複数のエージェント間で情報を共有できます。開発者が記憶管理を意識する必要がありません。 Identity: 各エージェントに固有の身分証明書を与え、細かくアクセス権限を設定できるため、セキュリティも安心です。 Browser: 人間のようにWebサイトを自動で操作し、情報収集やフォーム入力などを安全に行えます。 Gateway: 既存の社内システム(SaaSやデータベースなど)とAIエージェントを簡単に連携させ、API操作を自然言語で行えるようになります。 Observability: エージェントの全ての行動を記録し、なぜその判断をしたのかが可視化されるため、予期せぬ動作にも迅速に対応できます。 さらに、AgentCore以外にも、AIの記憶容量を劇的に安くする「S3 Vectors」(ストレージコスト90%削減)や、Webサイト操作を人間と同レベルで行う「Nova Act」、自社の専門知識を学ばせて「専用AI」を育成できる「カスタマイズ可能なNova」など、AI活用を加速する新機能が多数発表されました。 実際に、会計ソフトのIntuitでは、4つのAIエージェントが連携して業務を自動化し、中小企業オーナーの作業時間を70%削減。レガシーシステムからの脱却が課題だったThomson Reutersでは、移行速度が4倍になるなど、具体的な成果が出ています。 AWSは、生成AI分野に大規模な投資を行い、専門家による無償支援や教育プログラムも提供し、AIエージェントを販売・購入できる「AWS Marketplace」も開始するなど、この分野に本気で取り組んでいます。 新人エンジニアの皆さんへ。AIエージェントは、もはや「面白い実験」ではなく「ビジネスに不可欠なツール」になりつつあります。AWSのバイスプレジデントも「完璧を待つな、今すぐ始めろ」と語っています。まずは小さな業務からAIエージェントの活用を試して、新しい技術に積極的に挑戦してみましょう。 引用元: https://qiita.com/akira_papa_AI/items/92fa19cbac0d2918ec8f Traditional RAG vs. Agentic RAG—Why AI Agents Need Dynamic Knowledge to Get Smarter 新人エンジニアの皆さん、AIエージェントを「もっと賢く、便利にする」ための最新技術「Agentic RAG」について解説します。古いGPSが新しい道路を知らないように、AIエージェントも訓練時の固定された情報に頼っていると、間違った情報を生成したり(ハルシネーション)、情報が古くなったりする課題があります。 これを解決するのが、常に最新情報にアクセスできる「動的な知識」です。リアルタイムで更新されるGPSのように、AIエージェントも変化する世界に適応できるようになります。 AIエージェントは、「認識」「推論」「計画」「行動」といった能力を持つ自律的なAIシステムです。社内文書や外部データベースなど、多様な情報源から動的に変化するデータを見つけ出し、活用することが求められます。この動的な知識を活用する重要な技術が「RAG(検索拡張生成)」です。RAGは、AIモデルが応答を生成する際に、知識ベースから関連情報を「検索」し、その情報を基に「生成」します。 RAGには2つのアプローチがあります。 Traditional RAG: AIが問い合わせに対し、知識ベースを単純に検索し、応答を生成するシンプルな方式です。高速かつ低コストが特徴です。 Agentic RAG: AIエージェントが「推論」プロセスにRAGを組み込み、情報を能動的に管理します。単なる検索に留まらず、問い合わせ内容を洗練させたり、長期的な文脈を考慮したりすることで、変化する状況に柔軟に対応します。これは、研究や要約、コード修正など、複雑なタスクで特に有効です。 このAgentic RAGの中核を担うのが「AIクエリエンジン」です。これは、AIエージェントを企業の膨大な、そして常に更新される知識ベースに繋ぐ強力なシステムです。大量のデータを処理し、高度な検索技術で最も関連性の高い知識を正確に取得。さらに、AIエージェントのフィードバックを通じて知識ベースを更新し、継続的な学習を可能にします。 Agentic RAGのワークフローは次の通りです。 AIエージェントが最新情報が必要なタスクを認識。 AIクエリエンジンに質問を送信。 クエリエンジンが知識ベースから関連情報を取得。 取得情報でエージェントのプロンプトを強化。 エージェントが最新の文脈で正確な応答や意思決定を実行。 Agentic RAGとAIクエリエンジンを組み合わせることで、AIエージェントは以下のような大きなメリットを得られます。 精度向上: 最新の検証済みデータと、反復的な推論で高精度な情報を提供。 リアルタイム性: 常に最新情報に基づいて動作。 ハルシネーション削減: 外部データ活用で誤情報生成を抑制。 適応性: 新しいデータに基づき戦略を柔軟に調整。 スケーラブルな知識: 膨大で多様なデータソースを活用。 マルチモダリティ: 画像など多様な形式のデータから情報を抽出。 NVIDIAは、Agentic RAG開発を加速するためのインフラとソフトウェアツールを提供しています。例えば、セキュアでスケーラブルなAIエージェント構築のための「AI-Q NVIDIA Blueprint」や、高速で正確なデータ検索のための「NVIDIA NeMo Retriever」などがあり、開発者はこれらのツールを活用し、より高性能なAIエージェントを構築できます。 RAGとAIクエリエンジンの組み合わせは、AIシステムが静的な限界を超え、多様なリアルタイム情報源を活用し、変化する状況にシームレスに適応し、より賢く信頼性の高い意思決定を行うための重要な進化です。 引用元: https://developer.nvidia.com/blog/traditional-rag-vs-agentic-rag-why-ai-agents-need-dynamic-knowledge-to-get-smarter/ AI vs 人間まとめ【AtCoder World Tour Finals 2025 Heuristic エキシビジョン】 先日開催された「AtCoder World Tour Finals 2025 Heuristic エキシビジョン」では、AIエージェントと人間のプログラマーが、限られた時間の中で最適な答えを見つける「ヒューリスティック最適化」問題に挑戦しました。この対決の結果と、運営側から見たAIと人間の能力の現状、そして今後の展望についてまとめられています。 今回の10時間コンテストでは、OpenAIが開発したAIエージェントが、参加した人間のプログラマーの中で2位に相当する驚くべき成績を収めました。これは事前の予想を大きく上回る結果であり、特にAIが苦手とされていた「ビームサーチ」という、より複雑で実装量が多いとされるアルゴリズムを使いこなした点が注目されています。また、SakanaAIが開発したALE-Agentも4位相当の好成績を残しました。 コンテスト後に行われた「延長戦」からは、さらに興味深い発見がありました。まず、AIに優勝者の人間のコードを与えて改良させたところ、AI単体よりもさらに高いスコアを記録し、AIと人間のアイデアを組み合わせることでより良い結果が得られる可能性が示されました。しかし、その後人間のプログラマーが時間をかけて独自の工夫を加えたところ、AIのスコアを大きく上回る結果を出しました。これは、じっくりと時間をかければ、人間の革新的なアイデアや深い考察が依然としてAIを凌駕することを示しています。 この結果から、AIの強みは「与えられた方針を徹底的に詰める(最適化する)能力」にあることが明らかになりました。AIは人間が「筋が悪い」と感じて見捨てがちなアプローチでも、膨大な計算量で細部まで最適化を進めることができ

  2. 私立ずんだもん女学園放送部 podcast 20250718

    4日前

    私立ずんだもん女学園放送部 podcast 20250718

    関連リンク Introducing ChatGPT agent: bridging research and action OpenAIが、ChatGPTにまるで専属アシスタントのような新機能「ChatGPT Agent」を導入しました。これにより、ChatGPTはあなたの指示を受けて、自律的にパソコンを操作し、複雑なタスクを一貫して完了させられるようになります。 これまでのChatGPTは質問に答えるのが中心でしたが、Agent機能では「カレンダーを見て、会議の要約を作成してほしい」「競合3社を分析してスライドを作ってほしい」といった、より具体的な作業を依頼できます。ChatGPTはウェブサイトを巡回したり、必要な情報があれば安全にログインを促したり、コードを実行したり、分析を行ったりと、さまざまな手順を踏んで、最終的に編集可能なスライドやスプレッドシートとして結果をまとめます。 この新機能は、ウェブ操作に長けた「Operator」と、情報分析・要約が得意な「Deep Research」の技術を組み合わせたものです。ChatGPTは、仮想のコンピューター上で「推論(考える)」と「行動(実行する)」をスムーズに切り替えながら、あなたの指示通りにタスクを進めます。 最も重要なのは、ユーザーが常にコントロールできる点です。ChatGPTが重要な行動を起こす前には必ず許可を求めますし、いつでも作業を中断したり、自分でブラウザを操作したり、タスクを完全に停止したりできます。 この「Agentモード」は、Pro、Plus、Teamユーザー向けに提供が開始されています。ChatGPTのチャット画面にあるツールメニューから「agent mode」を選択するだけで簡単に有効にできます。GmailやGitHubなどの外部アプリと連携できる「コネクタ」機能を使えば、よりパーソナルな情報にもアクセスし、作業に活かすことが可能です。例えば、週ごとのレポート作成などを自動化することもできます。 ChatGPT Agentは、ビジネスでの繰り返しの作業(プレゼン作成、会議調整、データ更新など)や、プライベートでの旅行計画、イベント企画など、幅広いシーンでの活用が期待されます。各種ベンチマークテストでも非常に高い性能を発揮しており、特にスプレッドシートの編集やデータ分析のタスクでは、人間を超えるほどの精度を見せることもあります。 一方で、ウェブ上で直接行動する新機能には新たなリスクも伴います。OpenAIは安全性に最大限配慮しており、例えば、悪意のある第三者からの不正な指示(プロンプトインジェクション)を防ぐための対策や、モデルの間違いによる被害を避けるための「重要な行動前のユーザー確認」「高リスクなタスクの拒否」といった仕組みを導入しています。また、ユーザーのプライバシー保護のため、閲覧データの削除機能や、パスワードなどの機密情報をモデルが記憶しない安全なブラウザモードも備わっています。さらに、生物・化学兵器関連の悪用リスクに対しても、最高レベルの厳重な安全対策を講じ、専門家との連携やバグバウンティプログラムを通じて、継続的に安全性を向上させています。 この機能はまだ初期段階ですが、今後さらに効率的で多機能なツールへと進化していくことが期待されています。 引用元: https://openai.com/index/introducing-chatgpt-agent さよなら Flaky Test!Devinと共に実現する、CI安定化への道 この記事では、タイミー社が開発現場で直面していた「Flaky Test(フレイキーテスト)」という困った問題を、AIエージェント「Devin(デビン)」を使ってどのように解決し、開発効率を向上させたかを紹介しています。 Flaky Testとは何か?なぜ困るのか? Flaky Testとは、同じコードなのに「ある時はテストに成功し、別の時には失敗する」という、結果が不安定なテストのことです。これはまるで、たまにしか起きない謎のバグのようで、エンジニアの皆さんを大いに悩ませます。タイミー社でも、このFlaky Testが原因で、毎日何度もCI(継続的インテグレーション)という自動テストが失敗し、デプロイ(作ったプログラムを実際に使えるようにすること)が遅れたり、開発者が本来の業務ではなくテストの再実行や原因調査に時間を取られたりしていました。最悪の場合、CIが不安定すぎて「テストが通っても信用できない」状態になり、品質保証の役割を果たせなくなる可能性すらあったそうです。 DevinでFlaky Testを自動解決! この問題を解決するため、タイミー社はAIエージェントのDevinに着目しました。彼らは、以下のステップでFlaky Testの検出から修正までを自動化する仕組みを構築しました。 Flaky Testの自動検出: CIでテストが実行されるデータをDatadogというツールに送り、Flaky Testを自動で見つけます。 Devinによる修正PR(プルリクエスト)の作成: 新しいFlaky Testが見つかると、Devinが自動的にそのテストを修正するためのコード変更案(PR)を作成します。 レビューとマージ: Devinが作ったPRは、担当チームが内容を確認し、問題なければ本物のコードに取り込まれます。 Devinは、ただ単にコードを修正するだけでなく、テスト情報やエラーメッセージ、実行コマンドといった詳細な情報が書かれた「プロンプト(AIへの指示書)」をもとに、なぜテストが不安定なのかを推測し、的確な修正案を提案してくれます。例えば、時間によって結果が変わるバリデーション(入力チェック)の問題や、テスト用のデータがランダムに生成されることでテストが不安定になる問題を、Devinは賢く修正してくれました。 導入後の嬉しい変化 この仕組みを導入した結果、Devinが作成した修正PRの多くは、ほとんど人の手で修正されることなく取り込まれました。これにより、CIのテストが安定して成功するようになり、開発者はFlaky Testに悩まされることがなくなりました。デプロイもスムーズに進むようになり、エンジニアの皆さんは、本来もっと集中すべき「新しい機能を作る」といった創造的な仕事に時間を費やせるようになったのです。 タイミー社は、今回の成功をきっかけに、さらにAIを開発プロセスに活用していくことを考えています。AIが、これまで面倒だったり時間がかかったりしていた作業を肩代わりしてくれることで、私たちはもっと楽しい、もっと価値のある仕事に集中できるようになるでしょう。 引用元: https://tech.timee.co.jp/entry/2025/07/16/100000 AI Agent による実装のベストプラクティス - AI Coding Agent の効果証明と組織展開 AI技術の進化が目覚ましく、エンジニアの仕事のやり方が大きく変わろうとしています。特に「AI Coding Agent」は、コードの自動生成や修正、デバッグ、ドキュメント作成などを手助けしてくれる強力なツールです。たった数年で、AIがコードを部分的に補完する段階から、自動でほとんどのコードを書き上げるレベルにまで進化しています。 この資料では、様々なAI Agentツールの中でも「Cline」と「Amazon Bedrock」の組み合わせが推奨されています。その理由として、ClineはVS Codeの拡張機能として手軽に無料で導入でき、Amazon Bedrockと連携すれば、多くの企業で既に導入済みのAWS環境をそのまま活用できるため、導入のハードルが低い点が挙げられます。 AI Agentを使った開発では、エンジニアの役割も変化します。これまでは自分でコードを書いていましたが、これからは「AIに意図を正確に伝える」能力が重要になります。つまり、どんな機能が欲しいのか、どう動いてほしいのかを明確に指示し、AIが生成したコードが正しいか、もっと良くできないかを検証・調整する力が求められます。要件定義やシステム設計のスキルも、これまで以上に大切になります。 AI Agentには便利な機能がたくさんあります。例えば、外部サービスと連携して情報を活用したり(MCP Server)、プロジェクト固有のルール(コーディング規約など)を自動で守らせたり(.clinerules)、過去の会話や作業履歴を覚えて次の作業に活かす(Memory bank)ことができます。また、同じような指示を繰り返す場合に、コストを抑える「プロンプトキャッシュ」機能もあります。 AI Agentを効果的に使うにはコツがあります。指示は具体的に、かつ最初は小さな機能から作り始め、少しずつ機能を追加していくのがおすすめです。こうすることで、もしAIが期待と違うコードを生成しても、すぐに修正したり、やり直したりしやすくなります。 いくつか注意点もあります。AI Agentの利用にはコストが

  3. 5日前

    株式会社ずんだもん技術室AI放送局 podcast 20250717

    関連リンク R²D²: Training Generalist Robots with NVIDIA Research Workflows and World Foundation Models NVIDIAが、ロボットが新しいタスクを効率的に学習するための画期的な研究成果を発表しました。これまでは、ロボットに新しい動作を教えるには、大量のデータを集めて一つずつラベル付けする手間がかかっていました。この課題に対し、NVIDIAは「生成AI」や「ワールドファウンデーションモデル(WFMs)」、そして「合成データ生成」という最先端技術を活用することで、ロボットの学習を劇的に効率化しようとしています。 この研究の核となるのが、ロボットが未来の状況を予測し、リアルなトレーニングデータを自動で生成できる「NVIDIA Cosmos」のようなWFMsです。これにより、数ヶ月かかっていた開発期間がわずか数時間で済むようになります。 特に注目されるのが「DreamGen」という合成データ生成パイプラインです。これは、WFMsを使って、人間が手作業で集める手間をかけずに、現実的で多様なトレーニングデータを作り出す技術です。DreamGenで生成されたデータは、ロボットの賢さを測る「DreamGen Bench」という基準で評価され、スコアが高いほど実際のロボットの性能も向上することが確認されています。この技術をベースにした「NVIDIA Isaac GR00T-Dreams」を使えば、ロボットの行動学習に必要な大量のデータを効率的に用意できます。 さらに、NVIDIAは汎用的なロボットを実現する「GR00T N1」というオープンファウンデーションモデルを開発しました。これは、人間の認知能力にヒントを得て、視覚、言語、行動を統合することで、ロボットが複雑な指示を理解し、多段階のタスクを実行できるようにします。「GR00T N1.5」は、このGR00T N1の改良版で、実世界のデータ、シミュレーションデータ、そしてDreamGenで生成した合成データを組み合わせて訓練することで、より高い成功率と幅広いタスクへの対応力を実現しています。驚くべきことに、GR00T N1.5のアップデートは、手動でのデータ収集なら約3ヶ月かかるところを、合成データを活用することでわずか36時間で完了したとのことです。 また、「Latent Action Pretraining from Videos(LAPA)」という技術も発表されました。これは、インターネット上のラベルなし動画を大量に利用して、ロボットの行動を自動で学習させる方法です。これにより、高コストな手動ラベリングが不要になり、効率的なロボット学習が可能になります。 「Sim-and-Real Co-Training」という手法は、ロボットの学習における「リアリティギャップ」を埋めるものです。少量の現実世界のデータと大量のシミュレーションデータを賢く組み合わせることで、シミュレーションで訓練したロボットが実際の環境でも安定して動作できるようになります。この手法は、データ収集のコストを抑えつつ、ロボットの頑丈な動作を可能にします。 これらのNVIDIAの研究成果は、すでにAeiRobot、Foxlink、Lightwheel、NEURA Roboticsといった企業で活用され始めており、産業用ロボットやヒューマノイドロボットの開発を加速させています。今回の発表は、AIとロボティクスの未来を大きく変える可能性を秘めた、非常に重要な一歩と言えるでしょう。 引用元: https://developer.nvidia.com/blog/r2d2-training-generalist-robots-with-nvidia-research-workflows-and-world-foundation-models/ Gemini Embedding now generally available in the Gemini API Googleは、Gemini APIで新しいテキスト埋め込みモデル「gemini-embedding-001」の正式リリースを発表しました。このモデルは、私たちが普段使う「文章」や「単語」といったテキスト情報を、AIが理解し計算しやすい「数値の並び」(これを「埋め込み」と呼びます)に変換するための技術です。AI開発において、この埋め込みを使うことで、テキストデータの中から関連性の高い情報を素早く探し出したり、文章の意味を理解して分類したり、質問に自動で答えるシステムを構築したりと、AIが賢くテキストを扱うための土台となります。 「gemini-embedding-001」の最も大きな特徴は、その非常に高い性能です。テキスト埋め込みモデルの国際的な評価基準である「MTEB Multilingualリーダーボード」で、常にトップクラスの性能を維持しています。これまでのGoogleのモデルや、他社が提供しているモデルと比べても、情報の検索からテキストの分類まで、様々なタスクで優れた結果を出していることが示されています。この汎用性の高さにより、科学論文、法律文書、金融データ、さらにはプログラミングコードなど、幅広い分野でのAIアプリケーション開発に活用できる可能性を秘めています。 このモデルは100以上の言語に対応し、一度に最大2048トークン(AIが処理する最小単位の文字数)のテキストを扱えます。さらに「Matryoshka Representation Learning (MRL)」というユニークな技術を採用しており、出力される埋め込みの「次元(数値の並びの長さ)」を、デフォルトの3072次元から、1536次元や768次元へと柔軟に変更できます。これは、開発者がAIアプリケーションの性能を最大限に引き出すか、それともデータの保存コストを抑えるかを、プロジェクトのニーズに合わせて最適化できるというメリットをもたらします。 このモデルは現在、Gemini APIを通じて利用可能で、Google AI Studioから無料で試すことができます。料金体系も手頃で、100万入力トークンあたり0.15ドルと設定されています。 なお、現在使用されている実験版モデル「gemini-embedding-exp-03-07」は2025年8月14日にサポートが終了し、その他の古いモデルも順次非推奨となるため、Googleは早期に新しい「gemini-embedding-001」への移行を推奨しています。今後は、大量のデータをまとめて効率的に処理できる「Batch API」でのサポートも予定されており、さらに大規模なAI開発が可能になるでしょう。この高性能な埋め込みモデルの登場により、これまで実現が難しかった新しいAI活用の道が拓かれることが期待されます。 引用元: https://developers.googleblog.com/en/gemini-embedding-available-gemini-api/ KiroとClaude Codeの組み合わせで開発の質と速度を両取りできた この記事では、新しく登場したAI搭載の統合開発環境「Kiro」と、既存の高速開発AI「Claude Code」を組み合わせることで、ソフトウェア開発の質と速度を同時に向上させる実践的な方法が紹介されています。 まず、それぞれのツールの特徴を理解しましょう。「Kiro」は、2025年7月15日にAmazonがリリースしたAI開発ツールで、対話形式で非常に詳細な「要件定義書」や「設計書」、そして「タスクリスト」を作成することに優れています。つまり、何を、どのように作るかを明確にする「設計」の部分がKiroの強みです。しかし、現時点では実際にコードを生成する「実装」の速度には課題があります。 一方、「Claude Code」は、非常に高速にコードを生成できるAIとして多くの開発現場で使われています。しかし、指示が曖昧だと意図しないコードが生成されたり、過去の会話内容を忘れてしまったりすることがあり、正確な「指示出し」が難しいという弱点があります。 そこで筆者は、Kiroの「質の高い要件・設計書作成」という強みと、Claude Codeの「爆速実装」という強みを組み合わせることを考えました。具体的な実践例として、簡単な太陽系シミュレータを開発するプロジェクトでこの方法を試しています。 Kiroによる要件・設計・タスク作成: まず、Kiroに「太陽系の惑星の公転をシミュレートするツールを作りたい」といった大まかな指示を与えるだけで、Kiroは対話形式で詳細な要件書、設計書、そして具体的な実装手順を記したタスクリストを自動で作成してくれます。これにより、開発の初期段階で必要な情報を漏れなく、かつ明確に定義できます。 Claude Codeへの実装指示: Kiroが作成した詳細なタスクリストをClaude Codeに読み込ませます。Claude Codeは、Kiroによって完璧に整理されたタスクリストを理解し、その指示に従ってコードの生成を「爆速」で実行し始めます。Claude Codeは、Kiroが作成した要件書や設計書も参照することで、より正確に意図を汲み取ってくれます。 この組み合わせにより、要件定義や設計でAIの助けを借りて品質を高めつつ、実装では別のAIを使って高速化するという、「良いとこ取り」が実現できたと筆者は述べています。新人エンジニアの皆さんも、将来的にAIツールを活用して開発を

  4. 6日前

    株式会社ずんだもん技術室AI放送局 podcast 20250716

    関連リンク mistralai/Voxtral-Mini-3B-2507 · Hugging Face このドキュメントは、AI分野で注目されるMistral AIがHugging Faceで公開した、新しい大規模言語モデル(LLM)「Voxtral-Mini-3B-2507」について説明しています。このモデルは、既存の「Ministral 3B」というLLMをベースに、特に音声(オーディオ)の入力処理能力を大幅に強化した点が大きな特徴です。 Voxtral Miniは、従来のテキスト処理能力を維持しつつ、最新の音声入力に対応しており、以下のような多様な機能と高い性能を持っています。 高精度な音声の書き起こし(転写): 音声をテキストに変換する能力が非常に優れており、話されている言語を自動で判断して正確に書き起こします。例えば、会議の議事録作成などに役立ちます。 長時間の音声に対応: 最大30分の音声書き起こし、または40分の音声内容の理解に対応できるため、長い講演やインタビューの内容を効率的に処理できます。 音声からの質問応答と要約: 音声で直接質問を投げかけたり、音声の内容を自動で要約したりする機能が組み込まれています。これにより、音声認識とテキスト処理のシステムを別々に使う手間がなくなり、よりスムーズに音声情報を分析できます。 多言語対応: 英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語といった世界中の主要な言語において、高い性能を発揮します。 音声による機能呼び出し: 音声での指示に基づいて、特定のプログラム機能(APIなど)を直接実行できるため、音声で操作するAIアシスタントやシステムへの応用が期待されます。 ベンチマークテストの結果でも、音声認識とテキスト処理の両方で高い性能が示されており、その実力が裏付けられています。 このVoxtral Mini-3B-2507は、vLLMという高速な推論ライブラリを使って利用することが推奨されています。具体的な導入方法や使い方の詳細はHugging Faceのページで確認できますが、このモデルを活用することで、音声を使った新しいAIアプリケーションの開発の可能性が大きく広がると期待されています。 新人エンジニアの皆さんにとっては、音声とテキストの両方を高度に扱えるLLMとして、今後のAI開発のトレンドを学ぶ上で非常に参考になるモデルです。音声AIの分野で何か新しいことに挑戦したいときに、強力な武器となるでしょう。 引用元: https://huggingface.co/mistralai/Voxtral-Mini-3B-2507 Grok コンパニオンAniあそびかた~攻略【技術解説有】 Grokから、3Dキャラクターと対話できる新しいコンパニオンモード「Ani」がリリースされました。この機能は基本無料で利用でき、AIアシスタントやLLMの新たな活用事例として注目されています。特に日本の新人エンジニアの方々に向けて、その技術的なポイントを中心に解説します。 Aniは、単に会話するだけでなく、3Dキャラクターが音声に同期した自然なジェスチャーを見せたり、ユーザーとの好感度に応じて反応を変えたり、特定の「行動(アクション)」を実行したりするのが特徴です。 このコンパニオンモードの核となる技術の一つは、Animation Inc.が開発した「音声連動ジェスチャー生成ローカルモデル」です。このモデルは、音声からリアルタイムで自然なキャラクターの動きを生成し、モバイルデバイス上で高速に動作するよう軽量化されています。記事によると、現在iOSのみ対応しているのは、このモデルがiOS向けに最適化されているためと考えられます。 もう一つの重要な技術は、キャラクターの「行動(アクション)」機能です。これは、LLM(大規模言語モデル)の「Function Calling」という仕組みを活用しています。通常のLLMはテキストを生成するだけですが、AniではLLMが「ジャンプ」や「ダンス」といった事前に登録された特定のアクションを明示的に発動する指示を生成します。これにより、キャラクターがユーザーの指示や状況に応じて、より具体的な動作を実行できるようになっています。 さらに、Aniには「好感度システム」が導入されています。ユーザーの会話内容をLLMが評価し、好感度が変化することで、キャラクターの表情や反応が変わる仕組みです。これもFunction Callingと同様に、LLMがユーザーの入力に応じて特定の内部パラメータ(好感度)を操作する形で実現されていると考えられます。 これらの技術の組み合わせにより、Aniは従来の音声対話型AIの弱点であった「明示的な動作の発動」や「自身の動作内容の自覚」を、LLMと3Dキャラクターのハイブリッド形式で解決しています。 著者は、このGrokコンパニオンモードが、LLMと身体性を持つキャラクターの融合として非常に完成度が高く、今後のAIアシスタントやインタラクティブなAIの可能性を示唆していると評価しています。将来的には、ユーザーが好きな3DモデルをアップロードしてAIと対話できるような機能も期待されるとのことです。 引用元: https://note.com/abelia_0211/n/n1b88717c69cc Docker MCP Gatewayがすんばらしい👌 この記事では、Dockerの新機能「MCP Gateway」について、その魅力と基本的な使い方を分かりやすく解説しています。MCP(Model Context Protocol)Gatewayは、LLM(大規模言語モデル)やAIアプリケーション開発において、様々な外部ツールやサービス(これらを「MCPサーバー」と呼びます)を効率的に連携・管理するための仕組みです。 例えば、皆さんがChatGPTのようなLLMを使う際、最新情報を検索したり、特定のウェブサイトの内容を要約したりする機能があったら便利ですよね。こうした「外部の能力」をLLMに提供するのがMCPサーバーの役割です。通常、これらのMCPサーバーは個別に用意され、利用するアプリケーション(MCPクライアント)が直接それぞれのサーバーと通信する必要がありました。MCPクライアントが増えるほど、接続先が散らばり、管理が複雑になるという課題がありました。 そこで登場するのがMCP Gatewayです。Gatewayは、複数のMCPサーバーへの「窓口」を一つにまとめてくれる役割を果たします。これにより、クライアントはGatewayにだけ接続すればよく、Gatewayが背後で複数のMCPサーバーを束ねて管理してくれるため、全体の構成が驚くほどシンプルになります。これはまるで、たくさんの専門家(MCPサーバー)がいる大きなオフィスビル(システム)に、すべての依頼を一箇所で受け付けて振り分けてくれる受付(Gateway)ができたようなものです。 MCP Gatewayを使うことで、具体的に次のような嬉しいメリットがあります。 開発環境の統一と安定: 各MCPサーバーはDockerコンテナとして動きます。これにより、利用するOSやプログラミング言語(Python、Node.jsなど)のバージョン違いに悩まされることがなくなります。それぞれのサーバーが独立した環境で動くため、互いの影響を受けにくく、開発者は「自分の環境では動くのに…」といったトラブルから解放されます。 接続管理の簡素化: クライアントからGatewayへの接続が一点に集中するため、複数の開発メンバーや異なるPCからでも、同じGatewayを経由してMCPサーバー群に簡単にアクセスできます。リモートでの共同開発にも非常に便利です。 柔軟な管理: Dockerが提供するMCPカタログから、ウェブ検索(Tavily)やURLからの情報取得(fetch)など、多種多様なMCPサーバーを簡単に追加・有効化できます。また、APIキーなどの機密情報を安全に管理したり、有効にするツールを細かく指定したりすることも可能です。さらに、独自のMCPサーバーを開発して、自分だけのカタログとして利用することもできます。 記事では、実際にDocker MCP Pluginをインストールし、Amazon Q Developer CLIなどのMCPクライアントからGateway経由でMCPサーバーの機能を利用する様子が詳細に説明されています。これにより、LLMの能力を拡張し、より賢いAIアプリケーションを効率的に開発できるようになるでしょう。 MCP Gatewayはまだプレリリース版ですが、LLMやAIアプリケーション開発におけるツールの連携と管理を劇的に改善する可能性を秘めています。開発チーム全体で共通のGatewayを導入することで、開発効率の向上と安定した運用が期待できます。 引用元: https://qiita.com/moritalous/items/8789a37b7db451cc1dba 「初めて見た!」人気キャラの正しい使われ方 話題になった理由は…「もとは和菓子なのかな」 AI音声キャラク

  5. 7月14日

    株式会社ずんだもん技術室AI放送局 podcast 20250715

    関連リンク AIエージェントのサービス構築を検討しているあなたへ この記事は、これからAIエージェントサービスを開発する新人エンジニアに向けて、その基本的な概念から実践的な構築ガイドまでを分かりやすく解説しています。 AIエージェントとは、ユーザーに代わってタスクを自律的に遂行するシステムです。従来の決まったルールで動く自動化とは異なり、AIエージェントは高度な判断が必要な複雑なワークフロー(例えば、支払い不正の分析や、複雑な顧客対応、非構造化データの処理など)で特に力を発揮します。 AIエージェントの設計には、主に3つの大切な要素があります。 モデル: エージェントの「頭脳」となるLLM(大規模言語モデル)のことです。タスクの複雑さやコストを考慮して適切なモデルを選びますが、最初は高性能なモデルで動かしてみて、後からコストの低い小型モデルに切り替えるのがおすすめです。 ツール: エージェントが外部システムと連携して情報を取得したり、実際のアクションを実行したりするためのAPI(アプリケーションプログラミングインターフェース)です。データ検索、情報更新、他のエージェントとの連携など、さまざまな機能を提供します。 指示 (Instructions): エージェントがどのように振る舞うかを定める明確なガイドラインです。既存の業務手順書などを参考に、タスクを細かいステップに分け、具体的なアクションを定義し、想定外の状況(エッジケース)にも対応できるように工夫することが重要です。 エージェントの連携方法(オーケストレーション)には2つの主要なパターンがあります。 シングルエージェントシステム: 1つのエージェントが、必要なツールを増やしながら様々なタスクを処理する方法です。まずはこのシンプルな構成から始めることが推奨されています。 マルチエージェントシステム: 複数のエージェントが協力してタスクをこなす方法で、複雑なワークフローでパフォーマンスや拡張性を高めたい場合に検討します。「マネージャー型」(指揮役のエージェントが専門エージェントに指示を出す)と「分散型」(複数のエージェントが対等にタスクをバトンリレーする)があります。 そして、AIエージェントを安全に運用するために不可欠なのが「ガードレール」です。これは、エージェントが危険な領域に逸脱しないように設ける「安全柵」のようなものです。ユーザー保護、機密情報保護、システム保護、ブランド保護などを目的に、入力のフィルタリング、不適切コンテンツの検出、ツール利用の制限など、複数の対策を組み合わせて多層的に防御します。開発初期から完璧を目指すのではなく、運用しながら段階的に強化していくのが効果的です。 この記事では、さらにAzure AI Agent Serviceを活用した実践的な実装例も紹介しています。これは、マネージャー型マルチエージェントシステムをAzureのサービス「Connected Agents」を使って構築するハンズオンの概要で、ユーザーからのリクエストをRouter Agentが受け取り、一般的な質問はGeneral Agent、簡単な質問はFAQ Agent、専門的な質問はExpert Agentといったように、適切な専門エージェントに振り分ける仕組みを簡単に実現できることが示されています。 AIエージェントのサービス構築は、まずは小規模な構成から始め、実際の利用状況に合わせて徐々に能力を拡張していくことが成功への道筋です。 引用元: https://zenn.dev/microsoft/articles/azure_nextjs_multi_agent 10個のAIアプリケーションと3個のAIエージェントを1人で開発してみた AIエンジニアの逆瀬川さんが、この半年間で個人開発した10個のAIアプリケーションと3個のAIエージェントについて紹介しています。これらの開発の背景には、「AIパートナー」というAIアシスタントの“手足”となるシステムを作り、現在の不便なAI利用体験を改善したいという強い思いがあります。Googleのような大企業が取るような戦略を個人で実行した点が特徴的です。 開発された3つのAIエージェントは、それぞれ異なる環境でのタスク自動化を目指しています。 Task Agent: 事前に用意されたツールを組み合わせてタスクをこなす「ツールベース」のエージェントです。20種類以上のツールを搭載し、柔軟な設計で新しいツールも簡単に追加できます。 Computer Agent: パソコン(Mac/Windows/Linux)上のソフトウェアを操作し、任意のタスクを実行します。AIが計画通りに進まない「操作ミスのループ」に陥った際に、連続して同じような行動を繰り返した場合に計画を見直す「フィードバック機構」を設けるなど、AIが自己改善できるように工夫されています。 RPA Agent: パソコン上で一度録画した作業を元に、その続きの作業や定期的な反復作業を自動で行います。複雑な操作にも対応し、作業手順を自動で作成する機能も持っています。 さらに、多岐にわたる10個のAIアプリケーションも開発されています。 AI Study: 資料をアップロードすると、チャットやレクチャー、スライド、動画を自動生成。動画生成はわずか3秒と超高速。 AI Translator: ファイルの自動翻訳。画像やPDFでもレイアウトを保ちながら翻訳できる点が特徴。 AI Video Translator: 動画の吹替や字幕を自動生成。翻訳後の発話量や話速を考慮して自然な吹替を実現。 AI Slide Generator: スライドを瞬時に自動生成。軽量モデルの採用で、高速な動作を実現しています。 AI Stylist Assistant: 服の組み合わせを提案したり、バーチャル試着ができるシステム。リアルタイムでの試着を実現するために独自の方法を開発。 その他、一般的なAIチャット、AI検索(初期レスポンスの高速化を重視)、執筆支援、データ分析支援などがあります。特にデータ分析アシスタントでは、複雑なファイルから正確にデータを抽出する工夫がされています。 これだけのシステムを個人で開発するにあたり、アイデア出しから開発までのフローを安定させ、LLM(大規模言語モデル)の活用は、既存のコーディング支援ツールをそのまま使うのではなく、必要な部分で手動と組み合わせて使うことで効率を高めたとのことです。 筆者は、これらの成果をさらに洗練させて商品化することを目指しており、サーバー等のリソース確保のため企業からの協力を呼びかけています。 引用元: https://zenn.dev/sakasegawa/articles/2a7119364775e7 Raspberry PiでリモートからアクセスできるAIエージェントを作る この記事は、Raspberry Pi(ラズパイ)という小型コンピューターを使って、どこからでもアクセスできるAIエージェントを構築し、「Vibe Coding」(生成AIを活用して、思いついた時にすぐコーディングできるような環境)を実現する方法を紹介しています。まるで自宅に自分専用のAIアシスタントがいて、お風呂や布団の中からでも声をかけるだけで様々な作業を任せられるような、夢のような環境を構築することが目的です。 構築の核となるのは、ラズパイと大規模言語モデル(LLM)の一つであるClaude Codeです。まず、ラズパイを準備し、GitHub CLIやパッケージ管理ツールなどの開発環境、そして安全なリモート接続を可能にするTailscaleを設定します。 スマートフォンからのアクセス方法は主に二つあります。一つは「SSHアクセス」です。これはTailscaleを使って安全にラズパイに遠隔接続し、コマンドラインで操作する方法です。接続が切れてもAIの処理が中断しないように、byobuというツールを使うと便利だと説明されています。もう一つは「ブラウザでアクセス」する方法です。これは、著者が自作した「llm-assistant」というWeb UI(ユーザーインターフェース)をラズパイ上で動かし、Tailscale経由でスマートフォンのブラウザからアクセスできるようにするものです。このWeb UIは音声認識にも対応しており、「美味しいからあげについてリサーチして、レポートとしてNotionの調査データベースにまとめておいて」といった自然言語での指示が可能です。 このシステムを構築することで、ラズパイが24時間稼働のパーソナルAIコーディングアシスタントとなり、場所を選ばずにAIを活用した作業ができるようになります。ただし、自作Web UIのセットアップでは、セキュリティリスクを伴うオプション(--dangerously-skip-permissions)を使用しているため、利用には注意が必要であること

  6. 7月13日

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250714

    関連リンク サンドボックス環境を MCP サーバーで提供する Container Use 近年、Claude CodeやCursorといったAIコーディングエージェントが、プログラミングの生産性を大きく高めています。しかし、これらのAIエージェントは、あなたのパソコン上で任意のコマンドを実行できるため、使い方を間違えると、大切なファイルが削除されたり、システムが危険にさらされたりするリスクがあります。例えば、rm -rf ~/のようなコマンドが意図せず実行されると、あなたのホームディレクトリのデータが消えてしまうかもしれません。 多くのAIエージェントは、コマンドを実行する前にユーザーに許可を求めますが、頻繁に許可を求められると、次第に確認がおろそかになりがちです。また、エージェントによっては、一切許可を求めずに自動でコマンドを実行するオプションもあり、その場合、あなたがAIエージェントの動作を把握できなくなります。 このようなセキュリティ上のリスクを減らすために注目されているのが「サンドボックス環境」です。サンドボックス環境とは、AIエージェントが実行するすべての操作を、あなたのパソコンのシステムから隔離された、安全な仮想空間の中で行う仕組みです。これにより、もしAIエージェントが誤って危険なコマンドを実行したとしても、その影響はサンドボックス内に留まるため、あなたのシステムは守られます。さらに、複数のAIエージェントを動かす際にも、それぞれが独立した環境で作業できるため、互いの作業が干渉し合う心配がありません。 Dagger社が開発した「Container Use」は、このサンドボックス環境をAIコーディングエージェントに提供するためのツールです。「MCPサーバー」(Model Context Protocolサーバー)として機能し、MCPをサポートするAIエージェントであれば、Container Useを通じて安全に開発作業を進められます。 Container Useを使うと、AIエージェントは専用のツールを使ってサンドボックス環境を作成し、その中でコマンドの実行やファイルの読み書きを行います。これにより、AIエージェントがアプリケーションを構築したり、テストしたりする過程で、あなたのPCに直接影響を与えることなく作業を進められます。あなたがAIエージェントの作業内容を確認したいときは、ログを見たり、生成されたコードの差分を確認したり、実際にAIエージェントが作業したブランチに切り替えて内容をチェックすることも可能です。AIエージェントの作業に満足したら、その成果をあなたのメインのコードに安全に取り込むことができます。 Container Useは、AIコーディングエージェントを安全かつ効率的に開発に活用するための強力な味方となるでしょう。これにより、新人エンジニアでも安心してAIエージェントを使いこなし、開発スキルを向上させることが期待されます。 引用元: https://azukiazusa.dev/blog/mcp-server-container-use/ AIでインシデント対応を民主化したい!日本語セキュリティLLM開発の挑戦と挫折、そして発見 この記事は、セキュリティ業務におけるAI活用の可能性を探る挑戦と、その過程で直面した具体的な課題、そして予期せぬ成果について書かれています。 筆者は、社内SE時代にセキュリティ専門知識が一部の人に集中し、深夜のアラート対応が属人化している現状に課題を感じていました。この経験から、「サイバー攻撃の状況を自然言語で入力すれば、危険度や対応方法を日本語で教えてくれるAIアシスタント」の開発を構想。これにより、専門家でなくてもAIと対話しながらインシデント対応ができる「民主化」を目指しました。 既存のセキュリティAIサービス(Microsoft Security Copilotなど)を調査した結果、日本語での対話能力や、特定の製品に依存しない柔軟性に課題があることを発見。そこで、「日本語で、対話的に、攻撃の”次の一手”を予測してくれる」AIを自ら開発することにしました。 目指したのは、SFT(Supervised Fine-Tuning:モデルを追加学習させる手法)、RAG(Retrieval-Augmented Generation:外部知識を参照して回答を生成する手法)、Agent(自律的に思考・行動するAI)を組み合わせたハイブリッドなシステムです。これにより、セキュリティの「思考パターン」をAIに学習させつつ、最新情報や社内固有の情報を動的に取り込むことで、実践的な支援ツールを作る狙いでした。 しかし、最大の難関は「日本語のセキュリティ学習データが存在しない」ことでした。筆者は、サイバー攻撃の知識ベースである「MITRE ATT&CK」をDeepL APIで日本語に翻訳し、さらに攻撃フェーズを示す「Cyber Kill Chain」と紐づける地道な作業を行いました。加えて、GPT-4などの生成AIを使って、この日本語知識から「初心者の質問と専門家の回答」形式の対話データセットを数千件作成しました。この大変な作業の中で、完成した「日本語化されたATT&CK × Kill Chainデータセット」自体が、LLM学習だけでなく様々な用途に使える貴重な財産となることに気づき、GitHubリポジトリで公開しています。 この後、構築したデータセットを用いてLLMのファインチューニング(モデルの微調整)に挑戦しますが、時間とコスト(高性能GPUの利用料)、セキュリティ専門用語の英語のニュアンス理解、モデル評価の難しさ、複雑な開発環境の構築といった、個人開発では乗り越えがたい大きな壁に直面し、一旦断念せざるを得ませんでした。 今後は、ファインチューニングという大規模なアプローチから、より現実的で柔軟なRAGを主軸としたアプローチに転換する予定です。既に作成した「日本語知識ベース」をRAGの知識ソースとして活用することで、LLMを再学習することなく情報を更新し、低コストで運用できるインシデント対応支援ツールの実現を目指しています。 この挑戦は、目標のAI開発には至らなかったものの、日本語の脅威インテリジェンスデータという貴重な成果と、個人でLLM開発を進める上でのリアルな知見を得られた、非常に有意義な経験であったと締めくくられています。 引用元: https://qiita.com/AxArc/items/a38568b55e711da64c94 LLMのAPIを活用したバックエンドアーキテクチャの事例を紹介します この記事では、オンライン薬剤師相談サービス「YOJO」のバックエンドシステムで、LLM(大規模言語モデル)のAPIをどのように活用し、特にその「処理の遅さ」という課題にどう対応しているかを紹介しています。 YOJOでは、薬剤師が患者へ送るチャットの文章をAIが提案したり、システムが自動でメッセージを送るか判断したりする機能にLLMを使っています。バックエンドシステムはGoogle Cloud上にRuby on Railsで構築されており、LINEからのメッセージ処理や薬剤師向けアプリのAPI提供、そして時間のかかる処理は「非同期ワーカー」という仕組みで動いています。LLMとしてはOpenAIのGPT-3.5やGPT-4モデルを主に利用し、プロンプトの管理にはPromptLayerというツールを使っています。 LLMのAPIを使う上で最も大きな課題は「応答速度の遅さ」です。GPT-4モデルを使うと、処理に10秒近くかかることもあり、これは一般的なWeb APIの応答速度と比べると非常に遅いです。この「遅い」という特性を考慮し、システム設計では以下の点に注意が必要です。 適切な非同期処理: ユーザーを長時間待たせないように、LLMを使った処理は、結果をすぐに返さず、裏側で実行する「非同期処理」にする必要があります。 他タスクとの隔離: 時間のかかるLLM処理が、他の素早い処理の邪魔をしないよう、処理を分けたり、優先順位をつけたりすることが重要です。 割り込み処理の考慮: LLMが処理中にユーザーが別の操作をした場合でも、データの不整合が起きないよう、最終的な結果を適用する際に現在の状況を確認する工夫が必要です。 これらの課題を踏まえ、記事ではLLMの処理をまるで時間のかかる「バッチ処理」のように扱うのが良いと提言しています。YOJOのバックエンドでは、LLMに関わる処理をSidekiqというツールを使って非同期で実行し、さらに「LLM処理のトランザクション管理」という仕組みでデータの整合性を保っています。この管理では、LLMジョブの開始判断(前処理)、LLM APIの実行(LLM処理)、そしてLLMからの結果に基づいた最終アクションの実行(後処理)を明確に分け、処理の途中で状況が変わっても正しく動作するように、現

  7. 私立ずんだもん女学園放送部 podcast 20250711

    7月10日

    私立ずんだもん女学園放送部 podcast 20250711

    関連リンク claude codeにNG Word集を設定すればキレなくてすむのでそのやり方 ** この記事は、AIアシスタントであるClaude Codeがユーザーの指示に反して独自の解釈や代替行動を取り、それによって生じるストレスや無駄なトークン消費を解決するための具体的な方法を提案しています。 AIは時に「ブラウザで確認して」という指示に対し、勝手に「エラーが出たのでcurlを使います」といった代替案を出してくることがあります。このような、意図しない挙動を防ぎ、AIがより正確に指示に従うようにするために、「NG Word集」と「NG Command集」を設定する仕組みが紹介されています。 この仕組みは、AIの発言や実行しようとするコマンドをチェックする「フック」という機能を活用します。具体的には、AIが発言を終えた際(Stop時)や、コマンドを実行する前(PreToolUse時)に、設定されたルールに基づいて内容を検証します。 設定は、.claudeディレクトリ配下にフックのスクリプトと、NGワードやNGコマンドのルールを定義するJSONファイルを配置することで実現します。 例えば、AIの会話に「はず」「代わり」「別の」といった推測や代替案を示す言葉が含まれていたら「推測や代替案は禁止されている」とAIにフィードバックし、作業を中断させます。また、curlやnpmのような特定のコマンドを使おうとしたら、その実行をブロックし、「禁止コマンドが検出された」とAIに伝えます。これにより、AIは自分で誤りに気づき、指示に沿った行動を修正するよう促されます。 この設定を導入することで、ユーザーはAIに対して同じことを何度も繰り返して指摘する必要がなくなり、イライラが大幅に減ると筆者は述べています。AIが指示された範囲で正確に動作するようになるため、開発作業の効率化にも繋がります。 もし設定方法が不明な場合は、この記事のURLを直接Claude Codeに渡して「この設定を自分のプロジェクトに追加してほしい」と依頼することもできるため、新人エンジニアの方でも導入しやすいでしょう。AIとのよりスムーズな連携を目指す方におすすめの、実践的な制御方法です。 引用元: https://zenn.dev/sesere/articles/e3d5695e0a7d14 How to Build an Agent AIエージェントの構築は多くの企業が注目していますが、実際に手掛けるチームはまだ少ないのが現状です。この記事では、アイデアから実際に役立つエージェントを構築するための実践的な6つのステップを、メールエージェントを例に分かりやすく解説しています。新人エンジニアの方でも安心して取り組めるよう、基礎から順に見ていきましょう。 ステップ1:エージェントの「仕事」を具体的に定義する まずは、エージェントに何をさせたいのかを明確にします。「賢いインターン生ならできる」くらいの、現実的で具体的なタスクを選びましょう。漠然としすぎたり、すでに既存のソフトウェアで十分なタスク、または実現不可能な魔法のようなタスクは避けてください。エージェントがこなすべき具体的な例を5〜10個書き出すことで、タスクの範囲が適切か確認し、後の性能評価の基準にもなります。 ステップ2:運用手順(SOP)を設計する 次に、人間がそのタスクを行うならどんな手順になるかを、詳細な標準作業手順書(SOP:Standard Operating Procedure)として書き出します。この作業を通じて、タスクの範囲が適切か、エージェントにどんな判断やツールが必要になるかを把握できます。例えばメールエージェントなら、「メール内容を分析して優先度を分類する」「カレンダーを確認して会議をスケジュールする」といった手順です。 ステップ3:プロンプトで最小限の機能を構築する(MVP) エージェントの核となるAIの「推論(判断)」部分を、まずプロンプトとして作成します。特に重要な判断タスク(例:メールの緊急度や意図の分類)に焦点を当て、手動でデータを与えながら、AIが正しく判断できるか検証します。この段階でコアなAIのロジックを確実にすることが、後の開発をスムーズに進める鍵です。 ステップ4:実データと連携し、全体の流れを組み立てる プロンプトがうまく機能するようになったら、それを実際のデータやユーザー入力と連携させます。メールエージェントであれば、Gmail APIでメールを読み込んだり、GoogleカレンダーAPIで空き時間を調べたりするイメージです。これらの情報を使って、AIエージェントがどのように情報を取得し、判断し、最終的な行動(例えばメール返信の下書き)へと繋げるか、全体の連携ロジックを組み立てます。 ステップ5:テストと改善を繰り返す 構築したエージェントを、ステップ1で定義した具体的な例を使って手動でテストします。期待通りの結果が出るか、意図しない動作がないかを確認しましょう。手動テストで手応えを感じたら、自動テストを導入して、より多くのケースで一貫した性能を保てるか検証します。また、AIの回答の品質(トーン、安全性、正確性など)も細かくチェックし、問題があれば改善していきます。 ステップ6:デプロイし、運用しながら洗練する MVP(Minimum Viable Product:必要最低限の機能を持つ製品)が安定したら、実際にユーザーに使ってもらいましょう。デプロイ後もエージェントの動作を継続的にモニタリングし、コストや精度、遅延などの問題がないかを確認します。実際の利用状況から、想定外のニーズや改善点が見つかることもあります。エージェント開発は一度作って終わりではなく、デプロイ後もユーザーからのフィードバックや利用状況に応じて、機能を拡張し、継続的に洗練していくことが重要です。 この6つのステップを踏むことで、単に動作するだけでなく、本当に役に立ち、信頼できるAIエージェントを構築することができます。小さく始めて、ユーザーに焦点を当て、繰り返し改善していくことが成功の秘訣です。 引用元: https://blog.langchain.com/how-to-build-an-agent/ 【インターンレポート】OpenAI Agents SDK (Python版) でコールセンター風音声対話型マルチエージェントデモを作ってみた(おまけ付き) このレポートでは、OpenAI Agents SDK (Python版) を使って、コールセンターのような「音声対話型マルチエージェント」デモを作成した体験が紹介されています。AIエージェントと音声技術の組み合わせに興味がある新人エンジニアにとって、実践的な学びが得られる内容です。 まず、AIエージェントの進化と普及の背景が解説されています。LangChainのようなフレームワークや、AIエージェント同士が連携するための新しいプロトコル(MCP, A2A)の登場により、AIエージェントは外部ツール連携や専門タスク処理が可能になりました。OpenAI、Google、AWSなどの大手ベンダーも、それぞれエージェント開発キットを提供し始めています。 次に、「音声エージェント」の利点と課題が説明されます。音声エージェントは、ハンズフリーで情報を速く伝えられ、感情表現も可能で、AIを「仕事仲間」のように感じられる新しいユーザー体験を提供します。これにより、カスタマーセンターや会議サポートなどでの応用が期待されます。しかし、「聞き間違い」「言い間違い」「応答の遅延」といった課題もあり、これらを解決することが実用化の鍵となります。記事では、最新のリアルタイム音声対話APIや開発ツールも紹介されています。 デモ開発では、OpenAI Agents SDKのPython版が利用されました。このSDKには、エージェント間の「ハンドオフ」(タスクの引き継ぎ)、「MCP」(外部ツール連携)、「関数呼び出し」(AIが特定の機能を実行)、「ガードレール」(不適切な入力の制御)といった主要機能が含まれています。 コールセンターのデモでは、顧客の問い合わせ内容に応じて、最初に「トリアージエージェント」が受け付け、適切な「商品注文」「商品取扱」「エラー・トラブル・クレーム対応」の専門エージェントへタスクを振り分ける構成がとられました。商品情報の検索やSlack通知にはMCP機能が活用されています。 開発中に見つかった面白い課題は、「ストリーミング生成(リアルタイム音声出力)」と「入力ガードレール(不適切な入力をブロック)」の連携でした。ガードレールが質問全体を分析する前にAIが回答を生成し始めてしまい、意図しない出力が出る場合がありました。この問

  8. 7月9日

    株式会社ずんだもん技術室AI放送局 podcast 20250710

    関連リンク AIともっと楽するE2Eテスト この資料は、AIを活用して「エンドツーエンド(E2E)テスト」、つまりユーザーがアプリを操作するのと同じように、画面を通じた一連の動作が正しく行われるかを確認するテストを効率化する方法について解説しています。 近年、AIツールによるコード生成の速度が飛躍的に向上したことで、開発スピードは上がりました。しかし、その結果として、アプリの品質を保証するためのテスト(特にE2Eテスト)が追いつかず、開発全体のボトルネックになってしまうという新たな課題が生まれています。従来のE2Eテストは、専門知識が必要で学習コストが高く、属人化しやすいうえ、仕様変更のたびにメンテナンスが大変という課題がありました。 そこで注目されるのが、AIによるテスト作成です。AIを使うことで、自然言語でテストシナリオを記述できるようになり、専門知識がなくてもテストを作成できるようになります。さらに、AIがテストのメンテナンスをサポートしてくれることで、チーム全体でテストに貢献しやすくなります。 この資料では、AIが最大限にパフォーマンスを発揮できるよう、「AI First」の設計思想に基づいた「ScreenActionパターン」というテストアーキテクチャが提案されています。これは、画面のUI要素の定義(PageObject)、操作の定義(ActionObject)、状態検証の定義(StateObject)をそれぞれ別々のクラスに明確に分離する設計です。これにより、AIがコードを生成する際に、どの部分を担当すべきかが明確になり、迷わず効率的にコードを書けるようになります。結果として、テストコードの保守性やチーム開発のしやすさも向上します。 実際にAIを活用したところ、プロンプト一つでベースとなるテストコードを短時間で生成できるようになり、手作業に比べて大幅な効率化が実現しました。今後は、QAエンジニアだけでなく、プロダクトオーナーやデザイナーも自然言語でテストシナリオを記述し、AIがそれをテストコードに変換することで、チーム全体でテスト作成に取り組めるようになると期待されています。 将来的には、AIによるテストの完全自動生成や、ユーザーの要望(ユーザーストーリー)から直接テストを生成する未来を目指しており、AIがテストの保守まで自動で行うことで、より開発がスムーズになることが期待されます。 引用元: https://speakerdeck.com/myohei/aitomotutole-surue2etesuto From AI to Agents to Agencies: The Next Evolution of Artificial Intelligence この記事では、AIが「エージェント」からさらに進化した「エージェンシー」という新しい形へと変化している様子を解説しています。 従来の「AIエージェント」は、複雑なタスクを人間が細かく指示しなくても自律的にこなせるシステムとして登場しました。例えば、ウェブサイトのコードを書いたり、デジタルの作業の流れを管理したりと、単一のAI(大規模言語モデルなど)が様々なツールを使いこなして、与えられたタスク全体をこなすイメージです。 しかし、筆者はさらに進んだ新しい仕組みとして「エージェンシー」が生まれつつあると指摘します。「エージェンシー」は、単一のタスクを達成するために、複数の異なる種類の知能(AI)を動的に連携させるシステムです。例えるなら、一つの道具を使いこなす「AIエージェント」に対し、「エージェンシー」は、複数の専門家が協力し、それぞれの得意分野を活かして一つの大きな仕事をこなすようなものです。 「エージェンシー」は、次の3つの要素で構成されます。 タスクコンテキスト管理: 作業全体の要件や進捗状況を一貫して把握し、情報がぶれないようにします。 知能割り当てシステム: 複数の専門的な知能の中から、目の前のサブタスクに最も適した知能を自動で選びます。 オーケストレーションロジック: メインタスクを小さなサブタスクに分解し、それぞれに最適な知能を割り当て、全てがスムーズに連携するよう調整します。 例えば、「ECサイトのデータを取得するPythonウェブスクレイパーを作成する」というタスクを「エージェンシー」に指示した場合、以下のように動作します。 全体の設計や計画は、高度な推論ができるAIが担当します。 定型的なコードの生成は、高速で効率的なAIが担当します。 エラーの検出や修正は、デバッグに特化したAIが担当します。 このように、一つのタスクの中で、それぞれの工程を最も得意なAIに任せることで、効率的で質の高い結果を出せるようになります。 これまでのAIの進化は、2020~2023年の「個別モデル」(人間が調整)、2024~2025年の「AIエージェント」(自律的に動くが単一知能)、そして2025年以降の「エージェンシー」(複数の専門知能を連携)という流れで進んでいくと筆者は考えています。 「エージェンシー」は、「一つの知能が単一のタスクを扱う」というこれまでの考え方から、「複数の知能が協力して一つのタスクをこなす」という新しいアプローチへの大きな転換点であり、AIによるタスク実行の可能性をさらに広げるものです。 引用元: https://blog.nishantsoni.com/p/from-ai-to-agents-to-agencies-the OLMo from Ai2 AIの研究機関であるAi2(Allen Institute for AI)が、新しい大規模言語モデル(LLM)の「OLMo 2」シリーズを公開しました。これは、AI開発の透明性とアクセス性を高めることを目指した、非常にオープンなモデル群です。 「OLMo 2」の最大の特徴は、モデルの重みだけでなく、学習に使われたデータ、トレーニングコード、評価方法、さらには開発途中の状態を示す中間チェックポイントまで、すべてが公開されている点です。これにより、研究者や開発者はOLMo 2がどのように作られたかを詳しく検証し、さらに発展させていくことが可能になります。 OLMo 2ファミリーには、性能や用途に応じて複数のサイズのモデルが用意されています。 OLMo 2 32Bモデル: このシリーズで最も大きく高性能なモデルです。膨大なデータ(6兆トークン)を使って学習されており、一部の多岐にわたる学術的な評価テストでは、有名なGPT-3.5-TurboやGPT-4o miniといったモデルを上回る性能を示しています。これは、オープンなモデルとしては初の快挙とされています。 OLMo 2 7Bおよび13Bモデル: これらのモデルは、それぞれ5兆トークンのデータで学習されています。同じサイズの他のオープンモデルと比べて同等かそれ以上の性能を持ち、Meta社やMistral社が提供するオープンウェイトモデルとも競争力があります。 OLMo 2 1Bモデル: 最もコンパクトなモデルで、Gemma 3 1BやLlama 3.2 1Bといった同サイズのモデルよりも高い性能を発揮します。この小さなモデルは、研究者が迅速に試行錯誤したり、手元の環境で開発を進めたりする際に非常に役立ちます。 Ai2は、「真のオープンネス」こそがAIの未来を切り開き、AIを誰もが利用できるものにすると信じています。そのため、単にモデルの重みを公開するだけでなく、学習プロセス全体をオープンにすることで、オープンな科学研究を支援し、AI技術の発展を加速させようとしています。 具体的には、OLMo 2モデル本体と、事前学習から後処理まで全ての段階で使用された学習データ、さらに高性能なトレーニングコード、そしてモデルの評価に使われたコードとデータもすべて無償で公開されています。これにより、エンジニアや研究者は、AIモデル開発の最先端に触れ、その仕組みを深く理解し、自身のプロジェクトに活用することができます。 オープンなLLMの進化は、AI業界全体の発展に大きく貢献しており、新人エンジニアにとっても注目すべき重要な動きと言えるでしょう。 引用元: https://allenai.org/olmo 下の世代にとってゆっくりは「お年寄りが見てる動画でしょ?」という認識らしいので動画制作者はそろそろAIによる音声合成に移行した方がよい? 「ゆっくり」動画の音声が、若い世代からは「お年寄りが見る動画」と認識されているという話題が注目されています。これに伴い、動画制作者はAIによる音声合成への移行を検討すべきとの声が上がっています。記事では「ずんだもん」などの新しい音声合成キャラクターも紹介され、技術の進化とともに、世代間で動画の視聴習慣や好みが変化している様子が伺えます。これはAI技術の身近な応用例と、ネット

關於

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

如要聆聽兒童不宜的單集,請登入。

隨時掌握此節目的最新消息

登入或註冊後即可關注節目、儲存單集和掌握最新消息。

請選擇國家或地區

非洲、中東和印度

亞太

歐洲

拉丁美洲與加勒比海

美國和加拿大