株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20251015

youtube版(スライド付き)

関連リンク

  • Make agents a reality with Amazon Bedrock AgentCore: Now generally available Amazon Web Services

AWSから、AIエージェントを開発し、実際のビジネスで活用するための新しいプラットフォーム「Amazon Bedrock AgentCore」が一般提供開始されました。これは、これまで試作段階にとどまりがちだったAIエージェントを、安全性、信頼性、スケーラビリティを確保しながら、本格的なサービスとして運用するための基盤となるものです。

AIエージェントとは、まるで人間のアシスタントのように、自律的に考え、タスクを遂行するプログラムのことです。例えば、ユーザーの質問に答えたり、情報を収集したり、複数のシステムを連携させて複雑な業務を自動化したりできます。しかし、これを企業レベルで安全かつ効率的に運用するには、多くの技術的な課題がありました。AgentCoreは、そうした課題を解決し、開発者がエージェントを素早く本番環境に導入できるように設計されています。

AgentCoreの主な特徴は以下の通りです。

  • 柔軟な開発: 開発者は、Amazon Bedrockで提供されるAIモデルだけでなく、OpenAIやGoogle Geminiなど外部のモデル、そしてLangChainやCrewAIといったお好みの開発フレームワークを使って、自由にエージェントを構築できます。
  • 豊富なツール連携: エージェントがコードを安全に実行できる「Code Interpreter」や、ウェブサイトを操作できる「Browser」機能が組み込まれています。また、既存の社内システムやAPIをエージェントから簡単に呼び出せるようにする「Gateway」機能もあり、エージェントはより多くのタスクを実行できるようになります。
  • 賢い記憶力: 過去の会話や操作履歴を覚え、文脈を理解しながら対応する「インテリジェントメモリ」機能により、エージェントはより賢く、パーソナルな体験を提供できます。
  • 運用と監視: エージェントの動作を詳細に監視し、問題が発生した場合に素早く原因を特定できる機能(Observability)が提供されます。また、予測不能な負荷にも自動で対応し、長時間のタスクでも安定して稼働できる信頼性の高い実行環境(Runtime)も備わっています。
  • 高いセキュリティ: 高度なセキュリティ機能が組み込まれており、機密データを安全に扱いながら、企業システムにアクセスできます。

すでに、Amazon社内の製造プロセス自動化、医療分野での承認審査効率化、通信大手エリクソンやソニーグループでのAI活用など、様々な業界でAgentCoreが活用され、大きな成果を上げています。

AgentCoreは東京リージョンを含む世界9つのAWSリージョンで利用可能なので、日本のエンジニアの皆さんも、これらの強力な機能を使って、アイデアを素早く形にし、AIエージェントの可能性をビジネスに活かしていくことができます。

引用元: https://aws.amazon.com/blogs/machine-learning/amazon-bedrock-agentcore-is-now-generally-available/

  • Securing your agents with authentication and authorization

AIエージェントは、チャットだけでなく、ファイル操作やメッセージ送信、外部ツールの利用といった「行動」ができる点が大きな特徴です。そのため、従来のAIアプリケーションよりもセキュリティ対策が重要になります。特に「認証(Authentication)」と「認可(Authorization)」は、エージェントを安全に運用するために欠かせない要素です。

認証(AuthN)と認可(AuthZ)の基本 認証とは「あなたが誰であるか」を確認するプロセスです。例として、システムにログインする際にユーザー名とパスワードで本人確認をするのが認証です。一方、認可とは「認証されたあなたが何ができるか」を判断し、アクセス権限を制御するプロセスです。この二つは合わせて「認証認可(Auth)」と呼ばれ、あらゆるアプリケーションで重要ですが、AIエージェントには特有の課題があります。

AIエージェントが従来のアプリケーションと違う点

  1. 多くのサービスへのアクセス: エージェントは、従来のアプリケーションよりもはるかに多くの異なるサービスやツール(例:メール、カレンダー、データベースなど)にアクセスする必要があります。
  2. 動的に変化するアクセス要件: エージェントの行動は、その時々の状況によって必要な権限が大きく変わるため、柔軟なアクセス制御が必要です。
  3. 監査の複雑さ: 多くのサービスをまたいで行動するため、エージェントが行った操作の記録(監査ログ)があちこちに分散し、全体の動きを追跡・確認するのが難しくなります。

これらの課題に対応するため、将来的にはエージェントの認証認可を一元的に管理する新しいシステムが必要になると考えられています。しかし、現在の技術でもエージェントのセキュリティは確保できます。

現在のAIエージェントの認証認可 エージェントも基本的にはリソースにアクセスするソフトウェアであるため、既存の認証認可技術である「OAuth 2.0」や「OIDC」といった業界標準のフレームワークを効果的に利用できます。エージェントのアクセスパターンは大きく二つに分けられます。

  1. 委任アクセス (Delegated Access): エージェントがユーザーの「代理」としてリソースにアクセスする場合です。例えば、メールアシスタントがユーザーの許可を得てメールボックスにアクセスし、メールを処理するようなケースです。
    • この場合、「Auth Code Flow」と「OBO (On-Behalf-Of) Token Flow」といったOAuth 2.0のフローが主に使われます。
  2. 直接アクセス (Direct Access): エージェントが人間の関与なしに、自律的にリソースにアクセスする場合です。例えば、セキュリティエージェントが自動でシステムログを監視し、異常を検知するようなケースです。
    • この場合、「Client Credentials Flow」というOAuth 2.0のフローが主に使われます。

まとめ AIエージェントの能力が高まり、自律性が増すにつれて、認証認可の重要性はますます高まります。OAuth 2.0などの既存の標準技術を理解し、適切に活用することが、安全なエージェントを開発するための第一歩です。特に「Auth Code Flow」「OBO Token Flow」「Client Credentials Flow」の3つのフローは、多くのエージェントにおけるアクセス制御で役立つでしょう。

引用元: https://blog.langchain.com/agent-authorization-explainer/

  • StreamingVLM: Real-Time Understanding for Infinite Video Streams

最近注目されている「画像とテキストを同時に理解するAIモデル(VLM)」は、私たちが普段使っているAIアシスタントや、自動運転のような自律的に動くシステムにおいて、動画をリアルタイムで理解するための鍵となります。しかし、現在のVLMには大きな課題がありました。それは、終わりなく続く長い動画ストリームを処理する際に、システムが遅くなったり、メモリを使いすぎたりすることです。

従来のやり方では、動画全体を一度に処理しようとすると、動画が長くなるほど計算量が爆発的に増え(動画の長さの2乗に比例!)、現実的ではありませんでした。また、動画を区切って少しずつ処理する「スライディングウィンドウ方式」という方法もありますが、これだと動画全体の文脈が途切れてしまったり、同じ部分を何度も計算し直すために無駄な処理が多く発生し、結局遅延につながっていました。

このような課題を解決するため、この論文では「StreamingVLM」という新しいモデルを提案しています。StreamingVLMは、無限に続く視覚情報(動画)を、リアルタイムかつ安定して理解できるように設計されています。

彼らのアプローチのポイントはいくつかあります。 まず、AIモデルの学習方法と、実際に動かす推論方法を統一した枠組みで考えることで、より効率的な処理を実現しています。 推論時には、AIが過去の情報を記憶しておくため