youtube版(スライド付き)
関連リンク
- Why we built the Responses API
OpenAIは、GPT-5のような最新の推論モデルや、今後のAIエージェント開発に最適な新しいAPI「Responses API」を発表しました。このAPIは、過去のAPI(Completions、Chat Completions、Assistants API)の経験から、開発者がモデルとより強力かつシンプルに連携できるように設計されています。特に、テキスト、画像、音声などを扱えるマルチモーダル(複数の情報形式を扱える)な推論モデルに最適化されています。
Responses APIの主な強み
-
推論状態の永続化: Responses APIの最大の特徴は、モデルの「推論状態」(モデルが考えたことの記録)を複数のやり取り(ターン)にわたって保持できることです。これは、まるで探偵が事件解決時に途中の調査メモを継続的に活用し、次のステップに進むようなイメージです。 これまでのChat Completionsではターンごとに推論がリセットされていましたが、Responses APIでは保持されるため、モデルはより効率的かつ高性能に動作します。これにより、ベンチマークで約5%の性能向上、キャッシュ利用効率も大幅に改善されます。
-
詳細な出力情報: モデルがユーザーに「何を言ったか」という最終的なメッセージだけでなく、「何をしたか」(例えば、どのツールを呼び出したか、途中のステップ)といった行動履歴も構造化されたリストとして出力されます。これにより、開発者はモデルの動作を詳細に把握でき、デバッグや監査、表現豊かなユーザーインターフェースの構築が容易になります。
-
強化されたホストツール: file_searchやcode_interpreterに加え、web search、image genなどの新しいツールがOpenAIのサーバー側で提供されます。ツール実行がサーバー内で完結するため、開発者は複雑なツール連携を自前で実装する手間が省け、通信の往復回数が減り、処理速度の向上とコスト削減に繋がります。
-
推論過程の安全な管理: モデルの思考過程(Chain-of-Thought)は、誤った情報(ハルシネーション)や不適切な内容が出力されるリスクを避けるため、直接クライアントには公開されず、OpenAIの内部で安全に保持されます。これにより、モデルの思考を監視・利用しつつ、安全で信頼性の高い応答をユーザーに提供できます。
OpenAIは、Responses APIが「ステートフル(状態を保持する)」、「マルチモーダル」、「効率的」であると強調しています。Chat Completionsも引き続き利用可能ですが、永続的な推論、ネイティブなマルチモーダル対応、シンプルなエージェントワークフローを求めるなら、Responses APIが最適です。OpenAIは、このAPIが今後のモデル開発のデフォルトになると考えています。
引用元: https://developers.openai.com/blog/responses-api/
- StrandsAgents+AgentCore Memory で私好みのエージェントを実現する
この記事では、ユーザーの好みや過去の会話を記憶し、よりパーソナルな対応ができるAIエージェントの作り方について解説しています。特に、AIエージェント開発を支援する「Strands Agents」と、AWSが提供する「Bedrock AgentCore」の「Memory」機能を組み合わせて実現する方法が紹介されています。
Strands Agentsは、AIエージェントの振る舞いや会話の流れを柔軟に設計できるフレームワークです。これに、エージェントの実行環境や各種ツールとの連携、そしてユーザーごとの記憶管理機能を提供するBedrock AgentCoreを組み合わせます。Bedrock AgentCoreの目玉機能の一つが「AgentCore Memory」で、エージェントに短期記憶だけでなく、ユーザーの「Pythonが得意」「Angularが好き」といった好みを「長期記憶」として覚えさせることができます。この長期記憶は、過去の会話から得られた事実を記録し、現在の会話に関連する情報だけを動的に検索して活用するのが特徴です。
記事では、実際にMemory機能の有無でエージェントの応答がどう変わるかを検証しています。Memory機能がないエージェントは、一度会話を終えて新しいスレッドで同じような依頼をしても、ユーザーの以前の好みを忘れて、関係のない技術(例: Streamlit)を提案してしまいました。しかし、AgentCore Memoryを有効にしたエージェントは、新しい会話でも「PythonとAngularでの開発に興味がある」というユーザーの好みをしっかり覚えており、その好みに合わせた技術スタックを提案してくれました。AWS CLIでMemoryの中身を確認すると、ユーザーの好みが明示的に記録され、それがベクトル検索で効率的に活用されていることがわかります。
この記憶機能を持つAIエージェントは、以下のような応用が期待できます。
- カスタマーサポート: 過去の問い合わせ履歴を覚えて、毎回状況を説明する手間を省く。
- 継続的な学習支援: 学習者の苦手分野を記憶し、個人に合わせた問題や説明を提供。
- パーソナライズされた提案システム: ユーザーの好みに基づいて、製品やコンテンツを推薦。
「記憶」を持つAIエージェントは、ユーザーにとってより自然で便利な体験を提供するために、今後のAI活用で非常に重要な要素になるとまとめられています。
引用元: https://acro-engineer.hatenablog.com/entry/2025/09/24/120000
- RAGを30倍速くするMetaの新技術「REFRAG」
皆さん、こんにちは!今回は、私たちが日常的に触れることの増えた「生成AI」の技術の一つ、RAG(Retrieval Augmented Generation)を劇的に進化させる、Metaが開発した新技術「REFRAG(リフラグ)」について、新人エンジニアの皆さんにもわかりやすく解説します。
RAGは、AIが外部の情報を参照してより正確な回答を生成するための素晴らしい技術です。しかし、参考にする情報(ドキュメント)がたくさんあると、それらを全部AIに読ませるのに時間がかかり、AIからの回答が遅くなってしまうという課題がありました。
この「REFRAG」は、その課題を解決するためにMeta社の研究者たちによって2025年9月に発表された新しい手法です。通常のRAGでは、関連するドキュメントを「人間が読むテキスト」の形でそのままAIに渡します。これだと、AIは受け取った長いテキストを自分で解析・理解するのに時間がかかってしまうのです。
REFRAGがすごいのは、この部分に工夫を凝らしている点です。REFRAGでは、関連ドキュメントを「テキストのまま」渡すのではなく、事前に「ベクトル形式」という、AIが高速に処理できるデータ形式に変換してからAIに渡します。例えるなら、人間が読むための分厚い本を、AIが直接理解できる「要点だけが詰まったデータファイル」に変えてから渡すようなイメージです。こうすることで、AIが回答を生成し始めるまでの時間を、なんと最大で約30倍も高速化できるんです!
この仕組みをもう少し詳しく見てみましょう。 まず、事前準備として、「テキストをベクトル形式に変換する特別なツール(変換器)」と、変換されたベクトルをうまく扱えるようにAI自体も学習させておきます。 そして、実際に皆さんがAIに質問をすると、次のステップで回答が生成されます。
- 関連文書の検索: 質問に合った参考ドキュメントを探します。(ここは通常のRAGと同じ)
- 文書の変換: 見つかったドキュメントを短い塊に分け、事前に準備した「変換器」でベクトル形式に変換します。
- AIへの注入: 皆さんの質問(テキストのまま)と、ベクトル形式に変換された参考ドキュメントを合わせてAIに渡します。
- 回答の生成: AIがこれらを基に、高速に回答を生成します。
REFRAGは、AIの回答速度を大幅に向上させるだけでなく、回答の精度を保ったまま、AIが一度に扱える情報量(コンテキストサイズ)を実質的に16倍に拡張できるという素晴らしい成果を出しています。
この技術はまだ研究段階で、専用の学習や高性能なコンピューター(GPU
Information
- Show
- FrequencyUpdated daily
- Published24 September 2025 at 20:00 UTC
- RatingClean