関連リンク
- 安定したAIエージェント開発・運用を実現するLangfuse活用方法
AIエージェントの開発や運用は、従来のシステム開発とは異なる難しさがあります。この記事では、LayerX社がAIエージェント開発で直面した3つの課題と、それらを「Langfuse」というツールを使ってどう解決したかを紹介しています。
まず、課題として挙げられたのは以下の3点です。
- AIの動きが分かりにくい: AIは「なぜその結果を出したのか」が曖昧になりがちで、問題が起きたときに原因を探すのが大変でした。
- AIへの指示(プロンプト)の管理が大変: プロンプトを変更したときに、誰が、いつ、なぜ変えたのかが分からなくなり、管理が属人化する問題がありました。
- プロンプト変更の影響が読めない: 少しのプロンプト変更でAI全体の性能に予期せぬ悪影響が出る可能性がありましたが、それを事前に確認する仕組みがありませんでした。
これらの課題を解決するため、LayerX社は「Langfuse」というLLMOpsツールを導入しました。このツールは、プロンプトの管理、実験による性能評価、そしてAIの動きを詳しく見れる(可観測性)機能が充実しており、自分たちのサーバーで運用できる点も決め手になったそうです。
Langfuseを導入したことで、具体的な解決策は以下の通りです。
- Trace機能でAIの動きを「見える化」: AIエージェントの処理の流れをステップごとに記録し、入力や出力、LLM(大規模言語モデル)の呼び出しにかかった時間やコストまで、詳細に可視化できるようになりました。これにより、「なぜこうなったのか」を後から簡単に追跡できます。
- Prompt Management機能でプロンプトをしっかり管理: AIへの指示文であるプロンプトをバージョン管理し、Gitを使ったコードと同じようにレビューを経て更新するフローを作りました。もしプロンプトに問題が見つかっても、Langfuseの画面からすぐに前のバージョンに戻せる仕組みも用意されています。
- Evaluation機能でプロンプト変更の影響を自動テスト: 事前に用意した代表的な入力と、AIが出すべき正しい答えの組み合わせ(Dataset)を使って、プロンプト変更後にAIの性能が落ちていないかを自動でチェックするテスト(リグレッションテスト)を導入しました。これにより、変更による品質低下を防ぐ「安全装置」として機能しています。
今後の課題としては、人間の判断が必要な「文章の自然さ」や「メッセージの適切さ」といった定性的な評価も、Langfuseの「LLM as a Judge」のような機能を使って自動化していくこと、そしてログとAIの動きのトレースを一元的に見られるようにしていくことなどが挙げられています。
AIエージェント開発は新しい分野ですが、Langfuseのようなツールを活用することで、より安定した開発・運用サイクルを築き、お客様に価値を提供し続けていくLayerX社の取り組みは、私たち新人エンジニアにとっても大変参考になりますね。
引用元: https://tech.layerx.co.jp/entry/stable-ai-agent-dev-with-langfuse
- NVIDIA Rubin CPX Accelerates Inference Performance and Efficiency for 1M+ Token Context Workloads
「NVIDIA Rubin CPX」は、まるで人間の会話のように長い文章を理解し、複雑な処理を行うAI、特に大規模言語モデル(LLM)の推論性能と効率を大幅に高めるための新しいGPU(グラフィック処理装置)です。新人エンジニアの皆さんがAI開発に携わる際、AIが大量の情報を素早く、効率よく処理できるかどうかは非常に重要ですよね。
最近のAIモデルは、まるで人間の脳のように、一度に大量の情報を記憶し、複雑な推論を何ステップもかけて行えるようになってきました。例えば、数百万行のコード全体を理解して的確なアドバイスをくれるコーディングアシスタントや、長い動画の内容を一貫性をもって生成するAIなど、私たちの想像を超える能力を発揮し始めています。しかし、このような「100万トークン(AIが情報を処理する最小単位、単語や文字の塊のようなもの)以上」といった膨大な情報(コンテキスト、AIが状況を理解するために与えられる情報)を扱うには、これまでのコンピューターでは限界がありました。
そこでNVIDIAは、AIの推論処理を「コンテキストフェーズ(入力された情報を分析する段階)」と「生成フェーズ(分析結果に基づいて答えを出す段階)」の2つに分け、それぞれに特化した処理を行う「分離型推論(Disaggregated Inference)」という新しい考え方を提案しています。Rubin CPXはこのうち、特に大量の情報を高速に処理する「コンテキストフェーズ」に特化して設計されました。これにより、AIがより深く、より長い文脈を理解できるようになり、全体の処理速度が飛躍的に向上します。
Rubin CPX GPUは、NVFP4という新しい計算形式で30 PetaFLOPsもの高性能な演算能力を持ち、大容量のGDDR7メモリを搭載しています。これにより、既存のGPUと比較して、特にAIが文脈を理解する上で重要な「アテンション(注目)処理」を約3倍も高速化できます。さらに、NVIDIA Vera CPUとRubin GPUと組み合わせた「Vera Rubin NVL144 CPXラック」という統合システムでは、驚異的な計算能力とメモリ帯域幅を提供し、大規模なAIワークロードのコストを大幅に削減し、投資対効果(ROI)を最大化します。
この新しい技術は、NVIDIAの提唱する「SMARTフレームワーク」に基づき、ハードウェアとソフトウェア(NVIDIA Dynamoなど)が一体となって最高のパフォーマンスを引き出すことを目指しています。Rubin CPXの登場は、ソフトウェア開発や動画生成といった、より高度で複雑なAIアプリケーション開発の可能性を大きく広げることでしょう。これからのAI時代を担う皆さんにとって、NVIDIAの動向は要チェックです!
引用元: https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/
- 「ベクトルDB不要」なRAG手法「PageIndex」を解説
こんにちは!新人エンジニアの皆さんも、最近よく聞く「RAG(Retrieval Augmented Generation)」という技術をご存知でしょうか?RAGは、LLM(大規模言語モデル)が、特定の知識ベース(ドキュメントなど)を参照して、より正確な回答を生成するための技術です。今回は、このRAGの新しいアプローチとして注目されている「PageIndex」という手法について、分かりやすく解説します。
従来のRAGでは、多くのドキュメントを「ベクトルデータベース(ベクトルDB)」というものに保存し、質問と意味的に似ている情報を検索してLLMに渡していました。しかし、この方法だと、ドキュメントを細かく区切った「チャンク」と呼ばれる単位で処理するため、文脈(前後のつながり)が失われやすかったり、意味は似ていても質問の意図とは違う情報を取ってきてしまったりすることが課題でした。特に、契約書や金融レポートのような専門用語が多く、複雑な文脈を持つ文書では、この課題が顕著になります。
そこで登場したのが、今回紹介する「PageIndex」です。PageIndexは、なんと「ベクトルDBを使わない」RAG手法なんです。
この手法のキモは、ドキュメントをまるで「目次」のように、階層的なツリー構造に変換することにあります。LLMは、この目次のようなツリー構造を辿りながら、ユーザーの質問に関連する情報を探し出します。人間が本を読むときに、まず目次を見て、そこから関連する章や節を探していくのに似ていますよね。これにより、LLMは文書全体の構造や文脈を理解した上で、必要な情報を見つけ出すことができるようになります。
具体的な手順はシンプルです。
- 事前準備:元のPDF文書などをOCRで読み込み、階層構造を保ったMarkdown形式に変換します。その後、そのMarkdownから「目次」のようなツリー構造(JSON形式)を構築しておきます。
- 質問時:ユーザーが質問をすると、LLMがこの構築されたツ
정보
- 프로그램
- 주기매일 업데이트
- 발행일2025년 9월 10일 오후 8:00 UTC
- 등급전체 연령 사용가