株式会社ずんだもん技術室AI放送局

マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251006

関連リンク

  • Managing context on the Claude Developer Platform

Anthropicは、AIエージェントが長期かつ複雑なタスクをより効率的に実行できるよう、「コンテキスト管理」の新機能をClaude Developer Platformに導入しました。これは、新人エンジニアの皆さんにとって、これからのAI開発を理解する上で非常に重要なアップデートです。

従来のAIエージェントは、一時記憶(コンテキストウィンドウ)の限界から、長時間のタスクで情報を見失ったり、性能が落ちたりする課題がありました。この根本的な問題を解決するため、主に二つの新機能が提供されます。

  1. コンテキスト編集(Context editing): トークン制限に近づくと、古いツール結果など不要な情報を自動でコンテキストから削除します。これにより、エージェントは必要な情報に集中し、より長くタスクを実行できるようになり、パフォーマンスも向上します。

  2. メモリツール(Memory tool): 重要な情報をコンテキスト外にファイルとして永続的に保存し、必要に応じて参照できる「長期記憶」機能です。セッションを跨いで知識を蓄積し、プロジェクトの状態維持が可能。データ保存は開発者が制御します。

これらの機能は、最新モデルClaude Sonnet 4.5と組み合わせることで、トークン使用状況を意識した効率的なコンテキスト管理が可能となり、エージェントの能力を最大限に引き出します。

この進化により、AIエージェントは大規模なコード処理、多数のドキュメント分析、長期データ処理など、これまで困難だった複雑なタスクを高精度でこなせるようになります。

実際の評価では、コンテキスト管理機能の併用により、エージェントのパフォーマンスが39%向上。トークン消費量を84%削減し、コンテキスト枯渇によるタスク失敗も劇的に減少したと報告されています。

これらの画期的な機能は現在、公開ベータ版としてClaude Developer Platformで利用可能です。ぜひ今後のAI開発に活用を検討してみてください。

引用元: https://www.anthropic.com/news/context-management

  • 95%以上をLLMが実装。『みらいまる見え政治資金』を45日で完成させた、AIネイティブな開発手法についてご紹介

この記事では、チームみらいが開発した「みらいまる見え政治資金」プロジェクトにおいて、コードの95%以上をLLM(大規模言語モデル)に実装させ、約45日という短期間で中規模アプリケーションを完成させた、AIネイティブな開発手法が紹介されています。公開後約2日で20万PVを超える反響を呼びました。

この開発では、LLMの特性を最大限に活かすため、プロジェクト全体の設計が非常に重要視されました。具体的には、エンドユーザー向け画面、管理画面、共有オブジェクトの3パッケージに分けるモノレポ構成を採用。これにより、LLMが見通しを保ちやすく、必要に応じてパッケージ間参照も容易になるよう工夫しました。Next.js特有のクライアントサイドとサーバーサイドの混同を防ぐため、ディレクトリで明確に分け、「server-only」といったルールも適用。サーバー処理も厳格なレイヤー分けを行い、LLMは面倒がらないため、ルールに従って見通しの良い構造を維持しました。

実装段階では、主にClaude Codeを使い、プロジェクトの設計・実装ルールを「CLAUDE.md」にまとめ、LLMに厳守させました。複雑な機能は、まず設計ドキュメントを作成させてから実装を開始しました。さらに、Figmaのデータを直接読み取れるMCPを活用し、デザインの実装もLLMに任せました。指示を細かく分割することが成功の鍵です。

AIが書いたコードの品質を担保するためには、人間によるレビューが不可欠です。この記事では、個々のロジックよりレイヤー責務の確認を重視し、重要な処理にはユニットテストをLLMに書かせ効率的に品質を保証しました。Biomeを用いた自動フォーマットやCIでのチェックを導入し、開発を効率化しました。

最終的に、ほぼ全ての領域をLLMに任せることができ、「100%実装も可能」だと述べられています。LLMの「忍耐強さ」を活かし、厳密なルールを例外なく適用することが、開発スピード向上につながると結論付けています。ただし、この手法はフルスクラッチ、Next.js+TypeScript、中規模アプリといった特定の条件下で特に効果を発揮します。新人エンジニアにとって、AIと協働する未来の可能性を感じさせる貴重な事例です。

引用元: https://note.com/jujunjun110/n/na653d4120d7e

  • J-RAGBench:日本企業でRAGするときの落とし穴とは

皆さん、こんにちは!今回は、RAG(Retrieval-Augmented Generation)という技術を日本企業で使う時にどんな問題が起こりやすいのか、そして最適なAIモデルを選ぶにはどうすればいいのかを明らかにする「J-RAGBench」という新しい評価ツールについて紹介します。

RAGは、検索した情報に基づいてAI(大規模言語モデル、LLM)が回答を作る技術です。最近は様々なAIモデルが登場していますが、実際のビジネス現場でRAGを使うには、単に情報を検索するだけでなく、複数の情報をまとめて理解したり、そこから推論したり、表形式のデータを正確に読んだり、さらには情報が見つからない時に「分かりません」と適切に断る能力など、非常に複雑な能力がAIに求められます。

しかし、これまでのAI評価ツール(ベンチマーク)では、これらの複雑な能力を十分に測ることができませんでした。そこで、株式会社neoAIの研究開発チームが、金融や製造業といった実際の業界でRAGを導入する中で直面した「落とし穴」を元に、新しい日本語RAGベンチマーク「J-RAGBench」を開発しました。

J-RAGBenchの主な特徴は以下の通りです。

  1. 評価観点の再定義:実際のビジネスシーンでAIに求められる能力を「情報統合」「推論」「論理条件の解釈」「表形式の解釈」「回答拒否」の5つのカテゴリに体系化しています。
  2. 複数の能力を同時に評価:現実の難しい問題では複数の能力が同時に必要になるため、高難易度な複合問題を多く含んでいます。
  3. 架空シナリオの採用:AIが元々持つ知識に頼らず、与えられた情報だけを正確に読み取る純粋な外部文書参照能力を評価するために、架空の状況を設定した問題を採用しています。

J-RAGBenchを使って、様々なAIモデル(API提供モデルやオープンウェイトモデル)を評価したところ、各モデルの得意・不得意が明確になりました。

  • GPT-5は、どのカテゴリにおいてもバランスよく高いスコアを示しました。
  • o3やo4 miniといったモデルは、情報からの推論は得意ですが、情報がないのにそれらしい嘘の情報を話してしまう「ハルシネーション(幻覚)」を起こしやすい傾向が見られました。
  • Claude Sonnet 4は、情報がないときに適切に「回答できません」と断る能力が非常に高く、ハルシネーションを起こしにくい「高信頼型」でしたが、他の能力はやや劣る結果でした。

また、詳細な分析では、AIが情報の粒度が不均一な場合に誤答したり、数値計算や複雑な表の解釈でミスしたり、根拠となる情報がないにも関わらずハルシネーションを起こしてしまうケースが確認されました。特に、小さなモデルほど、マルチホップ推論や回答拒否の能力が低い傾向にありました。

これらの結果は、RAGシステムを実際に運用する際に、どのような用途で利用するか(例えば、バランスの取れた回答を求めるか、信頼性を最優先するか、など)に応じて、適切なAIモデルを選ぶことの重要性を示しています。J-RAGBenchは、RAGのAIモデル選定において、新人エンジニアの皆さんにとって貴重な判断材料となるでしょう。

引用元: https://zenn.dev/neoai/articles/0998f81c39a583

  • ガストで昼間からビール飲んでるおじさんが配膳ロボットにお触りしてて、ロボットの方も「くすぐったいにゃん」とか言ってた… 何なんだこの空間は

ガストの猫型配膳ロボット