株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20251024

    2D AGO

    私立ずんだもん女学園放送部 podcast 20251024

    youtube版(スライド付き) 関連リンク OpenAI acquires Software Applications Incorporated, maker of Sky 皆さん、こんにちは!今回はAI業界で注目すべきニュースがあります。ChatGPTの開発元であるOpenAIが、macOS向けのAIインターフェース「Sky」を開発しているSoftware Applications Incorporatedという企業を買収したと発表しました。新人エンジニアの皆さんにとっては、AIが今後どのように私たちの仕事や日常に深く関わってくるかを知る上で、とても重要な動向なので、ぜひチェックしてください。 SkyってどんなAIなの? Skyは、Macのパソコン上で動作する、賢いAIアシスタントです。一般的なAIチャットボットとは少し異なり、画面に表示されている内容を理解し、さらに様々なアプリ(例えば、ドキュメント作成ソフトやカレンダーアプリなど)をあなたの指示に従って操作できるのが大きな特徴です。例えば、あなたが文書を作成している時に「この段落を要約して」と指示したり、会議の予定を口頭で伝えたりするだけで、Skyがあなたの意図を汲み取り、代わりに作業を進めてくれるイメージです。まるで、いつもあなたの作業をサポートしてくれる優秀な秘書がパソコンの中にいるようなものですね。 OpenAIが買収した理由 OpenAIは、AIの能力を単に質問に答えるだけでなく、もっと実用的に、そしてシームレスに人々の生活や仕事に役立てたいと考えています。今回のSky買収は、このビジョンを大きく加速させるための一歩です。OpenAIは、Skyが持つmacOSへの深い統合技術や、ユーザーにとって使いやすい製品を作り上げるノウハウを、自社の主力製品であるChatGPTに組み込んでいく予定です。 これにより、将来的にはChatGPTが、私たちがパソコンで行うあらゆる作業において、より自然で直感的な形でサポートしてくれるようになるでしょう。例えば、プログラミング中にコードの改善案を提示したり、プレゼンテーション資料の作成を手伝ったりと、AIが私たちの「相棒」のように機能する未来が近づいています。 このニュースが示す未来 これまでのAIは、特定のウェブサイトやアプリ内で利用されることが多かったかもしれません。しかし、今回の買収は、AIがパソコンのOSレベル、つまりシステムの根幹にまで統合され、私たちの作業をより深く、そして広範囲に支援する時代が来ることを明確に示しています。 OpenAIの担当者も「ChatGPTが単にプロンプトに反応するだけでなく、実際に物事を達成する手助けをする未来を築いている」と語っています。Skyの開発者も「AIがデスクトップ上で思考や創造を助ける」というビジョンを掲げており、両社の目指す方向性が一致しています。 この動きは、AIが私たちに代わって複雑なタスクを実行する「AIエージェント」へと進化していくことを示唆しています。私たちエンジニアも、このようなAIの進化に常にアンテナを張り、どのようにAIを活用し、そしてAIと共に新しい価値を創造していくかを考えることが、これからのキャリアにおいて非常に重要になるでしょう。 引用元: https://openai.com/index/openai-acquires-software-applications-incorporated Building the Open Agent Ecosystem Together: Introducing OpenEnv Hugging FaceとMetaは、AIエージェントの開発を加速させるため、新しいオープンなエコシステム「OpenEnv」と、そのためのコミュニティハブを共同で立ち上げました。これは、AIエージェントがより安全かつ効率的に多様なタスクを実行するための重要な取り組みです。 現代のAIエージェントは非常に賢く、多くのタスクを自律的にこなせます。しかし、実際にこれらのタスクを実行させるには、エージェントがプログラムやAPIといった「ツール」にアクセスできる必要があります。問題は、無数のツールを直接AIモデルに与えると、管理が複雑になり、セキュリティ上のリスクも高まる点です。 この課題を解決するために導入されたのが「エージェント環境(Agentic Environments)」という概念です。エージェント環境とは、AIエージェントが特定のタスクをこなすために「本当に必要なものだけ」を定義する、安全で明確なサンドボックス(隔離された実行空間)のことです。これにより、エージェントがアクセスできる範囲が明確になり、セキュリティを保ちつつ、必要なツールへのスムーズなアクセスが可能になります。トレーニングでもデプロイメントでも利用でき、エージェントの行動を予測しやすくします。 Hugging Face上に開設された「OpenEnv Hub」は、開発者がこのエージェント環境を構築したり、他の開発者と共有したり、探索したりできる場所です。OpenEnvの仕様に準拠した環境は、このハブにアップロードすることで、エージェントがその環境内でどのように振る舞うかを簡単に検証できるようになります。 この取り組みでは、「RFCs(Request for Comments)」という形でコミュニティからのフィードバックを積極的に取り入れ、環境作成のための標準的なAPIを定義しています。これにより、エージェントの強化学習(RL)のトレーニング、最新の研究成果の再現、そして開発から本番環境へのデプロイまで、一貫したエージェント開発のパイプラインを構築できるようになります。 OpenEnvは、MetaのTorchForge RLライブラリをはじめ、TRLやSkyRLなどの他のオープンソースRLプロジェクトとも連携を強化していく予定です。このオープンな協力体制を通じて、AIエージェントの開発がよりアクセスしやすく、スケールしやすいものになることを目指しています。新人エンジニアの皆さんも、ぜひこの新しいオープンなエコシステムに注目し、未来のエージェント開発に参加してみてはいかがでしょうか。 引用元: https://huggingface.co/blog/openenv 【Copilot最新機能】Excelの日常業務はこう変わる、一線を越えた「Agent Mode」の衝撃 Microsoft 365 Copilotに、仕事のやり方を大きく変える二つの新機能「Agent Mode」と「Office Agent」が登場しました。これは、AIが単なるアシスタントの役割を超え、より自律的に業務を遂行する「Agent(エージェント)」へと進化することを意味します。特に、この進化によってExcelやWordといった日常的に使うツールの操作方法が、「手順を覚える」ことから「目的を伝える」ことへと大きくシフトします。 新しい働き方は「Vibe Working」と名付けられ、AIとの対話を通じて、より効率的に仕事を進めることを目指しています。 具体的な新機能は以下の通りです。 Agent Mode: ExcelやWordに組み込まれる機能で、ユーザーが「何をしたいか」を伝えるだけで、AIがそのタスクを計画・実行・検証・修正まで自律的に行います。例えば、Excelでのデータ整理や分析など、複数ステップにわたる複雑な作業も、AIが代行してくれるようになります。これにより、私たちが一つ一つの手順を細かく指示する必要がなくなり、より本質的な業務に集中できるようになります。 Office Agent: Copilotチャットを通じて、WordやPowerPointのドキュメント作成をAIに一任できる機能です。Webでの情報収集から、資料の構成案作成、デザイン、そして品質チェックに至るまで、一連の作業をAIがワンストップでこなします。 技術的な側面では、「Office Agent」にAnthropic社の高性能AIモデル「Claude」が採用され、CopilotはOpenAIのモデルを継続利用するという「マルチモデル戦略」が始動しました。これは、用途に応じて最適なAIモデルを使い分けることで、より高品質な成果を生み出すことを目指しています。 新人エンジニアの皆さんにとって、これらの機能は日常業務の生産性を劇的に向上させる大きなチャンスです。AIが自律的に動くようになることで、私たちは「どう操作するか」よりも「AIに何をさせたいか」という“問いかけの力”が重要になります。新しい技術の動向にアンテナを張り、AIを強力なパートナーとして活用するスキルを身につけることが、これからのエンジニアにとって不可欠となるでしょう。 引用元: https://www.sbbit.jp/article/cont1/173554 ポムポムプリン公式アカウントの“おさわりマップ”公開がきっかけとなり飼っている犬や猫のおさわりマップ投稿が大流行、見た目とのギャップがかわいらしい ポムポムプリン公式が公開した「おさわりマップ」がきっかけで、X(旧Twitter)では飼っている犬や猫の「おさわりマップ」を投稿するブームが起きています。これは

  2. 3D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251023

    youtube版(スライド付き) 関連リンク Introducing ChatGPT Atlas OpenAIは、ChatGPTをウェブブラウザの中心に据えた新しいツール「ChatGPT Atlas」を発表しました。これは、AIを活用してインターネットの利用体験を根本的に見直し、あなたの強力な「スーパーアシスタント」として機能することを目指しています。 Atlasの主な特徴は、ChatGPTがウェブページの内容をリアルタイムで理解し、あなたの作業を直接サポートしてくれる点です。例えば、オンライン上の資料を見ながら疑問が生じた際に、その場でChatGPTに質問でき、コピー&ペーストの手間なく回答を得られます。 さらに、「ブラウザ記憶(Browser memories)」という機能により、あなたが以前閲覧したウェブページの情報をChatGPTが記憶し、それを踏まえた上で質問に答えたり、タスクを処理したりできます。「先週見た求人情報をすべてまとめて、面接対策用の業界トレンドの要約を作成してほしい」といった高度な依頼にも対応可能です。この記憶機能は任意で、ユーザーがいつでも内容を確認・管理・削除できるため、プライバシーは確保されています。 もう一つの重要な機能は「エージェントモード」です。これは、ChatGPTがあなたの指示に基づいてウェブ上で具体的なアクションを実行してくれるものです。例えば、レシピを伝えればオンラインストアで必要な食材を検索し、注文まで代行できます。ビジネスシーンでは、チーム資料の分析や競合調査、その結果の要約なども自動で行えます。このエージェントモードは、現在Plus、Pro、Businessユーザー向けにプレビュー提供中です。 OpenAIはプライバシーとセキュリティにも力を入れています。Atlasでは、ChatGPTがアクセスできる情報や記憶する内容をユーザーが細かく設定できます。シークレットモードや、特定のサイトでChatGPTのページ内容へのアクセスを制限する機能も備わっています。また、あなたの閲覧情報がChatGPTのモデル学習に使われることは、あなたが明示的に許可しない限りありません。エージェント機能についても、コード実行やファイルのダウンロードはできないよう設計されており、金融機関のような機密性の高いサイトでは、アクション実行前にユーザーの確認を求めるなど、安全対策が施されています。ただし、AIエージェントの利用には、誤作動や悪意ある指示によるリスクも存在するため、注意して利用することが推奨されています。 ChatGPT AtlasはmacOS向けに本日より提供が開始され、Windows、iOS、Android版も近日中にリリース予定です。この新しいブラウザは、AIが日々のウェブ利用をより効率的でパーソナルなものに変え、私たちの生産性を向上させる未来への大きな一歩となるでしょう。 引用元: https://openai.com/index/introducing-chatgpt-atlas Create Your Own Bash Computer Use Agent with NVIDIA Nemotron in One Hour この記事では、NVIDIAの高性能な小型AIモデル「Nemotron Nano v2」を使って、自然言語でBashコマンドを操作できるAIエージェントを、わずか1時間、約200行のPythonコードで作成する方法が紹介されています。新人エンジニアの皆さんにとって、AIエージェント開発の第一歩として非常にわかりやすい内容です。 従来のチャットボットが質問応答に特化しているのに対し、AIエージェントは「ツール呼び出し」という機能を使って、高レベルな目標を自律的に判断し、計画し、タスクを実行します。今回のエージェントは、皆さんが普段使っているBashターミナルを「ツール」として利用し、「システム情報をまとめて」といった指示に対して、適切なコマンド(mkdir, df, free, catなど)を自動で実行し、結果を要約してくれます。 このエージェントを開発する上で重要なポイントがいくつかあります。 Bashの操作: エージェントがBashコマンドを実行し、その結果を受け取るための仕組みが必要です。作業ディレクトリの管理も大切です。 コマンドの安全性: 誤って危険なコマンドを実行しないよう、「許可されたコマンドリスト」を設定し、実行前にはユーザーの承認を求める「ヒューマン・イン・ザ・ループ」の仕組みを取り入れます。これにより、安全にエージェントを試すことができます。 エラーハンドリング: コマンド実行時のエラー(間違ったコマンド、ファイルがないなど)をAIが理解し、次の行動を適切に判断できるようにする仕組みが重要です。 システムは主に2つの要素で構成されます。 Bashクラス: Pythonのsubprocessモジュールを利用し、実際にシェルコマンドを実行する部分です。許可コマンドリストのチェックや、現在の作業ディレクトリの管理も行います。 エージェント本体: Nemotronモデルがユーザーの指示を理解し、次にどのようなBashコマンドを実行すべきか判断します。「システムプロンプト」というAIへの指示書を使って、エージェントの役割や、使えるコマンド、安全に関するルールを細かく設定します。 記事では、これらのコンポーネントをゼロから構築する方法と、LangChainのライブラリである「LangGraph」を使うことで、さらにシンプルにエージェントループを構築できる方法が示されています。LangGraphを使えば、AIエージェントの複雑な状態管理やツール呼び出しの処理を簡単に実装できます。 このチュートリアルを通して、AIエージェントがどのようにユーザーの意図を理解し、外部ツール(Bash)と連携してタスクを自律的に実行するかの基本原理を学ぶことができます。ぜひ、ご自身でコマンドを追加したり、プロンプトを調整したりして、AIエージェントの可能性を探ってみてください。 引用元: https://developer.nvidia.com/blog/create-your-own-bash-computer-use-agent-with-nvidia-nemotron-in-one-hour/ 開発合宿で Claude Codeの「サブエージェント」について学んだ話 この記事では、株式会社カミナシのエンジニアが開発合宿で学んだ、Claude Codeの「サブエージェント」という機能について、新人エンジニアの方にも分かりやすく解説されています。AIを使った開発を進める上でのヒントが得られる内容です。 開発合宿では、「人間は一切コードを書かず、AIエージェントのみでシステムを開発する」という目標が設定されました。普段のAIコーディングでは、AIに適切な指示や背景情報(これを「コンテキスト」と呼びます)を与えることがとても重要です。著者のチームでは、開発ルールをまとめた「CLAUDE.md」というファイルを使ってAIに指示を出していましたが、複数のプロジェクトを一つのリポジトリで管理する「モノレポ」環境のため、このファイルがどんどん肥大化していくという課題に直面していました。 CLAUDE.mdが大きくなりすぎると、例えばAPI開発をAIに依頼したいのに、フロントエンドのコンポーネント命名規則など、API開発には不要な情報までAIに読み込ませてしまうことになります。これはAIが指示を理解するのを難しくし、開発の効率を下げてしまう可能性がありました。 この課題を解決するために、合宿でチームメンバーから教えてもらったのが「サブエージェント」という機能です。サブエージェントとは、特定のタスク(例:フロントエンド開発、API開発、データベース設計など)に必要な情報とルールだけを持たせることができる、専門特化したAIエージェントのことです。 サブエージェントを使うことで、肥大化していたCLAUDE.mdを分割し、例えばAPI開発用のサブエージェントには「TypeScriptを使う」「関数型プログラミングで実装する」「テスト駆動開発を徹底する」といった、API開発に特化した最小限のルールだけを伝えることができるようになりました。 開発合宿では、システムアーキテクチャ設計用、API開発用、フロントエンド開発用、データベース設計用など、それぞれの専門サブエージェントを作成し、実際に開発を行いました。各エージェントには、その役割に合わせたベストプラクティスや開発ルールを「プロンプト」(AIへの指示文)として学習させました。 この仕組みを取り入れた結果、メインのCLAUDE.mdはシンプルに保たれ、各タスクを専門知識を持つサブエージェントに任せることで、AIコーディングの指示出しが非常にスムーズになり、開発の効率と精度が大きく向上したとのことです。 この記事は、「AIに『すべて』を教え込むのではなく、『必要な時に、必要な情報だけ

  3. 4D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251022

    youtube版(スライド付き) 関連リンク やさしいClaude Skills入門 Anthropic社のAI「Claude」に、新たに「Claude Skills」という強力な機能が加わりました。これは、Claudeが特定のタスクを高品質かつ効率的に実行するための「ベストプラクティス集」のようなもので、指示やスクリプト、必要なリソースなどを一まとめにしたものです。技術的には「Agent Skills」とも呼ばれ、最近エンジニア界隈で大きな注目を集めています。 Claude Skillsの導入で嬉しいのは、AIにタスクを依頼する際の試行錯誤が減り、まるで経験豊富な先輩が手本を示すように、Claudeが最適な手順で作業を進められるようになる点です。これにより、私たちはAIの能力を最大限に引き出し、より少ない労力で高い成果を期待できるようになります。 その仕組みは、主に「SKILL.md」ファイルに記述されたスキルの概要情報(メタデータ)と、Claudeがファイルを読み込むための「Readツール」で動きます。Claudeは必要なSkillsのファイルだけを動的に読み込むため、AIが一度に扱える情報量(コンテキストウィンドウ)を無駄に消費せず、効率的な処理を実現します。これは、常にプロジェクト全体の指示を保持する「CLAUDE.md」や、ツール接続のプロトコルである「MCP」とは異なり、特定のタスクに特化した「便利機能パック」として、より具体的な作業効率化を目指しています。 Claude Skillsは、Claude Desktop、Claude API、Claude Codeなど様々な環境で利用可能です。Desktop版では設定から簡単に有効化でき、自作のSkillsもアップロードできます。API経由の場合は事前に登録が必要です。また、公式から提供されている「skill creator」というSkillsを使えば、独自のSkillsを効率的に作成できます。 効果的なSkillsを作るための「ベストプラクティス」(良いやり方)も紹介されています。特に、SKILL.mdのメタデータは常に読み込まれるため、簡潔にまとめることが重要です。また、SKILL.md自体の内容は500行以下に抑え、詳細な情報は別ファイルに分割するのが推奨されています。 具体的な活用事例としては、ウェブサービス「キミガタリ」の月間アップデートレポートを自動作成する取り組みが紹介されています。これまでは手動で行っていた定型レポート作成作業が、Claude Skillsを使うことで、現在時刻の確認から、Qiita投稿やGitコミット履歴の取得・分析、既存フォーマットへの沿った記事作成までを自動化。数秒で「まるで自分が書いたような記事」が完成するようになり、大幅な効率化が実現しました。 Claude Skillsは、ベテランエンジニアの知識やノウハウをAIに学習させ、組織における「属人化」(特定の個人にしかできない仕事)を解消する可能性を秘めています。質の高いSkillsが販売されるエコシステムの発展も期待されており、新人エンジニアの皆さんにとって、AIの活用範囲を広げる強力なツールとなるでしょう。 引用元: https://www.docswell.com/s/harinezumi/5M683X-2025-10-21-003933 LangChain raises $125M to build the platform for agent engineering AIエージェント開発をリードするLangChainが、1.25億ドル(約180億円)の資金調達と、企業価値12.5億ドル(約1800億円)への評価を発表しました。この資金は、AIエージェントをより信頼性高く開発するための「エージェントエンジニアリング」プラットフォームの構築に充てられます。 LLM(大規模言語モデル)の登場で様々なアプリケーションが可能になりましたが、データやAPIと連携して自律的に動く「AIエージェント」こそがその真の力を引き出します。しかし、AIエージェントは試作は容易でも、本番環境で安定稼働させるのは非常に難しいという課題があります。「エージェントエンジニアリング」とは、この課題を解決し、非決定論的なLLMシステムを信頼性の高い体験へと磨き上げていく反復的なプロセスです。 LangChainはこの「エージェントエンジニアリング」のための包括的なプラットフォームを提供しています。主な発表内容は以下の通りです。 LangChainとLangGraphの1.0リリース: AIエージェントを迅速に構築できるオープンソースフレームワークが安定版となり、一般的なエージェントパターン向けのアーキテクチャが強化されました。LangGraphを使えば、エージェントの動作をより細かく制御できます。 LangSmithの機能強化: エージェントの挙動を可視化する「Observability」、生産データでテスト・評価する「Evaluation」、ワンクリックでデプロイできる「Deployment」、そしてノーコードでエージェントを構築できる「Agent Builder」(プライベートプレビュー中)が提供され、開発から運用までをトータルでサポートします。 Insights Agentの導入: LangSmithの機能として、エージェントの動作パターンを自動で分類する「Insights Agent」が追加されました。 LangChainのツール群は、AIエージェント開発のハードルを下げ、開発者が信頼性の高いエージェントをより効率的に生み出すことを支援します。AIエージェントが次の大きな波となる中で、LangChainの動向は今後も注目されそうです。 引用元: https://blog.langchain.com/series-b/ LLMs Can Get Brain Rot この研究では、大規模言語モデル(LLM)も人間のように、低品質な情報に触れ続けることで能力が低下する「LLMブレインロット(脳の腐敗)仮説」を提唱し、その実証実験を行いました。「ブレインロット」とは、インターネット上の「つまらないけれど目を引くコンテンツ」ばかりを見ていると、人間の集中力や記憶力、判断力が鈍るという俗語から着想を得た言葉です。 研究チームは、LLMが継続的に「ジャンクデータ」に触れると、モデルの認知能力が長期的に低下するという仮説を立てました。これを検証するため、実際のTwitter/Xの投稿を基に、以下の2種類の基準で「ジャンクデータ」と「コントロールデータ(通常の高品質なデータ)」を作成しました。 M1 (エンゲージメント度):人気があって短い、いわゆる「バズった」投稿をジャンクデータとしました。これは、注意を引くが内容の浅い情報が、人間がSNSを延々と見てしまう現象に似ているためです。 M2 (意味的品質):「すごい!」「今日だけ!」のような扇情的な言葉や誇張された表現を含む投稿をジャンクデータとしました。 これらのジャンクデータをLLMに継続的に学習させたところ、驚くべき結果が明らかになりました。ジャンクデータに触れ続けたLLMは、そうでないモデルと比べて、推論能力、長文の理解力、安全性(不適切な指示への対応)が著しく低下することが判明しました。例えば、推論タスクのスコアが大幅に落ち込んだり、サイコパシーや自己愛といった「ダークな特性」を示す傾向が強まったりしました。また、ジャンクデータの割合が増えるほど、能力の低下がより顕著になるという「用量反応性」も確認されました。 エラーの原因を詳しく調べた結果、LLMが思考プロセスを途中で省略してしまう「思考スキップ」が、能力低下の主要な要因であることが分かりました。さらに懸念されるのは、一度ジャンクデータに汚染されて能力が低下したLLMは、その後、高品質なデータを使った追加学習やファインチューニングを行っても、元の能力レベルまで完全に回復することは難しいという点です。これは、モデル内部の表現に根本的な変化が生じてしまうことを示唆しています。 この研究は、LLMの学習データとしてインターネット上の情報を用いる際、そのデータ品質の重要性を改めて浮き彫りにしました。私たちがAIの信頼性や性能を維持していくためには、継続的な学習におけるデータの選定と品質管理が極めて重要であり、まるで人間の健康診断のように、展開されているLLMに対しても定期的な「認知的健康診断」が必要であると結論付けています。 引用元: https://llm-brain-rot.github.io/ 「ひかれるという感情が薄い」→北海道の車道で目撃……車をまったく気にしない野生動物 釧路では「まれによくある」光景に5.2万“いいね” 北海道釧路で、車道をまったく気にせず堂々と歩く野生動物の姿がSNSで5.2万いいねを集め話題になっています。この地域では動物たちが車に「ひかれる」という感情が薄く、このような光景は「まれによくある」とのこと。私たちエンジニアも、時にはコードから離れて、自然の中での面白い出来事に目を向け、クスッと笑ってリ

  4. 5D AGO

    株式会社ずんだもん技術室AI放送局 podcast 20251021

    youtube版(スライド付き) 関連リンク Build an AI Agent to Analyze IT Tickets with NVIDIA Nemotron 現代のIT運用では、インシデントや問い合わせから生まれる膨大なチケットデータがあります。しかし、これらのデータは単なる記録であり、そこからシステム全体の課題やチームのパフォーマンスに関する深い洞察を得るのは困難です。多くの場合、手作業での分析や複雑なクエリが必要となり、時間と労力がかかります。 NVIDIAのIT部門が開発したAIエージェント「ITelligence」は、この課題を解決するために作られました。このシステムは、NVIDIA Nemotronという先進的なAIモデルの推論能力と、データ間の関係性を明確にするグラフデータベースを組み合わせています。これにより、LLM(大規模言語モデル)で非構造化データから文脈を読み解き、グラフクエリでチケット間の関係性、異常、パターンを効率的に見つけ出すことを目指します。 AIエージェントの構築は、以下の主要なステップで行われます。 データ取り込みとグラフモデリング: ITSM(ITサービス管理)プラットフォームなどからチケットデータを収集し、ユーザー、インシデント、デバイスといった情報を「ノード」、関連性を「エッジ」としてグラフデータベースに格納。複雑なデータ間のつながりを可視化し、効率的なクエリを可能にします。 文脈のエンリッチメント: チケットに「新入社員の有無」「デバイスの種類」といった補助情報を追加し、分析の分類能力を高めます。 根本原因分析(RCA): LLM(例: Llama 3)を使って、チケットの記述や解決メモから、具体的な根本原因キーワードを自動抽出。従来のカテゴリー分類では捉えきれない詳細な問題点を特定できます。 洞察の生成: LLMが、解決時間(MTTR)、顧客満足度(CSAT)、頻繁に発生する根本原因、新入社員のオンボーディング時の課題など、組織やチームレベルでのパターンや洞察を自動生成します。 アラートと自動配信: KPIトレンドを監視し、異常があれば担当者に自動でアラートを送信。また、AIが生成した要約レポートを定期的に自動配信し、部門ごとの具体的な情報共有と意思決定をサポートします。 インターフェースには、複雑な質問に対応できるインタラクティブなダッシュボード(Grafanaなど)が採用されました。RAG(検索拡張生成)ベースのチャットボットではなくダッシュボードを選んだのは、チャットボットではユーザーの複雑な意図を正確に解釈し、常に適切なクエリを生成するのが難しい場合があるためです。代わりに、ダッシュボードのフィルタリング結果と連携するカスタムの要約サービスAPIを介して、LLMがオンデマンドで要約を生成。これにより、手動でのチケットレビューを省き、共通の問題点や推奨事項を迅速に把握できるようになります。 このAIエージェントは、非構造化されたITチケットデータを実用的な洞察に変え、IT運用の意思決定と効率化を強力に支援します。 引用元: https://developer.nvidia.com/blog/build-an-ai-agent-to-analyze-it-tickets-with-nvidia-nemotron/ Scaling Large MoE Models with Wide Expert Parallelism on NVL72 Rack Scale Systems 最近のAI、特に大規模言語モデル(LLM)はますます巨大化しており、その中でも「MoE(Mixture-of-Experts)」という特殊な構造を持つモデルが注目されています。MoEモデルは、トークンごとに一部の「エキスパート」(専門家)だけを動かすことで、従来のモデルよりも効率的に計算できるのが特徴です。しかし、このMoEモデルを非常に大規模な環境で効率よく動かすには、いくつかの課題があります。 この記事では、NVIDIAが提案する「Wide Expert Parallelism(Wide-EP)」という技術と、その基盤となる「GB200 NVL72」というシステムが、これらの課題をどのように解決し、大規模MoEモデルの推論を高速化・効率化するのかを解説しています。 MoEモデルスケーリングの課題とWide-EPによる解決策 メモリと計算のボトルネック: MoEモデルでは、必要なエキスパートの「重み」(モデルの知識データ)をGPUに読み込む作業が頻繁に発生し、これが処理の遅延につながります。Wide-EPでは、エキスパートの処理を多数のGPUに分散させることで、1つのGPUが持つエキスパートの数を減らし、重みデータの読み込みを効率化します。これにより、GPUがより集中して計算に専念できるようになります。 GPU間の通信オーバーヘッド: エキスパートが複数のGPUに分散しているため、計算結果を集約する際に大量のデータ通信が必要になります。この通信が遅れると、全体の処理速度が低下します。GB200 NVL72システムは、超高速なNVLinkという技術でGPU間を接続しており、最大130TB/秒という圧倒的な帯域幅で、この通信のボトルネックを解消します。また、NVIDIAのNCCLライブラリが最適化された通信カーネルを提供し、効率的なデータ交換を可能にします。 負荷の偏り(ロードバランシング): 特定のエキスパートが頻繁に使われる一方で、使われないエキスパートもあるため、一部のGPUばかりが忙しくなり、他のGPUが遊んでしまうことがあります。Wide-EPの「Expert Parallel Load Balancer (EPLB)」は、利用状況に応じてエキスパートのGPUへの割り当てをリアルタイムまたは事前に調整し、すべてのGPUが均等に働くように負荷を分散します。 これらの技術はNVIDIAのTensorRT-LLMに組み込まれており、さらに「NVIDIA Dynamo」と組み合わせることで、大規模なMoEモデル推論のオーケストレーション(全体の管理)と実行を最適化します。 性能と経済性へのインパクト Wide-EPをGB200 NVL72システムで活用することで、GPUあたりの処理能力が最大1.8倍向上することが確認されています。これは、モデルの推論コスト(TCO)を大幅に削減し、より多くのユーザーに対して高速なAIサービスを提供できることを意味します。新人エンジニアの皆さんにとっては、将来、巨大なAIモデルを扱う際に、このような分散処理と最適化技術が非常に重要になるということを理解する上で、この記事は良い学びになるでしょう。 引用元: https://developer.nvidia.com/blog/scaling-large-moe-models-with-wide-expert-parallelism-on-nvl72-rack-scale-systems/ AWSで障害–PerplexityやSlackなどグローバルサービスに支障 新人エンジニアの皆さん、今日の重要なITニュースについてお話しします。私たちが毎日使っているインターネットサービスは、巨大な「クラウドサービス」という基盤の上で動いていることが多いのですが、その代表格であるAmazonの「Amazon Web Services(AWS)」で、世界的な障害が発生しました。 AWSは、世界中の企業がウェブサイト、アプリケーション、データ保存、そして最近ではAIの複雑な計算処理など、様々なITシステムを動かすために利用している巨大なデータセンターの集合体です。今回の障害は、2025年10月20日17時30分頃、主にアメリカ東部の「US-EAST-1」というリージョン(物理的に離れた地域に設置された、独立したデータセンターのグループ)で発生しました。このUS-EAST-1は、AWSの中でも特に多くのサービスが利用する中心的なリージョンの一つであるため、ここで問題が起きると影響が非常に広範囲に及ぶのが特徴です。 具体的に影響を受けたサービスとしては、最新のAIチャットサービスである「Perplexity」や、多くの企業で使われているビジネスチャットツールの「Slack」の一部機能(例えば、音声会議機能のハドルなど)、ゲームプラットフォームの「EpicGames」などが挙げられています。これらのサービスが一時的に利用できなくなったり、動作が遅くなったりする事態が発生しました。この影響はアメリカだけでなく、日本のユーザーにも波及し、SNS上では「仕事で使っているSlackのハドルが使えなくて困った」「Perplexityで調べ物ができない」といった声が多数上がりました。 PerplexityのCEO、アラヴィンド・スリニヴァス氏も、自身のX(旧Twitter)アカウントで「Perplexityが現在ダウンしており、原因はAWS側の問題だ」とコメントし、復旧に向けて対応中であることを明らかにしました。AWS側も、ステータスページで問題が発生していることを公表し、原因の特定と復旧作業を進めている状況です。 今回のAWS障害は、普段当たり前のように利用しているインターネットサービスが、いかに一つの巨大なインフラに依存しているか、そして、そのインフラで

  5. 6D AGO

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251020

    関連リンク The Case for the Return of Fine-Tuning AIの世界では、一度は主流から外れていた「ファインチューニング」という技術が、再び大きな注目を集めています。これは、既存の大規模言語モデル(LLM)を、より特定の用途やデータに合わせて微調整する技術のことです。 かつて、Transformerモデルの登場により、ファインチューニングは効率的なモデル開発手法でした。しかし、LLMが非常に巨大化すると、モデル全体を再学習する「フルファインチューニング」は莫大な計算コストと時間が必要となり、実用的ではなくなりました。その代わりに、開発者はモデルへの指示を工夫する「プロンプトエンジニアリング」や、外部情報を参照させる「RAG(Retrieval-Augmented Generation)」を活用するようになりました。これらはモデルを再学習する必要がなく、手軽に良い結果を出せたからです。 ところが、2021年にMicrosoft Researchが発表した「LoRA(Low-Rank Adaptation)」という新しい手法が状況を変えました。LoRAは、モデルのほとんどの部分を固定し、ごく一部の小さな追加部分だけを学習することで、コストを大幅に削減しつつ、フルファインチューニングと同等の性能を引き出すことを可能にしました。Hugging FaceのPEFTライブラリもLoRAの実装を容易にし、ファインチューニングのハードルを大きく下げました。 現在、ファインチューニングが再び重要視されている主な理由は以下の通りです。 技術環境の整備: GPUを利用できるクラウドサービスが増え、LoRAのような効率的な手法が手軽に実行できるようになりました。 モデルの進化安定: LLMの進化が「革命的」から「進化的」になり、ファインチューニングしたモデルが無駄になりにくくなりました。 オープンソース化: MistralやLlamaのようなオープンなLLMが増え、企業が自社のニーズに合わせてモデルをカスタマイズしやすくなりました。 プロンプトの限界: プロンプトやRAGだけでは対応しきれない、企業独自の専門用語や話し方、複雑なルールなど、よりきめ細かなカスタマイズが求められるようになったからです。 Thinking Machines Labsの「Tinker」のような新しいプラットフォームは、ファインチューニングをさらに進化させています。例えば、LoRAの適用範囲を広げたり、学習率やバッチサイズといったパラメータを工夫したりすることで、より高性能なモデルを効率的に作れるよう提唱されています。現代のファインチューニングは、一つの大きなモデルを調整するだけでなく、ベースモデルと複数のLoRAアダプターを組み合わせて、用途に応じて柔軟に切り替える「モジュール式」へと進化しています。 モデルの評価にはまだ課題が残るものの、今後は運用中にフィードバックを受けて自動で学習し続ける「継続的学習」のような仕組みも期待されています。 ファインチューニングは、単なる技術的な調整を超え、企業がAIを自社のビジネスに合わせて深くカスタマイズし、独自の強みを生み出すための「戦略的な手段」として、その価値を高めています。AIをよりパーソナルに、より専門的に活用する未来において、この技術が果たす役割はますます大きくなるでしょう。 引用元: https://welovesota.com/article/the-case-for-the-return-of-fine-tuning LLM回答精度検証でテストデータやテストケースケースをAIに作ってもらう この記事では、LLM(大規模言語モデル)の回答精度を検証するために必要な「テストデータ」や「テストケース」を、AIと協力して効率よく作成する方法が解説されています。新人エンジニアの皆さんも、AIを上手に活用して開発作業を効率化するヒントが得られるでしょう。 まず、LLMを使った情報検索システム(例:Slackのメッセージ検索)の検証に使う「ダミーデータ」作りからスタートです。筆者は、実際のメッセージのJSONデータをAIに見本として渡し、「スレッド内のメッセージとスレッド外のメッセージを半々で100件作ってほしい」「改行や文字数のばらつきも入れてほしい」といった具体的な条件を細かく指定しました。AIはこれらの指示に応え、人間と対話しながら、より本物に近い、多様なメッセージデータを作り上げていきました。 次に、この作成したダミーデータを異なる形式に変換する作業もAIに依頼しました。例えば、読みやすいPretty JSON形式を、プログラムで扱いやすいOne-line JSONやCSV形式に変換したい場合です。筆者はAIに「JSON部分を1行にするスクリプトを作って」と指示したり、「CSV形式ならどんな形が良いか」と相談したりしました。AIは複数の変換案を提示し、筆者のフィードバック(例:「.で階層構造を表現する」)を受けて、最終的にPythonスクリプトを生成。このスクリプトを使うことで、適切な形式のデータが自動的に準備できました。 さらに、LLMの回答が正しいかを評価するための「テストケース」もAIと共に作成しました。当初、AIの提案は単純な「番号指定」のケースに偏っていました。そこで筆者は、AIに自身の提案を見直させる「critical-think」という機能を使ってみました。するとAIは、より多様な視点からのテストが必要だと自己認識し、「BigQueryについて話しているメッセージ」のような「内容ベース」の指定や、「U089VWX0YZAさんが投稿したメッセージ」のような「ユーザー名ベース」、さらには複数の条件を組み合わせた「複合条件」など、多角的なテストケースを再提案。スレッドの返信メッセージに関するテストも要望に応じて増やし、最終的にコメント付きでテスト設定ファイルに追記するまでをAIに任せました。 このように、LLMの検証に必要なテストデータやテストケースの作成において、AIは単に指示を実行するだけでなく、課題を認識し、より良い解決策を提案する強力なパートナーとなることが示されています。AIとの効果的な「壁打ち」を通じて、開発プロセス、特に検証フェーズの効率を大幅に向上させることができるという、現代のエンジニアリングにおいて重要な知見が得られるでしょう。 引用元: https://blog.shibayu36.org/entry/2025/10/15/173000 RAGでのデータ整形(改行・インデント)がLLMの回答精度に与える影響を検証した 今回の記事は、AIシステムの一つであるRAG(Retrieval Augmented Generation)において、大規模言語モデル(LLM)に渡すデータの「整形方法」(例えば、JSONデータを読みやすくするために改行やインデントを入れるかどうか)が、LLMの回答精度にどう影響するのかを検証した興味深いレポートです。 筆者は自身のプロジェクトで、トークン消費を抑えるためにデータを1行のJSON形式でLLMに渡していましたが、回答精度が不安定なことがあり、整形の影響について疑問を持っていました。そこで、この疑問を解決するために実験を行ったのです。 検証では、「oneline JSON(改行なしのJSON)」「pretty JSON(改行・インデントありのJSON)」「CSV」の3種類のデータ形式を用意し、最新のLLM(gpt-5, claude-sonnet-4-5など)と少し前のモデル(gpt-4.1-mini, claude-3-7-sonnetなど)を使って、特定の情報を抽出し、SlackのURLを生成できるかを試しました。 実験の結果、次の3つの重要な発見がありました。 データ整形は精度に大きな影響を与えない: データを見やすくするために改行やインデントを入れても、LLMの回答精度は特に向上しないことが分かりました。つまり、人間が読みやすい形式が、必ずしもLLMにとっても良いとは限らないということです。 LLMの性能向上で差がなくなる: 最新の高性能なLLM(特にgpt-5)では、どのデータ形式を使ってもほぼ100%の正答率を叩き出し、整形による精度の差はほとんどありませんでした。これは、LLMが賢くなればなるほど、データの見た目はそれほど気にしなくてよくなることを示唆しています。 トークン効率が重要: 精度に大きな差がないのであれば、RAGにおいてはLLMへの入力に使う「トークン数」を最も少なくできるフォーマットを選ぶのが賢い選択と言えます。トークン数が少なければ、それだけ処理コストも下がり、効率的です。今回の検証では、CSV形式が最もトークン消費が少なかったため、コスト面で有利である可能性が示唆されました。 この検証から、新人エンジニアの皆さんは、RAGシステムを設計する際に、データの見た目を整えることよりも、LLMの性能が十分高ければトークンコストを意

  6. 私立ずんだもん女学園放送部 podcast 20251017

    OCT 16

    私立ずんだもん女学園放送部 podcast 20251017

    youtube版(スライド付き) 関連リンク Cognition Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval このブログ記事は、AIコーディングエージェントの「速さ」と「賢さ」という、これまでの課題を解決する新技術「SWE-grep」と「SWE-grep-mini」を紹介しています。これは、まるで人間のようにコードベースを理解・探索し、必要な情報を素早く見つけ出すためのAIモデルです。 これまでのAIコーディングエージェントは、複雑なタスクは得意でも、コード検索に時間がかかりすぎて開発者の作業を中断させてしまうという問題がありました。特に、AIエージェントが最初に情報を探し出す「文脈取得」の段階で、作業時間の60%以上を費やすこともあったそうです。 文脈取得の方法には主に2つありました。 埋め込み検索(RAG): 事前の準備は速いものの、複雑なコードのつながりを追うような検索では不正確になる可能性がありました。 エージェントによる検索: 人間のようにCLIツール(コマンドラインツール)を使ってコードを探索するため柔軟ですが、何度もAIとのやり取りが発生し、非常に時間がかかりました。また、関係ない情報まで大量に読み込んでしまい、AIの判断を鈍らせる「コンテキスト汚染」という問題も抱えていました。 そこで登場したのが、今回発表された「SWE-grep」と「SWE-grep-mini」です。これらのモデルは、従来の最先端のAIコーディングモデルと同等の情報検索能力を持ちながら、なんと10倍も速く結果を返します。これにより、AIがコードを理解するためにかかる時間が大幅に短縮され、開発者はWindsurfというツールで「Fast Context(高速な文脈取得)」サブエージェントとして利用できるようになります。デモプレイグラウンドでもその速さを体験できます。 SWE-grepがこれほど高速な理由は以下の通りです。 並列ツール呼び出し: 複数の検索コマンド(grep、ファイル読み込みなど)を同時に実行することで、コードベースの様々な部分を効率よく探索します。従来のAIが1つずつ検索していたのを、同時に8つまで実行できるように訓練されています。 最適化されたツールと高速な推論: 検索ツール自体も高速化され、さらにCerebras社と協力してAIモデルの推論(思考)速度も大幅に向上させています。 これらのモデルは、強化学習(RL: Reinforcement Learning)というAIの訓練方法を使って開発されました。特に、報酬関数では、関連性の高い情報を正確に取得することを重視し、「コンテキスト汚染」を避けるように学習させています。 Cognition社は、この「Fast Context」技術を「Fast Agents」という、より広範な目標の第一歩と位置づけています。最終目標は、開発者が集中して作業できる「フロー状態」を維持し、ソフトウェア開発の生産性を最大限に高めることです。AIエージェントの応答速度が、開発者の作業効率に大きく影響すると考えており、わずか5秒という短い「フローウィンドウ」を目標に、AIの賢さと速さの両方を追求しています。 引用元: https://cognition.ai/blog/swe-grep AIエージェントを支える技術: コンテキストエンジニアリングの現在地 AIエージェントは、まるで人間のようにタスクをこなすための技術ですが、その性能を最大限に引き出すためには「コンテキストエンジニアリング」という技術が非常に重要です。新人エンジニアの皆さんも、この考え方を理解することで、AI開発の奥深さに触れることができるでしょう。 コンテキストエンジニアリングとは? これは、大規模言語モデル(LLM)に与える「情報(コンテキスト)」をどう効率的に扱うかを考える技術です。特定のタスクに特化した指示の出し方であるプロンプトエンジニアリングに対し、コンテキストエンジニアリングは、AIが複数回の推論を伴う複雑なタスクをこなすための情報管理全般を指します。例えば、外部の情報を引っ張ってくるRAG(Retrieval Augmented Generation)もこの一部です。 なぜコンテキストエンジニアリングが重要なの? LLMが一度に扱える情報量には限りがあります。情報が多すぎると、必要な情報が埋もれてしまう「Context Rot」という現象が起こり、AIは「本当に必要な情報だけを、適切な量で与える」ことが不可欠であることを示しています。この効率的な情報の与え方が、AIの出力品質を大きく左右するのです。 コンテキストエンジニアリングの3つの手法 情報の取得と生成 (Context Retrieval & Generation) AIがタスクを進める上で、必要な情報をリアルタイムで探し出し、準備する技術です。外部データベースからの情報取得や、ユーザーの質問をより適切な形に書き換えるなどが該当します。 情報の加工 (Context Processing) 取得した情報が使いにくい場合があるため、LLMが理解しやすいように加工します。不要な情報をフィルタリングしたり、長文を要約・圧縮したりします。また、AIに役割や振る舞いを教える「システムプロンプト」の設計や、少数の具体例(Few-shotプロンプティング)を効率的に提示することも含まれます。AIの処理を高速化する「KVキャッシュ」の最適化も重要です。 情報の管理 (Context Management) AIが過去に得た知識や経験を記憶し、次に活かすための技術です。一時的なメモ(Scratchpad)のような短期間の記憶と、永続的に保存される長期的な記憶があります。AIがタスクで失敗した際、その原因を記憶しておくことで、同じ失敗を繰り返さないようにするといった活用も可能です。複数のAIが協力する「マルチエージェント」の場合は、エージェント間で情報が共有され、整合性が保たれるように管理することが非常に重要になります。 コンテキストエンジニアリングは、AIエージェントをより賢く、より効率的に動かすための、まさに土台となる技術です。この知識を身につけることで、皆さんのAI開発スキルは格段に向上するでしょう。 引用元: https://tech.algomatic.jp/entry/2025/10/15/172110 【コピペOK】AIエージェントで良いコードを書く!誰でも使える品質向上ルールの設定方法 AIエージェントを使った開発はとても便利ですが、「動くコードは作ってくれるけど、品質は大丈夫かな?」と不安に感じることはありませんか?この記事は、AIエージェントに「良いコード」の基準を教え込み、コード品質を向上させるための「共通ルールファイル」の活用法を紹介しています。 なぜAIにルールが必要かというと、プログラミングにおける「良いコード」とは、ただ動くだけでなく、読みやすさ、修正のしやすさ、セキュリティ、処理速度など、さまざまな品質が求められる奥深いものだからです。AIエージェントは、私たちが何も指示しなければ、プロジェクトの文脈(例えば、試作品なのか、お客様に納品する本番用なのか)を自ら判断できないため、「とりあえず動くコード」を優先しがちです。だからこそ、私たちが「ルール」として明確な品質基準を教えてあげる必要があります。 「共通ルールファイル」は、AIに対する開発の指針をまとめたドキュメントで、まるで優秀な先輩エンジニアが隣でアドバイスしてくれるように、AIが常に品質を意識してコードを生成するようになります。このファイルは一度設定すれば、新しいプロジェクトごとに設定し直す必要がなく、多くのプロジェクトで共通の品質基準を保ちながら効率的に開発を進められるのが大きな利点です。 設定方法は非常に簡単で、Claude Code、Codex、Cursorといった主要なAIエージェントの場合、指定された場所にルールファイルを作成し、記事で提供されているルールをコピー&ペーストするだけで完了します。 新人エンジニアの皆さんが特に意識すべき「良いコード」のポイントとして、記事では以下の8つの観点が紹介されており、これらをAIが考慮するように設定できることで、皆さんの学習にも繋がります。 エラーハンドリング: プログラムで問題が起きたときに、適切に対処し、ユーザーに状況を伝える。 セキュリティ: パスワードの隠蔽や悪意ある入力のブロックなど、プログラムの安全性を確保する。 保守性: 後から機能を追加したり、バグを修正したりしやすいように、整理されたコードを書く。 テスタビリティ: プログラムが正しく動くか確認(テスト)しやすい作りにする。

  7. OCT 15

    株式会社ずんだもん技術室AI放送局 podcast 20251016

    youtube版(スライド付き) 関連リンク Rails: Active Agent gemでRailsに適したAI機能の設計を考察する(翻訳)|TechRacho by BPS株式会社 この記事は、RailsアプリケーションにAI機能を「Railsらしい」やり方で統合するための「Active Agent」gemについて、その設計思想や具体的な使い方、そして今後の可能性を、日本の新人エンジニアにも分かりやすく解説しています。 Active Agentは、Railsの「規約より設定(Convention over Configuration)」の原則を取り入れ、「Agent」という新しい抽象化を導入します。これは、Railsのコントローラやメーラーのように、AIによるテキスト生成などのロジックをカプセル化(ひとまとめにする)するものです。例えば、簡単なジョークを生成するエージェントも、Rails開発者には馴染み深いクラス定義とメソッド呼び出しで実現できます。AIへの指示文(プロンプト)もAction Viewのテンプレートとして管理できるため、コードとプロンプトを分離でき、変更や管理がしやすくなります。生成処理は、即座に結果を得る同期モードと、バックグラウンドで実行する非同期モードを選べます。 実際のプロジェクトでの活用例として、「オンデマンド翻訳機能」が紹介されています。翻訳エージェントが生成した訳文をデータベースに保存する際、エージェント内で直接データベースを更新するか、それともモデルに任せるかといった設計上の課題を議論し、より「Railsらしい」解決策としてモデル側にロジックを委譲する改善案を提示しています。 AI機能のテストについても触れています。外部のAIサービスに依存しないテストを実現するため、記事ではFakeLLMProviderという偽のAIサービスアダプタを自作する方法を紹介。これにより、本物のAPIを叩かずにAIの応答をシミュレートでき、テストの安定性と速度を向上させることができます。 もう一つの事例は、カンファレンスの「プロポーザルをAIがレビューする機能」です。このエージェントは、発表内容を評価するだけでなく、AIエージェントが過去の発表データベースを検索する「ツール機能」と連携することで、より的確な評価を可能にします。AIからの回答も、JSONのような構造化された形式で受け取れるよう設定でき、プログラムでのデータ処理が容易になります。 記事の後半では、AIアプリケーションの進化に必要な機能として、以下の点が挙げられています。 AI利用のクレジット管理とトラッキング 動的なプロンプト(状況に応じてAIへの指示文を変更) プロンプトインジェクション対策などのセキュリティ機能 複数のAIエージェントが連携する「エージェント型ワークフロー」 過去の会話を記憶する「LLMの記憶容量」 外部情報を活用するRAG(検索拡張生成)のような「コンテキストエンジニアリング」 Active Agentは、これらの複雑な要求にも対応できる拡張性を持っており、Rails開発者が愛するRailsフレームワークで、自然かつ効果的にAI機能を組み込めるようになることへの期待が示されています。 引用元: https://techracho.bpsinc.jp/hachi8833/2025_10_14/153720 ファインチューニングは死んだのか?Googleとスタンフォードの論文がAI学習の新しいパラダイムを提示 現在のAI(大規模言語モデルエージェント)は、一度失敗した経験から学ぶのが苦手で、同じ間違いを繰り返してしまうという課題を抱えています。まるで、毎回初めてのタスクとして取り組んでいるかのようです。しかし、Googleとスタンフォード大学の最新の研究が、この問題を解決し、AIがより賢く成長するための新しい方法を提案しています。 Googleが開発した「ReasoningBank(リーズニングバンク)」は、AIがタスクを実行した際の成功や失敗の経験を「記憶」として保存し、後で活用するシステムです。人間が日記をつけて過去の出来事を振り返るように、AIの「思考の過程(推論記録)」を構造化して記憶します。そして、新しいタスクに直面したとき、この記憶の中から似たような経験を探し出し、それを参考にして意思決定を行うのです。このシステムを導入したAIは、タスクの成功率が向上し、問題を解決するまでのステップ数も大幅に削減されました。失敗からも学ぶことで、AIは着実に経験を積んで賢くなっていきます。 一方、スタンフォード大学の「ACE(Agentic Context Engineering)」は、AIへの指示文(プロンプト)自体をAIが自律的に改善・進化させていくアプローチです。ACEは「タスクを実行するAI」「実行結果を評価するAI」「評価に基づいて指示文を更新するAI」という3つの役割を持つAIを組み合わせます。タスクの結果を見て、より効果的な指示文になるように、少しずつ改善を加えていくのです。この方法により、AIは状況に適応するまでの時間を大幅に短縮し、処理コストも削減できることが示されました。 これらの研究が示す共通の画期的な点は、AIの「ファインチューニング」と呼ばれる、AIモデルそのものを細かく調整する作業なしに、AIが学習し、性能を向上させられることです。ReasoningBankはAIに外部の「記憶」を与え、ACEはAIの「指示の仕方」を内部的に最適化します。 これにより、AIは単なる計算ツールではなく、まるで人間のように「経験を積みながら自分で学習し、成長していく」新しいフェーズに入りつつあります。AIが「どうすればもっとうまく学習できるか」を自ら学び始める、そんな「記憶を持つエージェント」の時代が到来するかもしれません。これは、AI開発の未来にとって非常に重要な一歩となるでしょう。 引用元: https://note.com/trans_n_ai/n/n92f8092bff4c Introducing Claude Haiku 4.5 Anthropicから、最新の小型AIモデル「Claude Haiku 4.5」がリリースされました!日本の新人エンジニアの皆さんにとって、これはAI開発の現場で「速くて賢いAIを、もっと手軽に使えるようになる」という、とても嬉しいニュースです。 このHaiku 4.5の最大のポイントは、「高性能なのに、ものすごく速くて、しかも安く使える」という点です。なんと、たった5ヶ月前に最先端だった「Claude Sonnet 4」というモデルと比べて、ほぼ同等のコーディング性能を持ちながら、コストは3分の1、速度は2倍以上も向上しています。つまり、以前なら高価で時間のかかったAIの処理が、これからはもっと気軽に試せるようになるわけです。 例えば、AIにリアルタイムでチャットアシスタントをさせたり、お客様対応をさせたり、あるいはプログラミングのペアを組ませるような、応答速度が重要な場面でHaiku 4.5は大活躍します。特に、複数のAIエージェントを使った複雑なプロジェクトや、手早く試作を作りたいラピッドプロトタイピングなど、コーディング作業全般で、これまで以上にサクサクと開発を進められるようになるでしょう。 Anthropicには、現在世界最高のコーディングモデルとされる「Claude Sonnet 4.5」もあります。Haiku 4.5はSonnet 4.5ほどの「究極の知性」は追求していませんが、それに匹敵する性能を「圧倒的なコスト効率」で提供します。状況に応じて、Sonnet 4.5で複雑な問題を分解し、細分化されたタスクを複数のHaiku 4.5に並行して処理させる、といった賢い使い方もできるようになります。 開発者の皆さんは、Claude APIを通じて「claude-haiku-4-5」としてすぐに利用を開始できます。料金も非常に経済的で、入力100万トークンあたり1ドル、出力100万トークンあたり5ドルという設定です。Amazon BedrockやGoogle Cloud Vertex AIでも利用可能なので、普段使っている環境からアクセスしやすいのも魅力です。 安全性にもしっかり配慮されており、Haiku 4.5はこれまでのモデルと比べて不適切な振る舞いをする割合が大幅に低減されています。これは、AIを安心して活用するために非常に重要な点ですね。 Haiku 4.5の登場は、AI開発のハードルをさらに下げ、より多くのアイデアを迅速に形にできる可能性を広げてくれます。新人エンジニアの皆さん、ぜひこの新しい強力なツールを使いこなして、これからのAI開発を楽しんでいきましょう! 引用元: https://www.anthropic.com/news/claude-haiku-4-5 『ジブリ風』と言われるAI生成画像、使わない層はどう思っているのか「この絵柄はもはや『OpenAI風』という印象」「この色ホント苦手」 「ジブリ風」と称される特定のAI生成画像がSNSで話題です。多くのユーザーはこれを「OpenAI風」と認識し、本来

  8. OCT 14

    株式会社ずんだもん技術室AI放送局 podcast 20251015

    youtube版(スライド付き) 関連リンク Make agents a reality with Amazon Bedrock AgentCore: Now generally available Amazon Web Services AWSから、AIエージェントを開発し、実際のビジネスで活用するための新しいプラットフォーム「Amazon Bedrock AgentCore」が一般提供開始されました。これは、これまで試作段階にとどまりがちだったAIエージェントを、安全性、信頼性、スケーラビリティを確保しながら、本格的なサービスとして運用するための基盤となるものです。 AIエージェントとは、まるで人間のアシスタントのように、自律的に考え、タスクを遂行するプログラムのことです。例えば、ユーザーの質問に答えたり、情報を収集したり、複数のシステムを連携させて複雑な業務を自動化したりできます。しかし、これを企業レベルで安全かつ効率的に運用するには、多くの技術的な課題がありました。AgentCoreは、そうした課題を解決し、開発者がエージェントを素早く本番環境に導入できるように設計されています。 AgentCoreの主な特徴は以下の通りです。 柔軟な開発: 開発者は、Amazon Bedrockで提供されるAIモデルだけでなく、OpenAIやGoogle Geminiなど外部のモデル、そしてLangChainやCrewAIといったお好みの開発フレームワークを使って、自由にエージェントを構築できます。 豊富なツール連携: エージェントがコードを安全に実行できる「Code Interpreter」や、ウェブサイトを操作できる「Browser」機能が組み込まれています。また、既存の社内システムやAPIをエージェントから簡単に呼び出せるようにする「Gateway」機能もあり、エージェントはより多くのタスクを実行できるようになります。 賢い記憶力: 過去の会話や操作履歴を覚え、文脈を理解しながら対応する「インテリジェントメモリ」機能により、エージェントはより賢く、パーソナルな体験を提供できます。 運用と監視: エージェントの動作を詳細に監視し、問題が発生した場合に素早く原因を特定できる機能(Observability)が提供されます。また、予測不能な負荷にも自動で対応し、長時間のタスクでも安定して稼働できる信頼性の高い実行環境(Runtime)も備わっています。 高いセキュリティ: 高度なセキュリティ機能が組み込まれており、機密データを安全に扱いながら、企業システムにアクセスできます。 すでに、Amazon社内の製造プロセス自動化、医療分野での承認審査効率化、通信大手エリクソンやソニーグループでのAI活用など、様々な業界でAgentCoreが活用され、大きな成果を上げています。 AgentCoreは東京リージョンを含む世界9つのAWSリージョンで利用可能なので、日本のエンジニアの皆さんも、これらの強力な機能を使って、アイデアを素早く形にし、AIエージェントの可能性をビジネスに活かしていくことができます。 引用元: https://aws.amazon.com/blogs/machine-learning/amazon-bedrock-agentcore-is-now-generally-available/ Securing your agents with authentication and authorization AIエージェントは、チャットだけでなく、ファイル操作やメッセージ送信、外部ツールの利用といった「行動」ができる点が大きな特徴です。そのため、従来のAIアプリケーションよりもセキュリティ対策が重要になります。特に「認証(Authentication)」と「認可(Authorization)」は、エージェントを安全に運用するために欠かせない要素です。 認証(AuthN)と認可(AuthZ)の基本 認証とは「あなたが誰であるか」を確認するプロセスです。例として、システムにログインする際にユーザー名とパスワードで本人確認をするのが認証です。一方、認可とは「認証されたあなたが何ができるか」を判断し、アクセス権限を制御するプロセスです。この二つは合わせて「認証認可(Auth)」と呼ばれ、あらゆるアプリケーションで重要ですが、AIエージェントには特有の課題があります。 AIエージェントが従来のアプリケーションと違う点 多くのサービスへのアクセス: エージェントは、従来のアプリケーションよりもはるかに多くの異なるサービスやツール(例:メール、カレンダー、データベースなど)にアクセスする必要があります。 動的に変化するアクセス要件: エージェントの行動は、その時々の状況によって必要な権限が大きく変わるため、柔軟なアクセス制御が必要です。 監査の複雑さ: 多くのサービスをまたいで行動するため、エージェントが行った操作の記録(監査ログ)があちこちに分散し、全体の動きを追跡・確認するのが難しくなります。 これらの課題に対応するため、将来的にはエージェントの認証認可を一元的に管理する新しいシステムが必要になると考えられています。しかし、現在の技術でもエージェントのセキュリティは確保できます。 現在のAIエージェントの認証認可 エージェントも基本的にはリソースにアクセスするソフトウェアであるため、既存の認証認可技術である「OAuth 2.0」や「OIDC」といった業界標準のフレームワークを効果的に利用できます。エージェントのアクセスパターンは大きく二つに分けられます。 委任アクセス (Delegated Access): エージェントがユーザーの「代理」としてリソースにアクセスする場合です。例えば、メールアシスタントがユーザーの許可を得てメールボックスにアクセスし、メールを処理するようなケースです。 この場合、「Auth Code Flow」と「OBO (On-Behalf-Of) Token Flow」といったOAuth 2.0のフローが主に使われます。 直接アクセス (Direct Access): エージェントが人間の関与なしに、自律的にリソースにアクセスする場合です。例えば、セキュリティエージェントが自動でシステムログを監視し、異常を検知するようなケースです。 この場合、「Client Credentials Flow」というOAuth 2.0のフローが主に使われます。 まとめ AIエージェントの能力が高まり、自律性が増すにつれて、認証認可の重要性はますます高まります。OAuth 2.0などの既存の標準技術を理解し、適切に活用することが、安全なエージェントを開発するための第一歩です。特に「Auth Code Flow」「OBO Token Flow」「Client Credentials Flow」の3つのフローは、多くのエージェントにおけるアクセス制御で役立つでしょう。 引用元: https://blog.langchain.com/agent-authorization-explainer/ StreamingVLM: Real-Time Understanding for Infinite Video Streams 最近注目されている「画像とテキストを同時に理解するAIモデル(VLM)」は、私たちが普段使っているAIアシスタントや、自動運転のような自律的に動くシステムにおいて、動画をリアルタイムで理解するための鍵となります。しかし、現在のVLMには大きな課題がありました。それは、終わりなく続く長い動画ストリームを処理する際に、システムが遅くなったり、メモリを使いすぎたりすることです。 従来のやり方では、動画全体を一度に処理しようとすると、動画が長くなるほど計算量が爆発的に増え(動画の長さの2乗に比例!)、現実的ではありませんでした。また、動画を区切って少しずつ処理する「スライディングウィンドウ方式」という方法もありますが、これだと動画全体の文脈が途切れてしまったり、同じ部分を何度も計算し直すために無駄な処理が多く発生し、結局遅延につながっていました。 このような課題を解決するため、この論文では「StreamingVLM」という新しいモデルを提案しています。StreamingVLMは、無限に続く視覚情報(動画)を、リアルタイムかつ安定して理解できるように設計されています。 彼らのアプローチのポイントはいくつかあります。 まず、AIモデルの学習方法と、実際に動かす推論方法を統一した枠組みで考えることで、より効率的な処理を実現しています。 推論時には、AIが過去の情報を記憶しておくための「KVキャッシュ」という領域をコンパクトに保つ工夫がされています。具体的には、重要な情報(アテンションシンク)を再利用したり、直近の短い動画フレームの情報と、直近の長いテキストの情報をうまく組み合わせたりして、必要な情報だけを効率的に保持します。 このリアルタイム処理能力は、シンプルな「教師ありファインチューニング(SFT)」という学習方法によって実現されています。これは、全体を一度に見るのではなく、短いながらも少しずつ重なる動画の塊(チャンク)を使って学習させることで、非常に長い動画を処理するた

About

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

You Might Also Like