株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20250924

youtube版(スライド付き)

関連リンク

  • Introducing Notion 3.0

Notionが、その歴史上最大の進化となる「Notion 3.0」を発表しました。このアップデートの最大の目玉は、Notion AI Agents(AIエージェント)の導入です。これは単なるAIチャットボットの機能拡張ではなく、Notion内でのあなたの仕事を深く理解し、自律的にアクションを実行できる画期的なツールです。

これまでのNotion AIが特定のページでの簡単な質問応答や編集をサポートしていたのに対し、Notion AI Agentsは人間がNotionでできることの全てを代行できます。具体的には、ドキュメントの作成、データベースの構築、複数のツールを横断した情報検索、さらには複数のステップからなる複雑なワークフローの実行まで、まるでNotionのパワーユーザーが隣にいるかのように、あなたのタスクをこなします。

私たちの日常には「忙しいだけの雑務(Busywork)」が多く、本来集中すべき「人生を豊かにする本質的な仕事(Life’s work)」に時間を割けないことがあります。Notion AI Agentsは、この雑務を大幅に削減し、あなたがより創造的で価値のある仕事に集中できるようサポートします。例えば、「顧客からのフィードバックをSlack、Notion、メールから集約し、実用的なインサイトにまとめて構造化されたデータベースを作成する」といった複雑な指示にも対応し、完了したら通知してくれます。

さらに、このAIエージェントはパーソナライズ可能です。あなた自身の働き方や好みに合わせて、カスタム指示やコンテキストを与えることで、エージェントの振る舞いを細かく設定できます。まるであなた専用の有能なアシスタントのように、あなたのスタイルに合わせて作業を進めてくれるのです。エージェントに名前をつけたり、見た目をカスタマイズしたりする楽しさも提供されます。

そして、近い将来には「Custom Agents(カスタムエージェント)」が登場予定です。これは、特定の専門知識を持つAIエージェントをチーム全体で共有し、自動でタスクを実行させることができる機能です。例えば、日々のユーザーフィードバックの集計、週次プロジェクト更新の投稿、ITリクエストの自動トリアージなど、まるでAIスペシャリストのチームを雇うように、様々な業務を自動化できるようになります。

Notion 3.0は、Notionを単なるドキュメントやデータベース管理ツールから、AIが自律的に動く強力なワークフローハブへと進化させます。これにより、私たちの働き方が大きく変わり、より価値のある仕事に集中できる未来が期待されます。

引用元: https://www.notion.com/blog/introducing-notion-3-0

  • Smol2Operator: Post-Training GUI Agents for Computer Use

Hugging Faceは、コンピューターのGUI(グラフィカルユーザーインターフェース)を自律的に操作できる軽量なAIエージェント「Smol2Operator」の開発について発表しました。このプロジェクトは、既存の画像とテキストを理解できるAIモデル(SmolVLM2-2.2B-Instruct)に、GUI操作スキルをゼロから学習させるための詳細なプロセスを解説しています。

GUIの自動操作はAI分野の大きな挑戦ですが、異なるGUI操作データセット間で操作の表現形式がバラバラである点が大きな課題でした。この問題を解決するため、本プロジェクトでは、モバイルやデスクトップなど様々な環境での操作指示を、統一されたコード形式に変換するデータ処理パイプラインを開発しました。特に、操作の座標を画面サイズに依存しない「正規化座標(0~1の範囲)」で扱うことで、異なる解像度の画像でも一貫して機能するように工夫されています。

学習プロセスは2つのフェーズに分かれています。 フェーズ1(知覚能力の獲得)では、まずAIがGUIのスクリーンショットからボタンやテキストボックスといった要素を正確に「見て、認識し、その場所を特定する」能力を学習させました。最初は全くGUIを認識できなかったモデルが、この段階で大幅な性能向上(特定のベンチマークで41%改善)を見せました。 フェーズ2(推論能力の獲得)では、知覚能力を土台に、AIが「タスクの指示を理解し、その達成のために自律的に考え、複数の操作手順を計画して実行する」能力を学習させました。これにより、より複雑な指示にも対応できるようになり、GUIの操作精度がさらに向上(同じベンチマークで61%に改善)しました。

Hugging Faceは、この「Smol2Operator」の開発で得られた全ての成果をオープンソースとして公開しています。具体的には、学習コード、データ処理ツール、学習に用いたデータセット、そして最終的に訓練されたモデルなどが含まれます。これにより、世界中のエンジニアがこの成果を再現し、さらに発展させることが可能です。

今回の研究は、高品質なデータと段階的な教師あり学習(SFT)によって、小型のAIモデルでもGUI操作という高度な能力を獲得できることを示しました。今後は、強化学習などの最新技術を組み合わせることで、さらに賢く、適応性の高いAIエージェントの開発が期待されています。

引用元: https://huggingface.co/blog/smol2operator

  • Build a Retrieval-Augmented Generation (RAG) Agent with NVIDIA Nemotron

このブログ記事は、NVIDIA Nemotronを活用した「Retrieval-Augmented Generation (RAG) Agent」構築ワークショップを紹介しています。新人エンジニアの皆さんも、最新のAI技術の可能性を理解し、実践的なスキルを身につけましょう。

RAGとAgentic RAGの基本

大規模言語モデル(LLM)は学習データに限定されますが、「RAG」は外部知識ベースから関連情報を検索し、LLMの回答生成能力を向上させる技術です。これにより、LLMはより正確で最新の情報を扱えるようになります。

さらに進化した「Agentic RAG」では、LLMを搭載したAIエージェントが、自律的に意思決定し、動的にツールを使って複雑なタスクを実行します。これは、まるで人間のように「推論(Reasoning)」と「行動(Acting)」を繰り返し、必要な情報を自ら取得して問題解決を図るシステムです。例えば、不明な点があれば知識ベースを検索し、その結果を元に推論を進めます。

ワークショップの概要

このワークショップでは、Agentic RAGの核心をなす原理と、その実装方法を学びます。特にNVIDIAが提供するオープンなLLMファミリー「Nemotron」を使い、AIエージェントの動的な処理を定義する「LangGraph」を用いたシステム構築を体験できます。参加者は、すぐに開発を始められる環境で、自分だけのカスタムAgentic RAGシステムを作成できるようになります。

Agentic RAGの仕組みと構築ステップ

Agentic RAGの中核は「ReActエージェント」アーキテクチャにあります。これは、LLMがユーザーの質問に対し、「考える(推論)」ことと「行動する(ツールを使う)」ことを交互に繰り返し、最適な回答を導き出す仕組みです。知識ベース検索などもツールとして活用し、柔軟な情報取得と処理を実現します。

ワークショップでは、以下の主要ステップでシステムを構築します。

  1. モデル選定: LLM(Nemotron)、埋め込みモデル、リランキングモデルを選びます。
  2. ツール準備: 知識ベース検索用のツール(Retriever tool)を設定します。
  3. データ加工: ドキュメントを読み込み、検索しやすいように「チャンク」に分割します。
  4. ベクトルデータベース構築: チャンクをベクトル埋め込みに変換し、高速検索可能なデータベースに保存します。
  5. 検索と再評価: 関連ドキュメントを検索し、その結果を最適な順序に並べ替える仕組みを構築します。
  6. エージェント設定: LangGraphを用いて、モデルとツールを統合し、エージェントの動的な振る舞いを定義します。

また、AIエージェントに明確な指示を与える「システムプロンプト」の設計が非常に重要です。エージェントの役割、ツール利用の指示、回答の根拠明示、引用方法などを具体的に