株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 私立ずんだもん女学園放送部 podcast 20251031

    22小时前

    私立ずんだもん女学園放送部 podcast 20251031

    youtube版(スライド付き) 関連リンク Introducing Aardvark: OpenAI’s agentic security researcher OpenAIは、GPT-5を搭載した新しいAIエージェント「Aardvark」を発表しました。これは、ソフトウェアのセキュリティ脆弱性を自動で見つけて修正を支援する画期的なツールです。 現代のソフトウェア開発では、毎年何万もの新しい脆弱性が見つかり、開発者は常にその対策に追われています。Aardvarkは、この「防御側」が優位に立てるように設計されました。人間のセキュリティ研究者のようにコードを読み、分析し、テストを行い、ツールを駆使することで、脆弱性を大規模に特定し、対処します。 Aardvarkの主な機能は以下の通りです。 分析: リポジトリ全体のコードを分析し、プロジェクトのセキュリティ目標や設計を理解します。 コミットスキャン: 新しいコードの変更が加えられると、すぐにその変更をスキャンして脆弱性をチェックします。過去の履歴も分析できます。 検証: 見つけた可能性のある脆弱性が実際に悪用できるか、安全な隔離環境(サンドボックス)でテストして確認します。 パッチ提案: 脆弱性が確認されたら、OpenAIのCodexと連携して修正パッチを生成し、人間がレビューしてワンクリックで適用できるように提案します。 Aardvarkは、従来のセキュリティツールとは異なり、AIの推論能力を活用してコードの挙動を深く理解します。GitHubなどの開発ツールや既存のワークフローとスムーズに連携し、開発スピードを落とすことなく、具体的で役立つセキュリティ情報を提供します。セキュリティ問題だけでなく、ロジックのミスやプライバシーに関するバグなども発見できるとのことです。 すでにOpenAI内部や外部パートナーのプロジェクトで数ヶ月間稼働しており、重要な脆弱性を発見し、高い検出率を示しています。特に、オープンソースプロジェクトでは10件の脆弱性がCommon Vulnerabilities and Exposures (CVE) 識別子を取得しました。OpenAIは、一部の非商用オープンソースプロジェクトに対して、無料でスキャンを提供し、オープンソースエコシステムのセキュリティ向上にも貢献していく方針です。 ソフトウェアの脆弱性は、ビジネスや社会のインフラにとって大きなリスクとなります。Aardvarkは、コードが進化するにつれて継続的に保護を提供することで、イノベーションを妨げることなくセキュリティを強化する「防御者優先」の新しいモデルを示しています。現在はプライベートベータ版として一部のパートナーに提供されており、今後さらに広く利用できるようになる予定です。 引用元: https://openai.com/index/introducing-aardvark AI エージェント時代のリスク対策 : 認証・認可をあらためて学ぶ AIエージェントが「目的を与えれば自律的にタスクを完遂する」時代が到来し、セキュリティ、特に「認証」と「認可」の重要性が増しています。AIエージェントがあなたの代理で社内ツールや機密情報を扱うようになるため、悪意ある第三者に利用された際の被害は甚大です。そこで、「誰が」「何を」「どれだけ」実行したかを追跡できる仕組みが不可欠になります。 従来のシステムでは想定されなかったAIエージェント独自のリスクとして「意図しない過剰な権限でツールを操作してしまう可能性(Excessive agency)」があります。これは、AIがユーザーの指示を解釈し、自律的に外部ツールを呼び出すことで発生します。このリスクに対処するため、AWSのベストプラクティスであるGenerative AI Lensでも言及されています。 リスク対策をしっかり行うことで、利用状況のデータに基づいた改善、コスト管理の精度向上、監査対応の効率化、そして新しいツール導入時の安全確保といった多くのメリットが得られます。 AIエージェントに適切な権限を与えるには、「認証情報(パスワードなど)を直接渡さずに、必要な範囲だけアクセスを許可する」仕組みが必要です。これを実現するのが「OAuth(オーオース)」という技術です。OAuthでは、ユーザーが一度「このAIエージェントに、この範囲の作業を許可します」と承認すると、AIエージェントは期限付きの「アクセストークン」を使ってその範囲内でのみツールを利用できます。これにより、AIエージェントにパスワードを教える必要がなく、安全に代理作業をさせることが可能です。 Amazon Bedrock AgentCoreは、このようなAIエージェントのセキュリティ対策を効率的かつ安全に実装するためのAWSのマネージドサービスです。 AgentCore Identity:ユーザーがエージェントを使う際の認証・認可(Inbound Auth)や、エージェントが外部ツールを使う際の認可(Outbound Auth)をサポートします。Amazon Cognitoなどの既存の認証プロバイダーと連携し、必要な認証情報を代わりに取得してくれます。取得した情報は「Token Vault」に安全に保管され、再利用も可能です。 AgentCore Observability:AIエージェントの行動記録を詳細に収集し、監視できます。誰がいつ、どのようなツールを使ったか、認証が成功したか失敗したかなどを追跡できるため、不正利用の早期発見やトラブルシューティングに役立ちます。 AIエージェントの安全な社会実装には、こうしたセキュリティ対策が欠かせません。Amazon Bedrock AgentCoreを活用すれば、面倒に思える認証・認可の実装や行動記録の管理も手軽に行えるため、ぜひ積極的に取り組んでいきましょう。 引用元: https://zenn.dev/aws_japan/articles/f1a0549c8e533a 【プロンプトから生まれる映像体験】Google AI Agent Summit 25 を彩った Veo のクリエイティブ 皆さん、こんにちは!Google AI Agent Summit ‘25という、AIエージェントの最先端を紹介する大きなイベントが開催され、その中で流れる印象的な映像が、Googleの生成AIモデル「Veo(ヴェオ)」によって作られたことが紹介されました。AIがこのような大規模イベントのクリエイティブな部分、具体的には幕間映像やキービジュアルなどを手掛けているというのは、AIの進化と可能性を強く感じさせるニュースですね。 このイベントで流れた映像は、「黒猫が歌っている!」とか「カピバラがかわいすぎる!」といった感想が聞こえてきそうな、個性豊かでユーモラスな動物たちのショートクリップでした。例えば、書斎で思索にふけるフクロウ教授、市場を敏捷に駆け抜けるキツネ泥棒、日本の新幹線を操縦するウサギ車掌、雪が降る中で気持ちよさそうに温泉につかるカピバラ、流れるような手つきで寿司を握るカワウソ職人、優しい表情で絵を描くリス画家、法廷で迫力満点に主張するブルドッグ弁護士、そしてディープなブルースを歌い上げる黒猫シンガーなど、まるで夢のような「もしもの世界」が生き生きと描かれています。 これらの映像は、すべて私たちが書く「プロンプト」、つまりAIへの具体的な指示文から生み出されました。記事には、それぞれのショート動画を生成するためにAIに与えられた英語のプロンプトが紹介されています。例えば、温泉のカピバラのプロンプトは「ASMR風の超クローズアップ動画。雪が穏やかに降る中、湯気の立つ温泉にうっとり浸かるカピバラ」といったように、カメラワークから情景、音響の指定まで、非常に詳細な描写が含まれています。AIにどんな言葉で、どれだけ具体的にイメージを伝えれば、こんなにも豊かで高品質な映像が生成できるのか、その表現力と可能性に驚かされます。 新人エンジニアの皆さんにとって、AIというとデータ処理や自動化、あるいはコード生成といったイメージが強いかもしれません。しかし、今回のようにAIが想像力豊かな映像コンテンツを生み出す力を持っていることを知ると、AIが活躍する分野の広さや、クリエイティブなパートナーとしての可能性に改めて気づかされるのではないでしょうか。私たちが書くプロンプトが、AIの創造性を引き出す鍵となるという点で、「プロンプトエンジニアリング」の重要性が示されています。 今回紹介された素晴らしいクリエイティブが、どのような企画やプロンプトを経て制作されたのか、その詳しい舞台裏は後日公開される予定です。AIを活用したコンテンツ制作のノウハウを知ることは、皆さんの今後のエンジニアリングやアイデア創出のヒントになるはずです。ぜひ、今後の情報にも注目してみてください。AIがもたらす創造的な

  2. 1天前

    株式会社ずんだもん技術室AI放送局 podcast 20251030

    youtube版(スライド付き) 関連リンク Introducing LangSmith’s No Code Agent Builder 皆さん、こんにちは!今回は、AI開発の最前線から、新人エンジニアの皆さんにもぜひ知ってほしい画期的なニュースをお届けします。AIエージェント開発で有名なLangChainの製品「LangSmith」から、「ノーコードAIエージェントビルダー」が発表されました。これは、プログラミングの知識がなくても、誰でも簡単にAIエージェントを作れるようになるという、すごいツールなんです! これまでのAIエージェント開発は、コードを書く必要があり、主に開発チームが担当していました。しかし、この「LangSmith Agent Builder」を使えば、社内のあらゆる部署の人が、それぞれの仕事に役立つAIエージェントを自分で作れるようになります。例えば、毎日決まった時間にメールで会議の準備状況をまとめてくれたり、送られてきたメールの内容に応じて自動でタスクを作成したりするAIエージェントを、コードなしで設定できるようになるイメージです。 一般的なビジュアルワークフローツールとは違い、LangSmith Agent Builderでは、AI(大規模言語モデル、LLM)が自ら状況を判断し、次に何をするかを決めることができます。これにより、あらかじめ決まった流れだけでなく、もっと柔軟で賢いエージェントを作れるのが大きな特長です。 AIエージェントは、主に以下の4つの要素で構成されます。 プロンプト: エージェントが何をするべきかを指示する「脳」にあたる部分です。 ツール: エージェントが外部のサービス(Gmail、Slack、LinkedInなど)と連携するための「手足」のようなものです。 トリガー: 「メールを受け取ったら」「特定のスラックチャンネルにメッセージがあったら」といった、エージェントを起動するきっかけです。 サブエージェント: 複雑なタスクを、より小さな専門のエージェントに任せることで、管理しやすくする仕組みです。 特に、AIエージェントを作る上で一番難しいと言われる「効果的なプロンプトの作成」について、このビルダーは強力なサポートを提供します。例えば、「こんなことをしたい」と話しかけるだけで、システムが詳細な質問をしながら、適切なプロンプトを自動で生成してくれます。また、エージェントが過去のやり取りやユーザーからの修正を覚えて、次回以降に活かす「記憶機能」も備わっています。 このツールは、LangChainがこれまで培ってきたAIエージェント開発の知見(LangChainやLangGraphといったオープンソースフレームワーク)を活かして作られており、エージェントが複雑な計画を立てたり、複数のステップを踏んで問題を解決したりできる「Deep Agents」という技術が土台になっています。 つまり、この「LangSmith Agent Builder」は、AIエージェント開発のハードルを大きく下げ、より多くの人がAIの力を活用できる未来を切り開くものだと言えるでしょう。現在、プライベートプレビューのウェイティングリストを募集中なので、興味のある方はぜひチェックしてみてください。 引用元: https://blog.langchain.com/langsmith-agent-builder/ StreetReaderAI: Towards making street view accessible via context-aware multimodal AI この研究は、Google Street Viewのような没入型ストリートビュー体験を、視覚に障がいのある方々(ブラインド・ロービジョンコミュニティ)にとって、より利用しやすくするための画期的なプロジェクト「StreetReaderAI」について紹介しています。これは、マルチモーダルAIと画像認識技術を活用し、これまでのストリートビューが対応していなかったスクリーンリーダーによる画像解釈や代替テキストの提供を可能にするものです。 StreetReaderAIは、UIST’25で発表されたコンセプト実証プロトタイプで、リアルタイムの文脈認識AIとアクセスしやすいナビゲーション機能を組み合わせています。チームには視覚に障がいのある研究者も参加し、アクセシビリティを重視して設計されました。主な機能は以下の通りです。 リアルタイムAI記述: 周囲の道路、交差点、場所をAIがリアルタイムで音声説明します。 ダイナミックなAIチャット: マルチモーダルAIエージェントと会話しながら、景色や地理について質問できます。 アクセスしやすい操作: 音声コマンドやキーボードショートカットで、パノラマ画像の移動や視野の変更が可能です。 ナビゲーションは、まるでビデオゲームのように音声が主要なインターフェースとなります。キーボードの矢印キーで視点変更や移動を行い、「今、北を向いています」といった音声フィードバックを得られます。 StreetReaderAIの核となるのは、Geminiをベースにした二つのAIシステム「AI Describer」と「AI Chat」です。 AI Describerは、現在のストリートビュー画像と地理情報を組み合わせて、リアルタイムで音声記述を生成します。ナビゲーションや安全性を重視したモードと、観光情報を提供するツアーガイドモードがあります。 AI Chatは、GoogleのMultimodal Live APIを活用し、ユーザーが現在の視点や過去の視点、周辺の地理について質問できるシステムです。最大約4,000枚の画像に相当する膨大な情報を一時的に記憶する能力があり、「あのバス停はどこにあった?」といった過去の質問にも文脈を理解して応答できます。 実際に11名の視覚に障がいのあるユーザーによる評価では、StreetReaderAIは高い有用性が示され、特にAIチャットのインタラクティブ性が好評でした。既存のツールにはないアクセシビリティの進歩が強調されています。AIチャットはAI Describerの6倍も利用され、パーソナライズされた会話型クエリへの明確な好みが示されました。質問内容は、位置や距離(空間的方位)、障害物の有無(オブジェクトの存在)、一般的な説明、場所の特定が多かったです。 AIチャットの応答精度は86.3%が正確で、今後の改善点としては、ユーザーがAIの回答の真偽を見極める難しさや、AIの知識の限界を理解する点などが挙げられています。 今後の展望として、より自律的な「ジオビジュアルエージェント」の開発、完全なルートプランニングのサポート、そして空間化されたオーディオなど、より豊かなオーディオインターフェースの実現が検討されています。 StreetReaderAIはまだプロトタイプですが、没入型ストリートビュー環境をすべての人にアクセス可能にする大きな可能性を示しています。 引用元: https://research.google/blog/streetreaderai-towards-making-street-view-accessible-via-context-aware-multimodal-ai/ 「Google Gemini」がプレゼン資料の自動生成に対応–「Canvas」ツールでスライド作成が可能に GoogleのAI「Gemini」に、プレゼンテーション資料を自動で作成してくれる便利な新機能が加わりました。この機能は「Canvas」というツールを使って提供され、現在はGoogleのProアカウント向けに先行公開されていますが、近いうちには無料プランでも利用できるようになる予定です。 普段PowerPointやGoogleスライドで資料を作る際、「どんな内容にしようか」「どう見せたら伝わるだろうか」と悩むことはありませんか?Geminiの新機能を使えば、その悩みから解放されるかもしれません。使い方はとても簡単で、Geminiにプレゼンテーションのテーマを伝えたり、元になるドキュメントをアップロードしたりするだけで、テーマに合った内容と関連画像を含んだスライドセットを自動で生成してくれます。 Canvasツールは、プロンプト(指示)を入力する側と、生成されたスライドのプレビューが表示される側が左右に分かれていて、リアルタイムで結果を確認しながら調整できるのが特徴です。完成した資料は、Googleスライドにエクスポートしてさらに細かく編集したり、PDFとしてダウンロードしたり、共有リンクを作成したりできます。 記事には実際に使ってみた感想も書かれており、例えば「パスワードマネージャーの長所と短所」についてプレゼンを依頼すると、13枚のスライドが生成されたそうです。ただし、AIはまだ完璧ではなく、細かいデザインの指示が意図通りに反映されないこともあったとのこと。そのため、まずはAIに大まかな草案を作成させ、その後にGoogleスライドなどで手動でテキストやデザインを調整するという使い方が、最も効率的で現実的な活用法だと結論付けられています。 この機能は、プレゼン資料作成の初期段階

  3. 2天前

    株式会社ずんだもん技術室AI放送局 podcast 20251029

    youtube版(スライド付き) 関連リンク Develop Specialized AI Agents with New NVIDIA Nemotron Vision, RAG, and Guardrail Models タイトル: Develop Specialized AI Agents with New NVIDIA Nemotron Vision, RAG, and Guardrail Models 要約: NVIDIAは、AIエージェントの開発を加速するための新しいNemotronモデル群を発表しました。AIエージェントとは、自分で考えて計画を立て、状況に応じて行動できる自律的なAIのことです。今回の発表は、特定の業務に特化したAIエージェントを、より効率的かつ安全に構築できるようにすることを目指しています。 発表された主なモデルと、それぞれがAIエージェント開発にどう役立つかを簡単にご紹介します。 Nemotron Nano 3: これは、AIエージェントがもっと賢く、効率的に「思考」するためのモデルです。例えば、複雑な科学的な問題を解いたり、プログラミングをしたり、数学的な計算をしたり、他のツールをAIが使う際の精度を高める役割をします。MoE(Mixture-of-Experts)という特別な技術を使うことで、処理速度を速くしつつ、開発コストも抑えることができます。 Nemotron Nano 2 VL: 文書、画像、動画といったさまざまな種類の情報を理解できる「マルチモーダル」なAIエージェントを作るためのモデルです。これはAIエージェントに「目と耳」の役割を与えるようなもので、データ分析、文書の自動処理、動画の内容理解など、視覚情報とテキスト情報を組み合わせて判断するAIアシスタントの開発に役立ちます。 Nemotron Parse 1.1: 主に文書から必要な情報(テキストや表など)を正確に抽出することに特化した、コンパクトなモデルです。例えば、スキャンした書類から特定のデータを自動で抜き出すような場面で活躍し、その後の情報検索の精度向上や、AIの学習データを質の高いものにするのに役立ちます。 Nemotron RAG: AIエージェントが、最新の情報や企業内の独自のデータソースから知識を引き出して、より正確で信頼性の高い回答を生成するためのRAG(Retrieval-Augmented Generation)パイプラインを構築するのに使うモデル群です。社内マニュアルを参照して質問に答えるAIや、リアルタイムのビジネス分析を行うAIエージェントの基盤となります。 Llama 3.1 Nemotron Safety Guard: AIエージェントが意図せず不適切または有害な内容を出力しないように監視し、安全性を確保するためのモデルです。特に、多言語に対応しており、文化的な違いも考慮しながら、危険なプロンプト(指示)や応答を検出する能力を持っています。 これらのモデルに加え、NVIDIAはAIモデルの性能を評価するための「NeMo Evaluator SDK」や、AIエージェントの最適な設定を自動で見つける「NeMo Agent Toolkit」も提供し、開発者がより信頼性の高いAIエージェントを効率的かつ安全に作れるようサポートしています。 引用元: https://developer.nvidia.com/blog/develop-specialized-ai-agents-with-new-nvidia-nemotron-vision-rag-and-guardrail-models/ ClaudeCodeを使ったら手作りAWSが3日でTerraform化できた話 SREのgumamonさんが、AI Agentの一種である「ClaudeCode」を使って、既存のAWS環境をわずか3日でTerraform化できたという、実践的な事例を紹介する記事です。新人エンジニアの皆さんも、これからのインフラ管理でAIがどう役立つのか、その可能性と注意点を知る良い機会になるでしょう。 まず、Terraform(テラフォーム)とは、AWSのようなクラウドサービスのインフラ構成を「コード」として定義・管理できるようにするツールです。これにより、手作業に比べてミスの削減や繰り返し作業の効率化が期待できます。この記事では、これまで手作業で作られてきたAWS環境をTerraformのコードで管理できるように変更する「Terraform化」にClaudeCodeを活用しました。 AI Agentをインフラ管理に使う際、筆者は「AIは怒れるインターン生」という比喩を使い、その限界と注意点を指摘しています。AIは指示通りに動きますが、長い指示を覚えきれず、時には「やってはいけないこと」を提案することもあります。そのため、AIにインフラの変更を直接許可するのではなく、サンドボックス環境という隔離された場所で作業させ、権限を制限する「ガードレール」の設置が必須であると強調しています。具体的には、AWSへのアクセスは読み取り専用(ReadOnly)に限定し、Terraformの状態を管理するS3やDynamoDBへの最小限の書き込み権限のみ与えるといった工夫をしています。 実際の3日間のTerraform化プロセスでは、以下のステップを踏みました。 Day1: ClaudeCodeの導入と、プロジェクトの目的や構成をAIが理解しやすいようにプロンプト(指示文)を整備。この過程で、自分自身の既存AWS構成への理解が深まったそうです。 Day2: 既存のAWSリソースからTerraformコードを生成させ、terraform importを使ってリソースをTerraformの管理下に置きました。AIとの「ペアプログラミング」のように試行錯誤しながら、プロンプトを改善していきました。 Day3: 生成されたコードのリファクタリング(より良い形に整理すること)を行いました。AIにレビューさせて命名規則のばらつきなどを指摘してもらい、修正を進めました。プロンプトを分割することで、AIがより効率的に作業できるように改善した点もポイントです。 この取り組みを通じて、筆者は以下の大きな効果を実感しました。 圧倒的なスピード: 自力で1ヶ月かかるような作業が、試行錯誤を含めてたった3日で完了。 高い応用力: 通常のツールでは対応が難しいAWSリソースについても、ClaudeCodeはコードを生成できた。 大胆な意思決定: AIの力を借りることで、手作業では諦めていた大規模なリファクタリングにも挑戦できた。 思考の整理: AIに明確な指示を出すためにプロンプトを考える過程で、自身のインフラ構成への理解が深まった。 このように、AI Agentはインフラ管理の生産性を大きく向上させる可能性を秘めていますが、その特性を理解し、適切な権限管理や監視体制のもとで活用することが非常に重要です。AIをただ使うだけでなく、AIが働きやすい環境を人間が整えることで、より効果的な協働が生まれることを示唆する良い事例です。 引用元: https://tech-blog.rakus.co.jp/entry/20251028/ai-terraforming Doubling down on DeepAgents LangChainチームは、複雑で長期間にわたるタスクを自律的に実行できるAIエージェント「DeepAgents」のバージョン0.2リリースを発表しました。これは、AIエージェントが単発のタスクを超え、より広範な問題解決に貢献することを目指すものです。 DeepAgentsの核となるのは、計画ツール、ファイルシステムへのアクセス、サブエージェント、詳細なプロンプトという4つの要素です。これらの機能をパッケージ化したdeepagentsライブラリにより、開発者は独自のツールやプロンプトを組み合わせるだけで、高度なエージェントを効率的に構築できます。 今回の0.2リリース最大の目玉は、「Pluggable Backends(プラグ可能なバックエンド)」です。これまでのDeepAgentsは、エージェントが一時的に情報を保存する「仮想ファイルシステム」のみに限定されていました。しかし0.2からは、エージェントのファイルシステムとして、永続的なデータ保存が可能な「LangGraphストア」や「ローカルファイルシステム」など、様々な種類のストレージを自由に選べるようになりました。 この機能は、エージェントに長期記憶を持たせる上で非常に重要です。例えば、特定のディレクトリへのファイル操作をAmazon S3のようなクラウドストレージにマッピングすることで、エージェントは過去の経験や学習結果を永続的に保持し、将来のタスクに活かせるようになります。また、独自のデータベースと連携するカスタムバックエンドを作成したり、ファイル書き込みにルール(ガードレール)を設定したりする柔軟性も提供されます。 その他、0.2ではエージェントの運用効率を高める改善も複数追加されました。具体的には、大規模なツール実行結果の自動ファイル保存、会話履歴が長くなった場合の自動要約によるトークン最適化、ツール呼び出し中断時の履歴自動修正などが挙げられます。 LangChainチームは、LangChain、LangGraph、DeepAgentsという3つのオープンソースライブラリを提供しており、それぞれ異なる役割を持っています。LangGraphはワークフローとエージェントを組み合わせる「エージェン

  4. 3天前

    株式会社ずんだもん技術室AI放送局 podcast 20251028

    youtube版(スライド付き) 関連リンク 【Claude】Agent Skills入門 - はじめてのスキル作成 - こんにちは、新人エンジニアの皆さん!今回は、生成AIの「Claude」に新しく追加された画期的な機能、「Agent Skills」について、その概要とメリット、簡単な作り方をご紹介します。 最近、GitHub CopilotのようにAIが開発をサポートするツールが増えていますが、ClaudeのAgent Skillsは、AI自身を特定のタスクに特化させ、あなたの仕事をもっと効率的にしてくれる機能です。まるで、Claudeに新しい「専門スキル」を教えるようなイメージですね。 Agent Skillsって何がすごいの? 機能拡張と特化: あなたのプロジェクトに合わせて、Claudeに独自の機能や知識を教え込めます。例えば、「このプロジェクトのコミットメッセージのルールはこれ!」と教えれば、それに沿ったメッセージを自動で作ってくれるようになります。 繰り返し作業の削減: 一度スキルを作れば、Claudeが必要に応じて自動で使ってくれるので、同じプロンプト(指示)を何度も入力する手間が省けます。まるで賢いアシスタントがあなたの意図を汲んで動いてくれるようなものです。 効率的な処理: たくさんのスキルを教えても、Claudeが賢く情報を管理してくれるのが大きな特徴です。必要なときにだけスキルの中身を読み込む「Progressive disclosure(段階的開示)」という仕組みのおかげで、AIが処理する情報量(コンテキスト)が肥大化せず、常にスムーズに動作します。これは、従来のAIの拡張方法との決定的な違いです。 どうやってスキルを作るの? スキルを作るのは意外とシンプルです。 .claude/skillsフォルダの中に、スキルごとにフォルダを作成します。 その中にSKILL.mdというファイルを作成し、スキルを定義します。 SKILL.mdには、スキルの「名前」や「簡単な説明」(これはClaudeがスキルを選ぶときに使う大切な情報です!)と、具体的な「指示」や「使用例」を記述します。 Anthropics社が提供する「skill-creator」というツールを使えば、これらのファイル作成を自動で行ってくれるので、初めてでも簡単に始められます。 記事では、Semantic Versioning(バージョン管理のルール)に沿ったコミットメッセージを自動生成するスキルを作成する例が紹介されています。一度作成したスキルは、Claude Codeを再起動するだけで自動的に有効になり、「コミットしてください」といった指示に対して、Claudeが状況を判断して適切なコミットメッセージを生成してくれます。 まとめ Agent Skillsは、あなたの開発ワークフローを大きく改善する可能性を秘めた、Claudeの新しい強力な機能です。今後も機能拡張が予定されており、ますます目が離せません。ぜひ皆さんも、このAgent Skillsを活用して、より快適で効率的な開発環境を築いてみてください! 引用元: https://tech.findy.co.jp/entry/2025/10/27/070000 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント 近年、大規模言語モデル (LLM) の進化に伴い、LLMが自律的に意思決定し外部ツールを使って複雑なタスクをこなす「AI エージェント」が注目されています。これは、単なるテキスト生成を超え、現実世界の問題解決に役立つ可能性を秘めています。 この記事では、AI エージェントの主要な手法である「ReAct (Reasoning and Acting) エージェント」に焦点を当て、その仕組みと実装、そして開発・運用を効率化するツールキットを紹介しています。 ReAct エージェントの核となるのは、LLMが「リーズニング(推論)」と「アクション(行動)」を繰り返すプロセスです。ユーザーの指示に対し、LLMはまず次に何をすべきかを推論し、必要であれば「Tool Calling(ツール呼び出し)」機能を使って外部ツール(例:Wikipedia検索、現在時刻取得など)を選択します。Tool Callingは、LLMが最適なツールとその使い方を判断する機能で、実際のツール実行は別のプログラムが行います。この推論とツールの実行を繰り返すことで、エージェントは目標を達成し、最終的な回答を導き出します。 ReActエージェントの実装には、LLMのオーケストレーションツールであるLangChainから派生した「LangGraph」が活用されます。LangGraphの最大の特徴は、エージェントの挙動を「ノード(処理の単位)」と「エッジ(ノード間の接続)」で構成されるグラフとして構築できる点です。これにより、ループや条件分岐といった複雑なエージェントの処理フローも直感的に、かつ柔軟に設計・実装することが可能です。ノード間で情報を共有する「ステート」を使い、LLMの推論やツール実行といった各ステップをノードとして定義し、ツール使用の有無に応じて処理を分岐させる「条件付きエッジ」でReActの反復構造を表現します。 さらに、エージェントシステムの開発から運用までを一貫して支援するNVIDIAのオープンソースツールキット「NeMo Agent Toolkit」も紹介されています。エージェント開発では、様々な構成の迅速な試行、パフォーマンスの最適化、そしてシステムの状態を把握する「オブザーバビリティ(可観測性)」が重要となります。NeMo Agent Toolkitは、YAMLファイルを使ってエージェントやツール、LLMの構成を簡単に定義・実行できるのが特徴です。評価やパフォーマンスボトルネックを特定するプロファイリング機能、エージェントの思考過程やツールの利用状況を詳細にトレースできるオブザーバビリティ機能(Phoenixなどと連携)を提供し、開発者がエージェントの機能改善に集中できるよう支援します。 LangGraphによる柔軟なReActエージェントの実装と、NeMo Agent Toolkitによる効率的な開発・運用支援は、AIエージェントシステムの構築を大きく加速させます。 引用元: https://developer.nvidia.com/ja-jp/blog/practical-tutorial-on-react-langgraph-nemo-agent-toolkit/ AIエージェントはなぜ複雑なタスクを完遂できないのか? 〜コンテキストエンジニアリング+マルチエージェント化で解く最新研究〜 最近のAI技術、特に自律型AIエージェントは、まるで人間のように考えて行動できると期待されています。しかし、実際に複雑な指示を与えると、途中で「何をすべきだったか」を忘れてしまい、タスクを最後までやり遂げられないという困った問題が起こりがちです。これは、AIが大量の情報を処理し続ける中で、最初に与えられた指示(高レベルな計画)と、その途中で行う具体的な操作や環境からの情報(低レベルな実行やフィードバック)を、一つの「コンテキスト(文脈や記憶のようなもの)」として管理しきれなくなり、混乱してしまうことが原因です。 この問題を解決するために、「コンテキストエンジニアリング」というアプローチが注目されています。これは、AIエージェントが持つコンテキストを賢く管理する手法で、特に「Isolate Context(コンテキストの分離)」が有効だとされています。簡単に言うと、一つのAIエージェントに全てをやらせるのではなく、役割に応じて複数のAIエージェントに仕事を分担させることで、それぞれが担当するコンテキストをシンプルに保ち、効率よくタスクを進めようという考え方です。 具体的な解決策として、以下の3つの手法が紹介されています。 Plan and Act(計画と実行の分離): これは、大まかな計画を立てる専門の「Planner(プランナー)」エージェントと、その計画に基づいて具体的な操作を実行する「Executor(エグゼキューター)」エージェントに分ける方法です。Plannerは全体のゴールを忘れずに計画を練り、Executorは目の前のタスクに集中します。これにより、AIエージェントが途中で指示を忘れることなく、複雑なタスクも高い確率で完遂できるようになります。 階層型マルチエージェント(オーケストレーター): Plan and Actのさらに進んだ形で、全体の司令塔となる「オーケストレーター」エージェントが、大きな指示を細かなサブタスクに分解し、それを担当する複数のサブエージェントに割り振ります。オーケストレーターがサブタスクをいかに明確に指示するかが成功の鍵となりますが、うまく機能すれば非常に複雑な調査や作業も効率的に進められます。 特化型の専門家エージェントへの分解: この手法では、サブエージェントをさらに「専門家」に特化させます。例えば、「データ分析専門エージェント」や「コード生成専

  5. 4天前

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251027

    関連リンク Claude Skills でエージェントに専門的なタスクを実行させる Anthropic社から新たに発表された「Claude Skills」は、大規模言語モデル(LLM)であるClaudeに、特定の専門的なタスクを実行させるための強力な新機能です。新人エンジニアの皆さんも、これからのAI開発で活用できる可能性を秘めています。 これまでのClaudeでは、単に指示を理解して文章を生成するだけでなく、スプレッドシート作成のような定型的な作業も可能でしたが、Skills機能を使うと、さらに複雑で具体的なタスクを自動でこなせるようになります。例えば、「ウェブページのスクリーンショットを撮ってPDFにまとめる」といった、複数のステップを伴う処理をClaude自身に実行させることができます。 Skillsの大きな特徴は、Code Execution Tool(コード実行ツール)と連携している点です。これにより、JavaScriptやPythonといったプログラミング言語で書かれたコードをClaudeがサンドボックス環境で実行できるようになります。これは、通常のチャットだけでは実現できない高度な処理をAIエージェントに任せられることを意味します。 スキルを作成する際は、SKILL.mdというMarkdownファイルが中心となります。このファイルには、スキルの名前(name)と詳細な説明(description)を記述します。特に重要なのは、Claudeがいつそのスキルを使うべきかを判断するために、nameとdescriptionがシステムプロンプトに読み込まれることです。この設計は、必要な時だけ詳細な情報を読み込むことで、AIが一度に処理できる情報量(コンテキストウィンドウ)の圧迫を防ぎ、Claudeの性能低下を防ぐ工夫がされています。もしスキルの説明が長くなる場合は、SKILL.mdの本文は簡潔にし、詳細なコード例やヘルパースクリプトは別のファイルに分けて参照することが推奨されています。 作成したスキルは、ZIPファイルに圧縮してClaudeアプリの設定画面から簡単にアップロードできます。アップロード後、チャットで具体的なタスクを指示すると、Claudeがアップロードされたスキルの中から最適なものを選び、コードを実行して作業を進めてくれます。記事の例では、ウェブページのスクリーンショットを撮り、それらをPDFに変換するスキルを作成し、実際にClaudeにそのタスクを指示しています。 この機能は、AIエージェントがより自律的に、かつ高度な作業をこなせるようになるための重要な一歩と言えるでしょう。ただし、コードを実行するという特性上、セキュリティには十分注意し、信頼できるコードのみを使用することが肝要です。Claude Skillsは、AIの可能性を広げ、エンジニアの業務効率化に貢献する新しいツールとして注目されています。 引用元: https://azukiazusa.dev/blog/claude-skills-custom-skills-for-claude/ Spec Kit で SRE AI Agent を開発する長い旅の始まり この記事は、SRE(Site Reliability Engineering)業務を自律型AIで自動化・半自動化する「SRE AI Agent」の開発プロジェクトについて、GitHubが提供する「Spec Kit」と「スペック駆動開発(SDD)」を活用する実践例を紹介しています。著者は「No human labor is no human error(人間が関わらなければ人間のミスは起きない)」をミッションに掲げ、AIによるSRE業務の自動化とSREチームの負担軽減を目指しています。 Spec KitとSDDは、従来のソフトウェア開発の考え方を大きく変えるものです。これまでは「コードが王様」で仕様は補助的な役割でしたが、SDDでは「仕様が王様」となります。詳細な仕様をAIに与えることで、AIが直接コードを生成し、実装まで一貫して支援してくれる新しい開発アプローチです。これにより、仕様と実際のコードの間に生じるギャップを減らし、開発の品質と効率を高めることを目指します。 Spec Kitを使った開発は、以下のようなステップで進みます。まず、プロジェクトの原則をAIと共に確立します。次に、技術的な詳細を避けつつ「何を(What)」作りたいのか、「なぜ(Why)」それが必要なのかという「仕様」をAIに記述させます。この際、大規模言語モデル(LLM)の特性を考慮し、一度に全て決めず、小さな部品ごとに定義し段階的に進めるのがポイントです。 仕様が決まったら、今度は「どのように(How)」実装するかという「技術実装計画」をAIに作成させます。ここではPythonのバージョンやAWSの構成など、具体的な技術要素を指定します。さらに、この計画を基に、より細かな「タスク」へとブレイクダウンします。 そして「実装」です。AIエージェントにタスクごとにコードを生成させ、一つ一つのタスクを完了させていきます。ここで重要なのは、人間が直接コードを修正しないというSDDの原則です。もしコードに修正が必要な場合は、まず「仕様」を修正し、その修正された仕様に基づいてAIに新たなタスクを作成させ、再実装を進めます。 また、Spec Kitには、仕様、計画、タスクの整合性を分析する機能や、要件の品質を保証するためのカスタムチェックリストを生成する機能もあります。これにより、開発の早い段階で問題を発見し、解決に導くことができます。 著者は、SDDとLLMの組み合わせが、開発における迷走や手戻りを減らし、システム開発の新たな選択肢の一つになると期待しています。AIの能力向上、ソフトウェアの複雑化、要件変化の高速化に対応する手段として、このアプローチが注目されています。新人エンジニアの皆さんにとって、AIが開発プロセス全体を支援する未来を垣間見ることができる、興味深い取り組みと言えるでしょう。 引用元: https://zenn.dev/ryoyoshii/articles/053ebb9b4cdc58 Why Your AI Agents Need a Todo List AIエージェントの開発で、「エージェントが途中で迷子になる」「同じことを繰り返す」「まだ終わっていないのに完了したと主張する」といった壁にぶつかったことはありませんか?これは、AIの賢さが足りないのではなく、エージェントの設計(アーキテクチャ)に問題があることが多いと、この記事は指摘しています。 解決策として提案されているのは、「タスク駆動型アーキテクチャ」です。これは、AIエージェントに私たちエンジニアが使うような「Todoリスト」を強制的に持たせるという考え方です。 なぜTodoリストが重要なのでしょうか? 私たち人間も、漠然とした指示ではうまく動けませんよね。「これを作って」というだけでは、何から手をつけて、どこまでやれば終わりなのかが曖昧になりがちです。AIエージェントも同じで、明確なタスクリスト、それぞれのタスクの「完了基準」、そして「完了したことの検証」がなければ、効率的かつ正確に作業を進められないのです。 タスク駆動型アーキテクチャでは、具体的に次のように進めます。 明示的なTodoリスト: エージェントは、各タスクの「内容」「完了検証方法」「完了状況」を記したリストを受け取ります。 厳格な実行ループ: エージェントはリストの未完了タスクを一つずつ実行します。 証拠に基づく検証: タスクが完了したら、その証拠(例:コードが動いた証拠、ログなど)を提示し、システムがそれを検証します。 完了するまで次へ進めない: 全てのタスクが検証済みになるまで、エージェントは次のフェーズに進むことができません。これにより、未完了のまま「終わった」と主張するのを防ぎます。 このアプローチは、AIエージェントが「何をすべきか」「どこまで進んだか」を常に確認できる「外部記憶」の役割を果たし、指示が曖昧なことで起こる問題を解決します。 実際にこの仕組みを導入した経験から、以下の点が重要だと述べています。 AIの「思考の柔軟さ(温度設定)」をタスクに合わせて変える: 確実に動かすインフラ系のタスクは柔軟性を低く(例:0.0)、アイデア出しのようなクリエイティブなタスクは柔軟性を高く(例:0.5)設定します。 明確な完了基準: 「ログインページを作る」ではなく、「ユーザー名/パスワード入力欄があり、送信ボタンを押すと/api/auth/loginにリクエストを送り、JWTをコンソールに出力するログインページを作る」のように具体的に定義します。 進捗の監視: 完了率やエラー頻度などを追跡し、データに基づいて改善します。 タスクの細分化: 大きなタスクは細かく分割し、明確なステップにします。 完了には「証拠」を求める: 「終わった」と信じる

  6. 私立ずんだもん女学園放送部 podcast 20251024

    10月23日

    私立ずんだもん女学園放送部 podcast 20251024

    youtube版(スライド付き) 関連リンク OpenAI acquires Software Applications Incorporated, maker of Sky 皆さん、こんにちは!今回はAI業界で注目すべきニュースがあります。ChatGPTの開発元であるOpenAIが、macOS向けのAIインターフェース「Sky」を開発しているSoftware Applications Incorporatedという企業を買収したと発表しました。新人エンジニアの皆さんにとっては、AIが今後どのように私たちの仕事や日常に深く関わってくるかを知る上で、とても重要な動向なので、ぜひチェックしてください。 SkyってどんなAIなの? Skyは、Macのパソコン上で動作する、賢いAIアシスタントです。一般的なAIチャットボットとは少し異なり、画面に表示されている内容を理解し、さらに様々なアプリ(例えば、ドキュメント作成ソフトやカレンダーアプリなど)をあなたの指示に従って操作できるのが大きな特徴です。例えば、あなたが文書を作成している時に「この段落を要約して」と指示したり、会議の予定を口頭で伝えたりするだけで、Skyがあなたの意図を汲み取り、代わりに作業を進めてくれるイメージです。まるで、いつもあなたの作業をサポートしてくれる優秀な秘書がパソコンの中にいるようなものですね。 OpenAIが買収した理由 OpenAIは、AIの能力を単に質問に答えるだけでなく、もっと実用的に、そしてシームレスに人々の生活や仕事に役立てたいと考えています。今回のSky買収は、このビジョンを大きく加速させるための一歩です。OpenAIは、Skyが持つmacOSへの深い統合技術や、ユーザーにとって使いやすい製品を作り上げるノウハウを、自社の主力製品であるChatGPTに組み込んでいく予定です。 これにより、将来的にはChatGPTが、私たちがパソコンで行うあらゆる作業において、より自然で直感的な形でサポートしてくれるようになるでしょう。例えば、プログラミング中にコードの改善案を提示したり、プレゼンテーション資料の作成を手伝ったりと、AIが私たちの「相棒」のように機能する未来が近づいています。 このニュースが示す未来 これまでのAIは、特定のウェブサイトやアプリ内で利用されることが多かったかもしれません。しかし、今回の買収は、AIがパソコンのOSレベル、つまりシステムの根幹にまで統合され、私たちの作業をより深く、そして広範囲に支援する時代が来ることを明確に示しています。 OpenAIの担当者も「ChatGPTが単にプロンプトに反応するだけでなく、実際に物事を達成する手助けをする未来を築いている」と語っています。Skyの開発者も「AIがデスクトップ上で思考や創造を助ける」というビジョンを掲げており、両社の目指す方向性が一致しています。 この動きは、AIが私たちに代わって複雑なタスクを実行する「AIエージェント」へと進化していくことを示唆しています。私たちエンジニアも、このようなAIの進化に常にアンテナを張り、どのようにAIを活用し、そしてAIと共に新しい価値を創造していくかを考えることが、これからのキャリアにおいて非常に重要になるでしょう。 引用元: https://openai.com/index/openai-acquires-software-applications-incorporated Building the Open Agent Ecosystem Together: Introducing OpenEnv Hugging FaceとMetaは、AIエージェントの開発を加速させるため、新しいオープンなエコシステム「OpenEnv」と、そのためのコミュニティハブを共同で立ち上げました。これは、AIエージェントがより安全かつ効率的に多様なタスクを実行するための重要な取り組みです。 現代のAIエージェントは非常に賢く、多くのタスクを自律的にこなせます。しかし、実際にこれらのタスクを実行させるには、エージェントがプログラムやAPIといった「ツール」にアクセスできる必要があります。問題は、無数のツールを直接AIモデルに与えると、管理が複雑になり、セキュリティ上のリスクも高まる点です。 この課題を解決するために導入されたのが「エージェント環境(Agentic Environments)」という概念です。エージェント環境とは、AIエージェントが特定のタスクをこなすために「本当に必要なものだけ」を定義する、安全で明確なサンドボックス(隔離された実行空間)のことです。これにより、エージェントがアクセスできる範囲が明確になり、セキュリティを保ちつつ、必要なツールへのスムーズなアクセスが可能になります。トレーニングでもデプロイメントでも利用でき、エージェントの行動を予測しやすくします。 Hugging Face上に開設された「OpenEnv Hub」は、開発者がこのエージェント環境を構築したり、他の開発者と共有したり、探索したりできる場所です。OpenEnvの仕様に準拠した環境は、このハブにアップロードすることで、エージェントがその環境内でどのように振る舞うかを簡単に検証できるようになります。 この取り組みでは、「RFCs(Request for Comments)」という形でコミュニティからのフィードバックを積極的に取り入れ、環境作成のための標準的なAPIを定義しています。これにより、エージェントの強化学習(RL)のトレーニング、最新の研究成果の再現、そして開発から本番環境へのデプロイまで、一貫したエージェント開発のパイプラインを構築できるようになります。 OpenEnvは、MetaのTorchForge RLライブラリをはじめ、TRLやSkyRLなどの他のオープンソースRLプロジェクトとも連携を強化していく予定です。このオープンな協力体制を通じて、AIエージェントの開発がよりアクセスしやすく、スケールしやすいものになることを目指しています。新人エンジニアの皆さんも、ぜひこの新しいオープンなエコシステムに注目し、未来のエージェント開発に参加してみてはいかがでしょうか。 引用元: https://huggingface.co/blog/openenv 【Copilot最新機能】Excelの日常業務はこう変わる、一線を越えた「Agent Mode」の衝撃 Microsoft 365 Copilotに、仕事のやり方を大きく変える二つの新機能「Agent Mode」と「Office Agent」が登場しました。これは、AIが単なるアシスタントの役割を超え、より自律的に業務を遂行する「Agent(エージェント)」へと進化することを意味します。特に、この進化によってExcelやWordといった日常的に使うツールの操作方法が、「手順を覚える」ことから「目的を伝える」ことへと大きくシフトします。 新しい働き方は「Vibe Working」と名付けられ、AIとの対話を通じて、より効率的に仕事を進めることを目指しています。 具体的な新機能は以下の通りです。 Agent Mode: ExcelやWordに組み込まれる機能で、ユーザーが「何をしたいか」を伝えるだけで、AIがそのタスクを計画・実行・検証・修正まで自律的に行います。例えば、Excelでのデータ整理や分析など、複数ステップにわたる複雑な作業も、AIが代行してくれるようになります。これにより、私たちが一つ一つの手順を細かく指示する必要がなくなり、より本質的な業務に集中できるようになります。 Office Agent: Copilotチャットを通じて、WordやPowerPointのドキュメント作成をAIに一任できる機能です。Webでの情報収集から、資料の構成案作成、デザイン、そして品質チェックに至るまで、一連の作業をAIがワンストップでこなします。 技術的な側面では、「Office Agent」にAnthropic社の高性能AIモデル「Claude」が採用され、CopilotはOpenAIのモデルを継続利用するという「マルチモデル戦略」が始動しました。これは、用途に応じて最適なAIモデルを使い分けることで、より高品質な成果を生み出すことを目指しています。 新人エンジニアの皆さんにとって、これらの機能は日常業務の生産性を劇的に向上させる大きなチャンスです。AIが自律的に動くようになることで、私たちは「どう操作するか」よりも「AIに何をさせたいか」という“問いかけの力”が重要になります。新しい技術の動向にアンテナを張り、AIを強力なパートナーとして活用するスキルを身につけることが、これからのエンジニアにとって不可欠となるでしょう。 引用元: https://www.sbbit.jp/article/cont1/173554 ポムポムプリン公式アカウントの“おさわりマップ”公開がきっかけとなり飼っている犬や猫のおさわりマップ投稿が大流行、見た目とのギャップがかわいらしい ポムポムプリン公式が公開した「おさわりマップ」がきっかけで、X(旧Twitter)では飼っている犬や猫の「おさわりマップ」を投稿するブームが起きています。これは

  7. 10月22日

    株式会社ずんだもん技術室AI放送局 podcast 20251023

    youtube版(スライド付き) 関連リンク Introducing ChatGPT Atlas OpenAIは、ChatGPTをウェブブラウザの中心に据えた新しいツール「ChatGPT Atlas」を発表しました。これは、AIを活用してインターネットの利用体験を根本的に見直し、あなたの強力な「スーパーアシスタント」として機能することを目指しています。 Atlasの主な特徴は、ChatGPTがウェブページの内容をリアルタイムで理解し、あなたの作業を直接サポートしてくれる点です。例えば、オンライン上の資料を見ながら疑問が生じた際に、その場でChatGPTに質問でき、コピー&ペーストの手間なく回答を得られます。 さらに、「ブラウザ記憶(Browser memories)」という機能により、あなたが以前閲覧したウェブページの情報をChatGPTが記憶し、それを踏まえた上で質問に答えたり、タスクを処理したりできます。「先週見た求人情報をすべてまとめて、面接対策用の業界トレンドの要約を作成してほしい」といった高度な依頼にも対応可能です。この記憶機能は任意で、ユーザーがいつでも内容を確認・管理・削除できるため、プライバシーは確保されています。 もう一つの重要な機能は「エージェントモード」です。これは、ChatGPTがあなたの指示に基づいてウェブ上で具体的なアクションを実行してくれるものです。例えば、レシピを伝えればオンラインストアで必要な食材を検索し、注文まで代行できます。ビジネスシーンでは、チーム資料の分析や競合調査、その結果の要約なども自動で行えます。このエージェントモードは、現在Plus、Pro、Businessユーザー向けにプレビュー提供中です。 OpenAIはプライバシーとセキュリティにも力を入れています。Atlasでは、ChatGPTがアクセスできる情報や記憶する内容をユーザーが細かく設定できます。シークレットモードや、特定のサイトでChatGPTのページ内容へのアクセスを制限する機能も備わっています。また、あなたの閲覧情報がChatGPTのモデル学習に使われることは、あなたが明示的に許可しない限りありません。エージェント機能についても、コード実行やファイルのダウンロードはできないよう設計されており、金融機関のような機密性の高いサイトでは、アクション実行前にユーザーの確認を求めるなど、安全対策が施されています。ただし、AIエージェントの利用には、誤作動や悪意ある指示によるリスクも存在するため、注意して利用することが推奨されています。 ChatGPT AtlasはmacOS向けに本日より提供が開始され、Windows、iOS、Android版も近日中にリリース予定です。この新しいブラウザは、AIが日々のウェブ利用をより効率的でパーソナルなものに変え、私たちの生産性を向上させる未来への大きな一歩となるでしょう。 引用元: https://openai.com/index/introducing-chatgpt-atlas Create Your Own Bash Computer Use Agent with NVIDIA Nemotron in One Hour この記事では、NVIDIAの高性能な小型AIモデル「Nemotron Nano v2」を使って、自然言語でBashコマンドを操作できるAIエージェントを、わずか1時間、約200行のPythonコードで作成する方法が紹介されています。新人エンジニアの皆さんにとって、AIエージェント開発の第一歩として非常にわかりやすい内容です。 従来のチャットボットが質問応答に特化しているのに対し、AIエージェントは「ツール呼び出し」という機能を使って、高レベルな目標を自律的に判断し、計画し、タスクを実行します。今回のエージェントは、皆さんが普段使っているBashターミナルを「ツール」として利用し、「システム情報をまとめて」といった指示に対して、適切なコマンド(mkdir, df, free, catなど)を自動で実行し、結果を要約してくれます。 このエージェントを開発する上で重要なポイントがいくつかあります。 Bashの操作: エージェントがBashコマンドを実行し、その結果を受け取るための仕組みが必要です。作業ディレクトリの管理も大切です。 コマンドの安全性: 誤って危険なコマンドを実行しないよう、「許可されたコマンドリスト」を設定し、実行前にはユーザーの承認を求める「ヒューマン・イン・ザ・ループ」の仕組みを取り入れます。これにより、安全にエージェントを試すことができます。 エラーハンドリング: コマンド実行時のエラー(間違ったコマンド、ファイルがないなど)をAIが理解し、次の行動を適切に判断できるようにする仕組みが重要です。 システムは主に2つの要素で構成されます。 Bashクラス: Pythonのsubprocessモジュールを利用し、実際にシェルコマンドを実行する部分です。許可コマンドリストのチェックや、現在の作業ディレクトリの管理も行います。 エージェント本体: Nemotronモデルがユーザーの指示を理解し、次にどのようなBashコマンドを実行すべきか判断します。「システムプロンプト」というAIへの指示書を使って、エージェントの役割や、使えるコマンド、安全に関するルールを細かく設定します。 記事では、これらのコンポーネントをゼロから構築する方法と、LangChainのライブラリである「LangGraph」を使うことで、さらにシンプルにエージェントループを構築できる方法が示されています。LangGraphを使えば、AIエージェントの複雑な状態管理やツール呼び出しの処理を簡単に実装できます。 このチュートリアルを通して、AIエージェントがどのようにユーザーの意図を理解し、外部ツール(Bash)と連携してタスクを自律的に実行するかの基本原理を学ぶことができます。ぜひ、ご自身でコマンドを追加したり、プロンプトを調整したりして、AIエージェントの可能性を探ってみてください。 引用元: https://developer.nvidia.com/blog/create-your-own-bash-computer-use-agent-with-nvidia-nemotron-in-one-hour/ 開発合宿で Claude Codeの「サブエージェント」について学んだ話 この記事では、株式会社カミナシのエンジニアが開発合宿で学んだ、Claude Codeの「サブエージェント」という機能について、新人エンジニアの方にも分かりやすく解説されています。AIを使った開発を進める上でのヒントが得られる内容です。 開発合宿では、「人間は一切コードを書かず、AIエージェントのみでシステムを開発する」という目標が設定されました。普段のAIコーディングでは、AIに適切な指示や背景情報(これを「コンテキスト」と呼びます)を与えることがとても重要です。著者のチームでは、開発ルールをまとめた「CLAUDE.md」というファイルを使ってAIに指示を出していましたが、複数のプロジェクトを一つのリポジトリで管理する「モノレポ」環境のため、このファイルがどんどん肥大化していくという課題に直面していました。 CLAUDE.mdが大きくなりすぎると、例えばAPI開発をAIに依頼したいのに、フロントエンドのコンポーネント命名規則など、API開発には不要な情報までAIに読み込ませてしまうことになります。これはAIが指示を理解するのを難しくし、開発の効率を下げてしまう可能性がありました。 この課題を解決するために、合宿でチームメンバーから教えてもらったのが「サブエージェント」という機能です。サブエージェントとは、特定のタスク(例:フロントエンド開発、API開発、データベース設計など)に必要な情報とルールだけを持たせることができる、専門特化したAIエージェントのことです。 サブエージェントを使うことで、肥大化していたCLAUDE.mdを分割し、例えばAPI開発用のサブエージェントには「TypeScriptを使う」「関数型プログラミングで実装する」「テスト駆動開発を徹底する」といった、API開発に特化した最小限のルールだけを伝えることができるようになりました。 開発合宿では、システムアーキテクチャ設計用、API開発用、フロントエンド開発用、データベース設計用など、それぞれの専門サブエージェントを作成し、実際に開発を行いました。各エージェントには、その役割に合わせたベストプラクティスや開発ルールを「プロンプト」(AIへの指示文)として学習させました。 この仕組みを取り入れた結果、メインのCLAUDE.mdはシンプルに保たれ、各タスクを専門知識を持つサブエージェントに任せることで、AIコーディングの指示出しが非常にスムーズになり、開発の効率と精度が大きく向上したとのことです。 この記事は、「AIに『すべて』を教え込むのではなく、『必要な時に、必要な情報だけ

  8. 10月21日

    株式会社ずんだもん技術室AI放送局 podcast 20251022

    youtube版(スライド付き) 関連リンク やさしいClaude Skills入門 Anthropic社のAI「Claude」に、新たに「Claude Skills」という強力な機能が加わりました。これは、Claudeが特定のタスクを高品質かつ効率的に実行するための「ベストプラクティス集」のようなもので、指示やスクリプト、必要なリソースなどを一まとめにしたものです。技術的には「Agent Skills」とも呼ばれ、最近エンジニア界隈で大きな注目を集めています。 Claude Skillsの導入で嬉しいのは、AIにタスクを依頼する際の試行錯誤が減り、まるで経験豊富な先輩が手本を示すように、Claudeが最適な手順で作業を進められるようになる点です。これにより、私たちはAIの能力を最大限に引き出し、より少ない労力で高い成果を期待できるようになります。 その仕組みは、主に「SKILL.md」ファイルに記述されたスキルの概要情報(メタデータ)と、Claudeがファイルを読み込むための「Readツール」で動きます。Claudeは必要なSkillsのファイルだけを動的に読み込むため、AIが一度に扱える情報量(コンテキストウィンドウ)を無駄に消費せず、効率的な処理を実現します。これは、常にプロジェクト全体の指示を保持する「CLAUDE.md」や、ツール接続のプロトコルである「MCP」とは異なり、特定のタスクに特化した「便利機能パック」として、より具体的な作業効率化を目指しています。 Claude Skillsは、Claude Desktop、Claude API、Claude Codeなど様々な環境で利用可能です。Desktop版では設定から簡単に有効化でき、自作のSkillsもアップロードできます。API経由の場合は事前に登録が必要です。また、公式から提供されている「skill creator」というSkillsを使えば、独自のSkillsを効率的に作成できます。 効果的なSkillsを作るための「ベストプラクティス」(良いやり方)も紹介されています。特に、SKILL.mdのメタデータは常に読み込まれるため、簡潔にまとめることが重要です。また、SKILL.md自体の内容は500行以下に抑え、詳細な情報は別ファイルに分割するのが推奨されています。 具体的な活用事例としては、ウェブサービス「キミガタリ」の月間アップデートレポートを自動作成する取り組みが紹介されています。これまでは手動で行っていた定型レポート作成作業が、Claude Skillsを使うことで、現在時刻の確認から、Qiita投稿やGitコミット履歴の取得・分析、既存フォーマットへの沿った記事作成までを自動化。数秒で「まるで自分が書いたような記事」が完成するようになり、大幅な効率化が実現しました。 Claude Skillsは、ベテランエンジニアの知識やノウハウをAIに学習させ、組織における「属人化」(特定の個人にしかできない仕事)を解消する可能性を秘めています。質の高いSkillsが販売されるエコシステムの発展も期待されており、新人エンジニアの皆さんにとって、AIの活用範囲を広げる強力なツールとなるでしょう。 引用元: https://www.docswell.com/s/harinezumi/5M683X-2025-10-21-003933 LangChain raises $125M to build the platform for agent engineering AIエージェント開発をリードするLangChainが、1.25億ドル(約180億円)の資金調達と、企業価値12.5億ドル(約1800億円)への評価を発表しました。この資金は、AIエージェントをより信頼性高く開発するための「エージェントエンジニアリング」プラットフォームの構築に充てられます。 LLM(大規模言語モデル)の登場で様々なアプリケーションが可能になりましたが、データやAPIと連携して自律的に動く「AIエージェント」こそがその真の力を引き出します。しかし、AIエージェントは試作は容易でも、本番環境で安定稼働させるのは非常に難しいという課題があります。「エージェントエンジニアリング」とは、この課題を解決し、非決定論的なLLMシステムを信頼性の高い体験へと磨き上げていく反復的なプロセスです。 LangChainはこの「エージェントエンジニアリング」のための包括的なプラットフォームを提供しています。主な発表内容は以下の通りです。 LangChainとLangGraphの1.0リリース: AIエージェントを迅速に構築できるオープンソースフレームワークが安定版となり、一般的なエージェントパターン向けのアーキテクチャが強化されました。LangGraphを使えば、エージェントの動作をより細かく制御できます。 LangSmithの機能強化: エージェントの挙動を可視化する「Observability」、生産データでテスト・評価する「Evaluation」、ワンクリックでデプロイできる「Deployment」、そしてノーコードでエージェントを構築できる「Agent Builder」(プライベートプレビュー中)が提供され、開発から運用までをトータルでサポートします。 Insights Agentの導入: LangSmithの機能として、エージェントの動作パターンを自動で分類する「Insights Agent」が追加されました。 LangChainのツール群は、AIエージェント開発のハードルを下げ、開発者が信頼性の高いエージェントをより効率的に生み出すことを支援します。AIエージェントが次の大きな波となる中で、LangChainの動向は今後も注目されそうです。 引用元: https://blog.langchain.com/series-b/ LLMs Can Get Brain Rot この研究では、大規模言語モデル(LLM)も人間のように、低品質な情報に触れ続けることで能力が低下する「LLMブレインロット(脳の腐敗)仮説」を提唱し、その実証実験を行いました。「ブレインロット」とは、インターネット上の「つまらないけれど目を引くコンテンツ」ばかりを見ていると、人間の集中力や記憶力、判断力が鈍るという俗語から着想を得た言葉です。 研究チームは、LLMが継続的に「ジャンクデータ」に触れると、モデルの認知能力が長期的に低下するという仮説を立てました。これを検証するため、実際のTwitter/Xの投稿を基に、以下の2種類の基準で「ジャンクデータ」と「コントロールデータ(通常の高品質なデータ)」を作成しました。 M1 (エンゲージメント度):人気があって短い、いわゆる「バズった」投稿をジャンクデータとしました。これは、注意を引くが内容の浅い情報が、人間がSNSを延々と見てしまう現象に似ているためです。 M2 (意味的品質):「すごい!」「今日だけ!」のような扇情的な言葉や誇張された表現を含む投稿をジャンクデータとしました。 これらのジャンクデータをLLMに継続的に学習させたところ、驚くべき結果が明らかになりました。ジャンクデータに触れ続けたLLMは、そうでないモデルと比べて、推論能力、長文の理解力、安全性(不適切な指示への対応)が著しく低下することが判明しました。例えば、推論タスクのスコアが大幅に落ち込んだり、サイコパシーや自己愛といった「ダークな特性」を示す傾向が強まったりしました。また、ジャンクデータの割合が増えるほど、能力の低下がより顕著になるという「用量反応性」も確認されました。 エラーの原因を詳しく調べた結果、LLMが思考プロセスを途中で省略してしまう「思考スキップ」が、能力低下の主要な要因であることが分かりました。さらに懸念されるのは、一度ジャンクデータに汚染されて能力が低下したLLMは、その後、高品質なデータを使った追加学習やファインチューニングを行っても、元の能力レベルまで完全に回復することは難しいという点です。これは、モデル内部の表現に根本的な変化が生じてしまうことを示唆しています。 この研究は、LLMの学習データとしてインターネット上の情報を用いる際、そのデータ品質の重要性を改めて浮き彫りにしました。私たちがAIの信頼性や性能を維持していくためには、継続的な学習におけるデータの選定と品質管理が極めて重要であり、まるで人間の健康診断のように、展開されているLLMに対しても定期的な「認知的健康診断」が必要であると結論付けています。 引用元: https://llm-brain-rot.github.io/ 「ひかれるという感情が薄い」→北海道の車道で目撃……車をまったく気にしない野生動物 釧路では「まれによくある」光景に5.2万“いいね” 北海道釧路で、車道をまったく気にせず堂々と歩く野生動物の姿がSNSで5.2万いいねを集め話題になっています。この地域では動物たちが車に「ひかれる」という感情が薄く、このような光景は「まれによくある」とのこと。私たちエンジニアも、時にはコードから離れて、自然の中での面白い出来事に目を向け、クスッと笑ってリ

关于

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

你可能还喜欢