株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 22시간 전

    株式会社ずんだもん技術室AI放送局 podcast 20251028

    youtube版(スライド付き) 関連リンク 【Claude】Agent Skills入門 - はじめてのスキル作成 - こんにちは、新人エンジニアの皆さん!今回は、生成AIの「Claude」に新しく追加された画期的な機能、「Agent Skills」について、その概要とメリット、簡単な作り方をご紹介します。 最近、GitHub CopilotのようにAIが開発をサポートするツールが増えていますが、ClaudeのAgent Skillsは、AI自身を特定のタスクに特化させ、あなたの仕事をもっと効率的にしてくれる機能です。まるで、Claudeに新しい「専門スキル」を教えるようなイメージですね。 Agent Skillsって何がすごいの? 機能拡張と特化: あなたのプロジェクトに合わせて、Claudeに独自の機能や知識を教え込めます。例えば、「このプロジェクトのコミットメッセージのルールはこれ!」と教えれば、それに沿ったメッセージを自動で作ってくれるようになります。 繰り返し作業の削減: 一度スキルを作れば、Claudeが必要に応じて自動で使ってくれるので、同じプロンプト(指示)を何度も入力する手間が省けます。まるで賢いアシスタントがあなたの意図を汲んで動いてくれるようなものです。 効率的な処理: たくさんのスキルを教えても、Claudeが賢く情報を管理してくれるのが大きな特徴です。必要なときにだけスキルの中身を読み込む「Progressive disclosure(段階的開示)」という仕組みのおかげで、AIが処理する情報量(コンテキスト)が肥大化せず、常にスムーズに動作します。これは、従来のAIの拡張方法との決定的な違いです。 どうやってスキルを作るの? スキルを作るのは意外とシンプルです。 .claude/skillsフォルダの中に、スキルごとにフォルダを作成します。 その中にSKILL.mdというファイルを作成し、スキルを定義します。 SKILL.mdには、スキルの「名前」や「簡単な説明」(これはClaudeがスキルを選ぶときに使う大切な情報です!)と、具体的な「指示」や「使用例」を記述します。 Anthropics社が提供する「skill-creator」というツールを使えば、これらのファイル作成を自動で行ってくれるので、初めてでも簡単に始められます。 記事では、Semantic Versioning(バージョン管理のルール)に沿ったコミットメッセージを自動生成するスキルを作成する例が紹介されています。一度作成したスキルは、Claude Codeを再起動するだけで自動的に有効になり、「コミットしてください」といった指示に対して、Claudeが状況を判断して適切なコミットメッセージを生成してくれます。 まとめ Agent Skillsは、あなたの開発ワークフローを大きく改善する可能性を秘めた、Claudeの新しい強力な機能です。今後も機能拡張が予定されており、ますます目が離せません。ぜひ皆さんも、このAgent Skillsを活用して、より快適で効率的な開発環境を築いてみてください! 引用元: https://tech.findy.co.jp/entry/2025/10/27/070000 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント 近年、大規模言語モデル (LLM) の進化に伴い、LLMが自律的に意思決定し外部ツールを使って複雑なタスクをこなす「AI エージェント」が注目されています。これは、単なるテキスト生成を超え、現実世界の問題解決に役立つ可能性を秘めています。 この記事では、AI エージェントの主要な手法である「ReAct (Reasoning and Acting) エージェント」に焦点を当て、その仕組みと実装、そして開発・運用を効率化するツールキットを紹介しています。 ReAct エージェントの核となるのは、LLMが「リーズニング(推論)」と「アクション(行動)」を繰り返すプロセスです。ユーザーの指示に対し、LLMはまず次に何をすべきかを推論し、必要であれば「Tool Calling(ツール呼び出し)」機能を使って外部ツール(例:Wikipedia検索、現在時刻取得など)を選択します。Tool Callingは、LLMが最適なツールとその使い方を判断する機能で、実際のツール実行は別のプログラムが行います。この推論とツールの実行を繰り返すことで、エージェントは目標を達成し、最終的な回答を導き出します。 ReActエージェントの実装には、LLMのオーケストレーションツールであるLangChainから派生した「LangGraph」が活用されます。LangGraphの最大の特徴は、エージェントの挙動を「ノード(処理の単位)」と「エッジ(ノード間の接続)」で構成されるグラフとして構築できる点です。これにより、ループや条件分岐といった複雑なエージェントの処理フローも直感的に、かつ柔軟に設計・実装することが可能です。ノード間で情報を共有する「ステート」を使い、LLMの推論やツール実行といった各ステップをノードとして定義し、ツール使用の有無に応じて処理を分岐させる「条件付きエッジ」でReActの反復構造を表現します。 さらに、エージェントシステムの開発から運用までを一貫して支援するNVIDIAのオープンソースツールキット「NeMo Agent Toolkit」も紹介されています。エージェント開発では、様々な構成の迅速な試行、パフォーマンスの最適化、そしてシステムの状態を把握する「オブザーバビリティ(可観測性)」が重要となります。NeMo Agent Toolkitは、YAMLファイルを使ってエージェントやツール、LLMの構成を簡単に定義・実行できるのが特徴です。評価やパフォーマンスボトルネックを特定するプロファイリング機能、エージェントの思考過程やツールの利用状況を詳細にトレースできるオブザーバビリティ機能(Phoenixなどと連携)を提供し、開発者がエージェントの機能改善に集中できるよう支援します。 LangGraphによる柔軟なReActエージェントの実装と、NeMo Agent Toolkitによる効率的な開発・運用支援は、AIエージェントシステムの構築を大きく加速させます。 引用元: https://developer.nvidia.com/ja-jp/blog/practical-tutorial-on-react-langgraph-nemo-agent-toolkit/ AIエージェントはなぜ複雑なタスクを完遂できないのか? 〜コンテキストエンジニアリング+マルチエージェント化で解く最新研究〜 最近のAI技術、特に自律型AIエージェントは、まるで人間のように考えて行動できると期待されています。しかし、実際に複雑な指示を与えると、途中で「何をすべきだったか」を忘れてしまい、タスクを最後までやり遂げられないという困った問題が起こりがちです。これは、AIが大量の情報を処理し続ける中で、最初に与えられた指示(高レベルな計画)と、その途中で行う具体的な操作や環境からの情報(低レベルな実行やフィードバック)を、一つの「コンテキスト(文脈や記憶のようなもの)」として管理しきれなくなり、混乱してしまうことが原因です。 この問題を解決するために、「コンテキストエンジニアリング」というアプローチが注目されています。これは、AIエージェントが持つコンテキストを賢く管理する手法で、特に「Isolate Context(コンテキストの分離)」が有効だとされています。簡単に言うと、一つのAIエージェントに全てをやらせるのではなく、役割に応じて複数のAIエージェントに仕事を分担させることで、それぞれが担当するコンテキストをシンプルに保ち、効率よくタスクを進めようという考え方です。 具体的な解決策として、以下の3つの手法が紹介されています。 Plan and Act(計画と実行の分離): これは、大まかな計画を立てる専門の「Planner(プランナー)」エージェントと、その計画に基づいて具体的な操作を実行する「Executor(エグゼキューター)」エージェントに分ける方法です。Plannerは全体のゴールを忘れずに計画を練り、Executorは目の前のタスクに集中します。これにより、AIエージェントが途中で指示を忘れることなく、複雑なタスクも高い確率で完遂できるようになります。 階層型マルチエージェント(オーケストレーター): Plan and Actのさらに進んだ形で、全体の司令塔となる「オーケストレーター」エージェントが、大きな指示を細かなサブタスクに分解し、それを担当する複数のサブエージェントに割り振ります。オーケストレーターがサブタスクをいかに明確に指示するかが成功の鍵となりますが、うまく機能すれば非常に複雑な調査や作業も効率的に進められます。 特化型の専門家エージェントへの分解: この手法では、サブエージェントをさらに「専門家」に特化させます。例えば、「データ分析専門エージェント」や「コード生成専

  2. 1일 전

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251027

    関連リンク Claude Skills でエージェントに専門的なタスクを実行させる Anthropic社から新たに発表された「Claude Skills」は、大規模言語モデル(LLM)であるClaudeに、特定の専門的なタスクを実行させるための強力な新機能です。新人エンジニアの皆さんも、これからのAI開発で活用できる可能性を秘めています。 これまでのClaudeでは、単に指示を理解して文章を生成するだけでなく、スプレッドシート作成のような定型的な作業も可能でしたが、Skills機能を使うと、さらに複雑で具体的なタスクを自動でこなせるようになります。例えば、「ウェブページのスクリーンショットを撮ってPDFにまとめる」といった、複数のステップを伴う処理をClaude自身に実行させることができます。 Skillsの大きな特徴は、Code Execution Tool(コード実行ツール)と連携している点です。これにより、JavaScriptやPythonといったプログラミング言語で書かれたコードをClaudeがサンドボックス環境で実行できるようになります。これは、通常のチャットだけでは実現できない高度な処理をAIエージェントに任せられることを意味します。 スキルを作成する際は、SKILL.mdというMarkdownファイルが中心となります。このファイルには、スキルの名前(name)と詳細な説明(description)を記述します。特に重要なのは、Claudeがいつそのスキルを使うべきかを判断するために、nameとdescriptionがシステムプロンプトに読み込まれることです。この設計は、必要な時だけ詳細な情報を読み込むことで、AIが一度に処理できる情報量(コンテキストウィンドウ)の圧迫を防ぎ、Claudeの性能低下を防ぐ工夫がされています。もしスキルの説明が長くなる場合は、SKILL.mdの本文は簡潔にし、詳細なコード例やヘルパースクリプトは別のファイルに分けて参照することが推奨されています。 作成したスキルは、ZIPファイルに圧縮してClaudeアプリの設定画面から簡単にアップロードできます。アップロード後、チャットで具体的なタスクを指示すると、Claudeがアップロードされたスキルの中から最適なものを選び、コードを実行して作業を進めてくれます。記事の例では、ウェブページのスクリーンショットを撮り、それらをPDFに変換するスキルを作成し、実際にClaudeにそのタスクを指示しています。 この機能は、AIエージェントがより自律的に、かつ高度な作業をこなせるようになるための重要な一歩と言えるでしょう。ただし、コードを実行するという特性上、セキュリティには十分注意し、信頼できるコードのみを使用することが肝要です。Claude Skillsは、AIの可能性を広げ、エンジニアの業務効率化に貢献する新しいツールとして注目されています。 引用元: https://azukiazusa.dev/blog/claude-skills-custom-skills-for-claude/ Spec Kit で SRE AI Agent を開発する長い旅の始まり この記事は、SRE(Site Reliability Engineering)業務を自律型AIで自動化・半自動化する「SRE AI Agent」の開発プロジェクトについて、GitHubが提供する「Spec Kit」と「スペック駆動開発(SDD)」を活用する実践例を紹介しています。著者は「No human labor is no human error(人間が関わらなければ人間のミスは起きない)」をミッションに掲げ、AIによるSRE業務の自動化とSREチームの負担軽減を目指しています。 Spec KitとSDDは、従来のソフトウェア開発の考え方を大きく変えるものです。これまでは「コードが王様」で仕様は補助的な役割でしたが、SDDでは「仕様が王様」となります。詳細な仕様をAIに与えることで、AIが直接コードを生成し、実装まで一貫して支援してくれる新しい開発アプローチです。これにより、仕様と実際のコードの間に生じるギャップを減らし、開発の品質と効率を高めることを目指します。 Spec Kitを使った開発は、以下のようなステップで進みます。まず、プロジェクトの原則をAIと共に確立します。次に、技術的な詳細を避けつつ「何を(What)」作りたいのか、「なぜ(Why)」それが必要なのかという「仕様」をAIに記述させます。この際、大規模言語モデル(LLM)の特性を考慮し、一度に全て決めず、小さな部品ごとに定義し段階的に進めるのがポイントです。 仕様が決まったら、今度は「どのように(How)」実装するかという「技術実装計画」をAIに作成させます。ここではPythonのバージョンやAWSの構成など、具体的な技術要素を指定します。さらに、この計画を基に、より細かな「タスク」へとブレイクダウンします。 そして「実装」です。AIエージェントにタスクごとにコードを生成させ、一つ一つのタスクを完了させていきます。ここで重要なのは、人間が直接コードを修正しないというSDDの原則です。もしコードに修正が必要な場合は、まず「仕様」を修正し、その修正された仕様に基づいてAIに新たなタスクを作成させ、再実装を進めます。 また、Spec Kitには、仕様、計画、タスクの整合性を分析する機能や、要件の品質を保証するためのカスタムチェックリストを生成する機能もあります。これにより、開発の早い段階で問題を発見し、解決に導くことができます。 著者は、SDDとLLMの組み合わせが、開発における迷走や手戻りを減らし、システム開発の新たな選択肢の一つになると期待しています。AIの能力向上、ソフトウェアの複雑化、要件変化の高速化に対応する手段として、このアプローチが注目されています。新人エンジニアの皆さんにとって、AIが開発プロセス全体を支援する未来を垣間見ることができる、興味深い取り組みと言えるでしょう。 引用元: https://zenn.dev/ryoyoshii/articles/053ebb9b4cdc58 Why Your AI Agents Need a Todo List AIエージェントの開発で、「エージェントが途中で迷子になる」「同じことを繰り返す」「まだ終わっていないのに完了したと主張する」といった壁にぶつかったことはありませんか?これは、AIの賢さが足りないのではなく、エージェントの設計(アーキテクチャ)に問題があることが多いと、この記事は指摘しています。 解決策として提案されているのは、「タスク駆動型アーキテクチャ」です。これは、AIエージェントに私たちエンジニアが使うような「Todoリスト」を強制的に持たせるという考え方です。 なぜTodoリストが重要なのでしょうか? 私たち人間も、漠然とした指示ではうまく動けませんよね。「これを作って」というだけでは、何から手をつけて、どこまでやれば終わりなのかが曖昧になりがちです。AIエージェントも同じで、明確なタスクリスト、それぞれのタスクの「完了基準」、そして「完了したことの検証」がなければ、効率的かつ正確に作業を進められないのです。 タスク駆動型アーキテクチャでは、具体的に次のように進めます。 明示的なTodoリスト: エージェントは、各タスクの「内容」「完了検証方法」「完了状況」を記したリストを受け取ります。 厳格な実行ループ: エージェントはリストの未完了タスクを一つずつ実行します。 証拠に基づく検証: タスクが完了したら、その証拠(例:コードが動いた証拠、ログなど)を提示し、システムがそれを検証します。 完了するまで次へ進めない: 全てのタスクが検証済みになるまで、エージェントは次のフェーズに進むことができません。これにより、未完了のまま「終わった」と主張するのを防ぎます。 このアプローチは、AIエージェントが「何をすべきか」「どこまで進んだか」を常に確認できる「外部記憶」の役割を果たし、指示が曖昧なことで起こる問題を解決します。 実際にこの仕組みを導入した経験から、以下の点が重要だと述べています。 AIの「思考の柔軟さ(温度設定)」をタスクに合わせて変える: 確実に動かすインフラ系のタスクは柔軟性を低く(例:0.0)、アイデア出しのようなクリエイティブなタスクは柔軟性を高く(例:0.5)設定します。 明確な完了基準: 「ログインページを作る」ではなく、「ユーザー名/パスワード入力欄があり、送信ボタンを押すと/api/auth/loginにリクエストを送り、JWTをコンソールに出力するログインページを作る」のように具体的に定義します。 進捗の監視: 完了率やエラー頻度などを追跡し、データに基づいて改善します。 タスクの細分化: 大きなタスクは細かく分割し、明確なステップにします。 完了には「証拠」を求める: 「終わった」と信じる

  3. 私立ずんだもん女学園放送部 podcast 20251024

    4일 전

    私立ずんだもん女学園放送部 podcast 20251024

    youtube版(スライド付き) 関連リンク OpenAI acquires Software Applications Incorporated, maker of Sky 皆さん、こんにちは!今回はAI業界で注目すべきニュースがあります。ChatGPTの開発元であるOpenAIが、macOS向けのAIインターフェース「Sky」を開発しているSoftware Applications Incorporatedという企業を買収したと発表しました。新人エンジニアの皆さんにとっては、AIが今後どのように私たちの仕事や日常に深く関わってくるかを知る上で、とても重要な動向なので、ぜひチェックしてください。 SkyってどんなAIなの? Skyは、Macのパソコン上で動作する、賢いAIアシスタントです。一般的なAIチャットボットとは少し異なり、画面に表示されている内容を理解し、さらに様々なアプリ(例えば、ドキュメント作成ソフトやカレンダーアプリなど)をあなたの指示に従って操作できるのが大きな特徴です。例えば、あなたが文書を作成している時に「この段落を要約して」と指示したり、会議の予定を口頭で伝えたりするだけで、Skyがあなたの意図を汲み取り、代わりに作業を進めてくれるイメージです。まるで、いつもあなたの作業をサポートしてくれる優秀な秘書がパソコンの中にいるようなものですね。 OpenAIが買収した理由 OpenAIは、AIの能力を単に質問に答えるだけでなく、もっと実用的に、そしてシームレスに人々の生活や仕事に役立てたいと考えています。今回のSky買収は、このビジョンを大きく加速させるための一歩です。OpenAIは、Skyが持つmacOSへの深い統合技術や、ユーザーにとって使いやすい製品を作り上げるノウハウを、自社の主力製品であるChatGPTに組み込んでいく予定です。 これにより、将来的にはChatGPTが、私たちがパソコンで行うあらゆる作業において、より自然で直感的な形でサポートしてくれるようになるでしょう。例えば、プログラミング中にコードの改善案を提示したり、プレゼンテーション資料の作成を手伝ったりと、AIが私たちの「相棒」のように機能する未来が近づいています。 このニュースが示す未来 これまでのAIは、特定のウェブサイトやアプリ内で利用されることが多かったかもしれません。しかし、今回の買収は、AIがパソコンのOSレベル、つまりシステムの根幹にまで統合され、私たちの作業をより深く、そして広範囲に支援する時代が来ることを明確に示しています。 OpenAIの担当者も「ChatGPTが単にプロンプトに反応するだけでなく、実際に物事を達成する手助けをする未来を築いている」と語っています。Skyの開発者も「AIがデスクトップ上で思考や創造を助ける」というビジョンを掲げており、両社の目指す方向性が一致しています。 この動きは、AIが私たちに代わって複雑なタスクを実行する「AIエージェント」へと進化していくことを示唆しています。私たちエンジニアも、このようなAIの進化に常にアンテナを張り、どのようにAIを活用し、そしてAIと共に新しい価値を創造していくかを考えることが、これからのキャリアにおいて非常に重要になるでしょう。 引用元: https://openai.com/index/openai-acquires-software-applications-incorporated Building the Open Agent Ecosystem Together: Introducing OpenEnv Hugging FaceとMetaは、AIエージェントの開発を加速させるため、新しいオープンなエコシステム「OpenEnv」と、そのためのコミュニティハブを共同で立ち上げました。これは、AIエージェントがより安全かつ効率的に多様なタスクを実行するための重要な取り組みです。 現代のAIエージェントは非常に賢く、多くのタスクを自律的にこなせます。しかし、実際にこれらのタスクを実行させるには、エージェントがプログラムやAPIといった「ツール」にアクセスできる必要があります。問題は、無数のツールを直接AIモデルに与えると、管理が複雑になり、セキュリティ上のリスクも高まる点です。 この課題を解決するために導入されたのが「エージェント環境(Agentic Environments)」という概念です。エージェント環境とは、AIエージェントが特定のタスクをこなすために「本当に必要なものだけ」を定義する、安全で明確なサンドボックス(隔離された実行空間)のことです。これにより、エージェントがアクセスできる範囲が明確になり、セキュリティを保ちつつ、必要なツールへのスムーズなアクセスが可能になります。トレーニングでもデプロイメントでも利用でき、エージェントの行動を予測しやすくします。 Hugging Face上に開設された「OpenEnv Hub」は、開発者がこのエージェント環境を構築したり、他の開発者と共有したり、探索したりできる場所です。OpenEnvの仕様に準拠した環境は、このハブにアップロードすることで、エージェントがその環境内でどのように振る舞うかを簡単に検証できるようになります。 この取り組みでは、「RFCs(Request for Comments)」という形でコミュニティからのフィードバックを積極的に取り入れ、環境作成のための標準的なAPIを定義しています。これにより、エージェントの強化学習(RL)のトレーニング、最新の研究成果の再現、そして開発から本番環境へのデプロイまで、一貫したエージェント開発のパイプラインを構築できるようになります。 OpenEnvは、MetaのTorchForge RLライブラリをはじめ、TRLやSkyRLなどの他のオープンソースRLプロジェクトとも連携を強化していく予定です。このオープンな協力体制を通じて、AIエージェントの開発がよりアクセスしやすく、スケールしやすいものになることを目指しています。新人エンジニアの皆さんも、ぜひこの新しいオープンなエコシステムに注目し、未来のエージェント開発に参加してみてはいかがでしょうか。 引用元: https://huggingface.co/blog/openenv 【Copilot最新機能】Excelの日常業務はこう変わる、一線を越えた「Agent Mode」の衝撃 Microsoft 365 Copilotに、仕事のやり方を大きく変える二つの新機能「Agent Mode」と「Office Agent」が登場しました。これは、AIが単なるアシスタントの役割を超え、より自律的に業務を遂行する「Agent(エージェント)」へと進化することを意味します。特に、この進化によってExcelやWordといった日常的に使うツールの操作方法が、「手順を覚える」ことから「目的を伝える」ことへと大きくシフトします。 新しい働き方は「Vibe Working」と名付けられ、AIとの対話を通じて、より効率的に仕事を進めることを目指しています。 具体的な新機能は以下の通りです。 Agent Mode: ExcelやWordに組み込まれる機能で、ユーザーが「何をしたいか」を伝えるだけで、AIがそのタスクを計画・実行・検証・修正まで自律的に行います。例えば、Excelでのデータ整理や分析など、複数ステップにわたる複雑な作業も、AIが代行してくれるようになります。これにより、私たちが一つ一つの手順を細かく指示する必要がなくなり、より本質的な業務に集中できるようになります。 Office Agent: Copilotチャットを通じて、WordやPowerPointのドキュメント作成をAIに一任できる機能です。Webでの情報収集から、資料の構成案作成、デザイン、そして品質チェックに至るまで、一連の作業をAIがワンストップでこなします。 技術的な側面では、「Office Agent」にAnthropic社の高性能AIモデル「Claude」が採用され、CopilotはOpenAIのモデルを継続利用するという「マルチモデル戦略」が始動しました。これは、用途に応じて最適なAIモデルを使い分けることで、より高品質な成果を生み出すことを目指しています。 新人エンジニアの皆さんにとって、これらの機能は日常業務の生産性を劇的に向上させる大きなチャンスです。AIが自律的に動くようになることで、私たちは「どう操作するか」よりも「AIに何をさせたいか」という“問いかけの力”が重要になります。新しい技術の動向にアンテナを張り、AIを強力なパートナーとして活用するスキルを身につけることが、これからのエンジニアにとって不可欠となるでしょう。 引用元: https://www.sbbit.jp/article/cont1/173554 ポムポムプリン公式アカウントの“おさわりマップ”公開がきっかけとなり飼っている犬や猫のおさわりマップ投稿が大流行、見た目とのギャップがかわいらしい ポムポムプリン公式が公開した「おさわりマップ」がきっかけで、X(旧Twitter)では飼っている犬や猫の「おさわりマップ」を投稿するブームが起きています。これは

  4. 5일 전

    株式会社ずんだもん技術室AI放送局 podcast 20251023

    youtube版(スライド付き) 関連リンク Introducing ChatGPT Atlas OpenAIは、ChatGPTをウェブブラウザの中心に据えた新しいツール「ChatGPT Atlas」を発表しました。これは、AIを活用してインターネットの利用体験を根本的に見直し、あなたの強力な「スーパーアシスタント」として機能することを目指しています。 Atlasの主な特徴は、ChatGPTがウェブページの内容をリアルタイムで理解し、あなたの作業を直接サポートしてくれる点です。例えば、オンライン上の資料を見ながら疑問が生じた際に、その場でChatGPTに質問でき、コピー&ペーストの手間なく回答を得られます。 さらに、「ブラウザ記憶(Browser memories)」という機能により、あなたが以前閲覧したウェブページの情報をChatGPTが記憶し、それを踏まえた上で質問に答えたり、タスクを処理したりできます。「先週見た求人情報をすべてまとめて、面接対策用の業界トレンドの要約を作成してほしい」といった高度な依頼にも対応可能です。この記憶機能は任意で、ユーザーがいつでも内容を確認・管理・削除できるため、プライバシーは確保されています。 もう一つの重要な機能は「エージェントモード」です。これは、ChatGPTがあなたの指示に基づいてウェブ上で具体的なアクションを実行してくれるものです。例えば、レシピを伝えればオンラインストアで必要な食材を検索し、注文まで代行できます。ビジネスシーンでは、チーム資料の分析や競合調査、その結果の要約なども自動で行えます。このエージェントモードは、現在Plus、Pro、Businessユーザー向けにプレビュー提供中です。 OpenAIはプライバシーとセキュリティにも力を入れています。Atlasでは、ChatGPTがアクセスできる情報や記憶する内容をユーザーが細かく設定できます。シークレットモードや、特定のサイトでChatGPTのページ内容へのアクセスを制限する機能も備わっています。また、あなたの閲覧情報がChatGPTのモデル学習に使われることは、あなたが明示的に許可しない限りありません。エージェント機能についても、コード実行やファイルのダウンロードはできないよう設計されており、金融機関のような機密性の高いサイトでは、アクション実行前にユーザーの確認を求めるなど、安全対策が施されています。ただし、AIエージェントの利用には、誤作動や悪意ある指示によるリスクも存在するため、注意して利用することが推奨されています。 ChatGPT AtlasはmacOS向けに本日より提供が開始され、Windows、iOS、Android版も近日中にリリース予定です。この新しいブラウザは、AIが日々のウェブ利用をより効率的でパーソナルなものに変え、私たちの生産性を向上させる未来への大きな一歩となるでしょう。 引用元: https://openai.com/index/introducing-chatgpt-atlas Create Your Own Bash Computer Use Agent with NVIDIA Nemotron in One Hour この記事では、NVIDIAの高性能な小型AIモデル「Nemotron Nano v2」を使って、自然言語でBashコマンドを操作できるAIエージェントを、わずか1時間、約200行のPythonコードで作成する方法が紹介されています。新人エンジニアの皆さんにとって、AIエージェント開発の第一歩として非常にわかりやすい内容です。 従来のチャットボットが質問応答に特化しているのに対し、AIエージェントは「ツール呼び出し」という機能を使って、高レベルな目標を自律的に判断し、計画し、タスクを実行します。今回のエージェントは、皆さんが普段使っているBashターミナルを「ツール」として利用し、「システム情報をまとめて」といった指示に対して、適切なコマンド(mkdir, df, free, catなど)を自動で実行し、結果を要約してくれます。 このエージェントを開発する上で重要なポイントがいくつかあります。 Bashの操作: エージェントがBashコマンドを実行し、その結果を受け取るための仕組みが必要です。作業ディレクトリの管理も大切です。 コマンドの安全性: 誤って危険なコマンドを実行しないよう、「許可されたコマンドリスト」を設定し、実行前にはユーザーの承認を求める「ヒューマン・イン・ザ・ループ」の仕組みを取り入れます。これにより、安全にエージェントを試すことができます。 エラーハンドリング: コマンド実行時のエラー(間違ったコマンド、ファイルがないなど)をAIが理解し、次の行動を適切に判断できるようにする仕組みが重要です。 システムは主に2つの要素で構成されます。 Bashクラス: Pythonのsubprocessモジュールを利用し、実際にシェルコマンドを実行する部分です。許可コマンドリストのチェックや、現在の作業ディレクトリの管理も行います。 エージェント本体: Nemotronモデルがユーザーの指示を理解し、次にどのようなBashコマンドを実行すべきか判断します。「システムプロンプト」というAIへの指示書を使って、エージェントの役割や、使えるコマンド、安全に関するルールを細かく設定します。 記事では、これらのコンポーネントをゼロから構築する方法と、LangChainのライブラリである「LangGraph」を使うことで、さらにシンプルにエージェントループを構築できる方法が示されています。LangGraphを使えば、AIエージェントの複雑な状態管理やツール呼び出しの処理を簡単に実装できます。 このチュートリアルを通して、AIエージェントがどのようにユーザーの意図を理解し、外部ツール(Bash)と連携してタスクを自律的に実行するかの基本原理を学ぶことができます。ぜひ、ご自身でコマンドを追加したり、プロンプトを調整したりして、AIエージェントの可能性を探ってみてください。 引用元: https://developer.nvidia.com/blog/create-your-own-bash-computer-use-agent-with-nvidia-nemotron-in-one-hour/ 開発合宿で Claude Codeの「サブエージェント」について学んだ話 この記事では、株式会社カミナシのエンジニアが開発合宿で学んだ、Claude Codeの「サブエージェント」という機能について、新人エンジニアの方にも分かりやすく解説されています。AIを使った開発を進める上でのヒントが得られる内容です。 開発合宿では、「人間は一切コードを書かず、AIエージェントのみでシステムを開発する」という目標が設定されました。普段のAIコーディングでは、AIに適切な指示や背景情報(これを「コンテキスト」と呼びます)を与えることがとても重要です。著者のチームでは、開発ルールをまとめた「CLAUDE.md」というファイルを使ってAIに指示を出していましたが、複数のプロジェクトを一つのリポジトリで管理する「モノレポ」環境のため、このファイルがどんどん肥大化していくという課題に直面していました。 CLAUDE.mdが大きくなりすぎると、例えばAPI開発をAIに依頼したいのに、フロントエンドのコンポーネント命名規則など、API開発には不要な情報までAIに読み込ませてしまうことになります。これはAIが指示を理解するのを難しくし、開発の効率を下げてしまう可能性がありました。 この課題を解決するために、合宿でチームメンバーから教えてもらったのが「サブエージェント」という機能です。サブエージェントとは、特定のタスク(例:フロントエンド開発、API開発、データベース設計など)に必要な情報とルールだけを持たせることができる、専門特化したAIエージェントのことです。 サブエージェントを使うことで、肥大化していたCLAUDE.mdを分割し、例えばAPI開発用のサブエージェントには「TypeScriptを使う」「関数型プログラミングで実装する」「テスト駆動開発を徹底する」といった、API開発に特化した最小限のルールだけを伝えることができるようになりました。 開発合宿では、システムアーキテクチャ設計用、API開発用、フロントエンド開発用、データベース設計用など、それぞれの専門サブエージェントを作成し、実際に開発を行いました。各エージェントには、その役割に合わせたベストプラクティスや開発ルールを「プロンプト」(AIへの指示文)として学習させました。 この仕組みを取り入れた結果、メインのCLAUDE.mdはシンプルに保たれ、各タスクを専門知識を持つサブエージェントに任せることで、AIコーディングの指示出しが非常にスムーズになり、開発の効率と精度が大きく向上したとのことです。 この記事は、「AIに『すべて』を教え込むのではなく、『必要な時に、必要な情報だけ

  5. 6일 전

    株式会社ずんだもん技術室AI放送局 podcast 20251022

    youtube版(スライド付き) 関連リンク やさしいClaude Skills入門 Anthropic社のAI「Claude」に、新たに「Claude Skills」という強力な機能が加わりました。これは、Claudeが特定のタスクを高品質かつ効率的に実行するための「ベストプラクティス集」のようなもので、指示やスクリプト、必要なリソースなどを一まとめにしたものです。技術的には「Agent Skills」とも呼ばれ、最近エンジニア界隈で大きな注目を集めています。 Claude Skillsの導入で嬉しいのは、AIにタスクを依頼する際の試行錯誤が減り、まるで経験豊富な先輩が手本を示すように、Claudeが最適な手順で作業を進められるようになる点です。これにより、私たちはAIの能力を最大限に引き出し、より少ない労力で高い成果を期待できるようになります。 その仕組みは、主に「SKILL.md」ファイルに記述されたスキルの概要情報(メタデータ)と、Claudeがファイルを読み込むための「Readツール」で動きます。Claudeは必要なSkillsのファイルだけを動的に読み込むため、AIが一度に扱える情報量(コンテキストウィンドウ)を無駄に消費せず、効率的な処理を実現します。これは、常にプロジェクト全体の指示を保持する「CLAUDE.md」や、ツール接続のプロトコルである「MCP」とは異なり、特定のタスクに特化した「便利機能パック」として、より具体的な作業効率化を目指しています。 Claude Skillsは、Claude Desktop、Claude API、Claude Codeなど様々な環境で利用可能です。Desktop版では設定から簡単に有効化でき、自作のSkillsもアップロードできます。API経由の場合は事前に登録が必要です。また、公式から提供されている「skill creator」というSkillsを使えば、独自のSkillsを効率的に作成できます。 効果的なSkillsを作るための「ベストプラクティス」(良いやり方)も紹介されています。特に、SKILL.mdのメタデータは常に読み込まれるため、簡潔にまとめることが重要です。また、SKILL.md自体の内容は500行以下に抑え、詳細な情報は別ファイルに分割するのが推奨されています。 具体的な活用事例としては、ウェブサービス「キミガタリ」の月間アップデートレポートを自動作成する取り組みが紹介されています。これまでは手動で行っていた定型レポート作成作業が、Claude Skillsを使うことで、現在時刻の確認から、Qiita投稿やGitコミット履歴の取得・分析、既存フォーマットへの沿った記事作成までを自動化。数秒で「まるで自分が書いたような記事」が完成するようになり、大幅な効率化が実現しました。 Claude Skillsは、ベテランエンジニアの知識やノウハウをAIに学習させ、組織における「属人化」(特定の個人にしかできない仕事)を解消する可能性を秘めています。質の高いSkillsが販売されるエコシステムの発展も期待されており、新人エンジニアの皆さんにとって、AIの活用範囲を広げる強力なツールとなるでしょう。 引用元: https://www.docswell.com/s/harinezumi/5M683X-2025-10-21-003933 LangChain raises $125M to build the platform for agent engineering AIエージェント開発をリードするLangChainが、1.25億ドル(約180億円)の資金調達と、企業価値12.5億ドル(約1800億円)への評価を発表しました。この資金は、AIエージェントをより信頼性高く開発するための「エージェントエンジニアリング」プラットフォームの構築に充てられます。 LLM(大規模言語モデル)の登場で様々なアプリケーションが可能になりましたが、データやAPIと連携して自律的に動く「AIエージェント」こそがその真の力を引き出します。しかし、AIエージェントは試作は容易でも、本番環境で安定稼働させるのは非常に難しいという課題があります。「エージェントエンジニアリング」とは、この課題を解決し、非決定論的なLLMシステムを信頼性の高い体験へと磨き上げていく反復的なプロセスです。 LangChainはこの「エージェントエンジニアリング」のための包括的なプラットフォームを提供しています。主な発表内容は以下の通りです。 LangChainとLangGraphの1.0リリース: AIエージェントを迅速に構築できるオープンソースフレームワークが安定版となり、一般的なエージェントパターン向けのアーキテクチャが強化されました。LangGraphを使えば、エージェントの動作をより細かく制御できます。 LangSmithの機能強化: エージェントの挙動を可視化する「Observability」、生産データでテスト・評価する「Evaluation」、ワンクリックでデプロイできる「Deployment」、そしてノーコードでエージェントを構築できる「Agent Builder」(プライベートプレビュー中)が提供され、開発から運用までをトータルでサポートします。 Insights Agentの導入: LangSmithの機能として、エージェントの動作パターンを自動で分類する「Insights Agent」が追加されました。 LangChainのツール群は、AIエージェント開発のハードルを下げ、開発者が信頼性の高いエージェントをより効率的に生み出すことを支援します。AIエージェントが次の大きな波となる中で、LangChainの動向は今後も注目されそうです。 引用元: https://blog.langchain.com/series-b/ LLMs Can Get Brain Rot この研究では、大規模言語モデル(LLM)も人間のように、低品質な情報に触れ続けることで能力が低下する「LLMブレインロット(脳の腐敗)仮説」を提唱し、その実証実験を行いました。「ブレインロット」とは、インターネット上の「つまらないけれど目を引くコンテンツ」ばかりを見ていると、人間の集中力や記憶力、判断力が鈍るという俗語から着想を得た言葉です。 研究チームは、LLMが継続的に「ジャンクデータ」に触れると、モデルの認知能力が長期的に低下するという仮説を立てました。これを検証するため、実際のTwitter/Xの投稿を基に、以下の2種類の基準で「ジャンクデータ」と「コントロールデータ(通常の高品質なデータ)」を作成しました。 M1 (エンゲージメント度):人気があって短い、いわゆる「バズった」投稿をジャンクデータとしました。これは、注意を引くが内容の浅い情報が、人間がSNSを延々と見てしまう現象に似ているためです。 M2 (意味的品質):「すごい!」「今日だけ!」のような扇情的な言葉や誇張された表現を含む投稿をジャンクデータとしました。 これらのジャンクデータをLLMに継続的に学習させたところ、驚くべき結果が明らかになりました。ジャンクデータに触れ続けたLLMは、そうでないモデルと比べて、推論能力、長文の理解力、安全性(不適切な指示への対応)が著しく低下することが判明しました。例えば、推論タスクのスコアが大幅に落ち込んだり、サイコパシーや自己愛といった「ダークな特性」を示す傾向が強まったりしました。また、ジャンクデータの割合が増えるほど、能力の低下がより顕著になるという「用量反応性」も確認されました。 エラーの原因を詳しく調べた結果、LLMが思考プロセスを途中で省略してしまう「思考スキップ」が、能力低下の主要な要因であることが分かりました。さらに懸念されるのは、一度ジャンクデータに汚染されて能力が低下したLLMは、その後、高品質なデータを使った追加学習やファインチューニングを行っても、元の能力レベルまで完全に回復することは難しいという点です。これは、モデル内部の表現に根本的な変化が生じてしまうことを示唆しています。 この研究は、LLMの学習データとしてインターネット上の情報を用いる際、そのデータ品質の重要性を改めて浮き彫りにしました。私たちがAIの信頼性や性能を維持していくためには、継続的な学習におけるデータの選定と品質管理が極めて重要であり、まるで人間の健康診断のように、展開されているLLMに対しても定期的な「認知的健康診断」が必要であると結論付けています。 引用元: https://llm-brain-rot.github.io/ 「ひかれるという感情が薄い」→北海道の車道で目撃……車をまったく気にしない野生動物 釧路では「まれによくある」光景に5.2万“いいね” 北海道釧路で、車道をまったく気にせず堂々と歩く野生動物の姿がSNSで5.2万いいねを集め話題になっています。この地域では動物たちが車に「ひかれる」という感情が薄く、このような光景は「まれによくある」とのこと。私たちエンジニアも、時にはコードから離れて、自然の中での面白い出来事に目を向け、クスッと笑ってリ

  6. 10월 20일

    株式会社ずんだもん技術室AI放送局 podcast 20251021

    youtube版(スライド付き) 関連リンク Build an AI Agent to Analyze IT Tickets with NVIDIA Nemotron 現代のIT運用では、インシデントや問い合わせから生まれる膨大なチケットデータがあります。しかし、これらのデータは単なる記録であり、そこからシステム全体の課題やチームのパフォーマンスに関する深い洞察を得るのは困難です。多くの場合、手作業での分析や複雑なクエリが必要となり、時間と労力がかかります。 NVIDIAのIT部門が開発したAIエージェント「ITelligence」は、この課題を解決するために作られました。このシステムは、NVIDIA Nemotronという先進的なAIモデルの推論能力と、データ間の関係性を明確にするグラフデータベースを組み合わせています。これにより、LLM(大規模言語モデル)で非構造化データから文脈を読み解き、グラフクエリでチケット間の関係性、異常、パターンを効率的に見つけ出すことを目指します。 AIエージェントの構築は、以下の主要なステップで行われます。 データ取り込みとグラフモデリング: ITSM(ITサービス管理)プラットフォームなどからチケットデータを収集し、ユーザー、インシデント、デバイスといった情報を「ノード」、関連性を「エッジ」としてグラフデータベースに格納。複雑なデータ間のつながりを可視化し、効率的なクエリを可能にします。 文脈のエンリッチメント: チケットに「新入社員の有無」「デバイスの種類」といった補助情報を追加し、分析の分類能力を高めます。 根本原因分析(RCA): LLM(例: Llama 3)を使って、チケットの記述や解決メモから、具体的な根本原因キーワードを自動抽出。従来のカテゴリー分類では捉えきれない詳細な問題点を特定できます。 洞察の生成: LLMが、解決時間(MTTR)、顧客満足度(CSAT)、頻繁に発生する根本原因、新入社員のオンボーディング時の課題など、組織やチームレベルでのパターンや洞察を自動生成します。 アラートと自動配信: KPIトレンドを監視し、異常があれば担当者に自動でアラートを送信。また、AIが生成した要約レポートを定期的に自動配信し、部門ごとの具体的な情報共有と意思決定をサポートします。 インターフェースには、複雑な質問に対応できるインタラクティブなダッシュボード(Grafanaなど)が採用されました。RAG(検索拡張生成)ベースのチャットボットではなくダッシュボードを選んだのは、チャットボットではユーザーの複雑な意図を正確に解釈し、常に適切なクエリを生成するのが難しい場合があるためです。代わりに、ダッシュボードのフィルタリング結果と連携するカスタムの要約サービスAPIを介して、LLMがオンデマンドで要約を生成。これにより、手動でのチケットレビューを省き、共通の問題点や推奨事項を迅速に把握できるようになります。 このAIエージェントは、非構造化されたITチケットデータを実用的な洞察に変え、IT運用の意思決定と効率化を強力に支援します。 引用元: https://developer.nvidia.com/blog/build-an-ai-agent-to-analyze-it-tickets-with-nvidia-nemotron/ Scaling Large MoE Models with Wide Expert Parallelism on NVL72 Rack Scale Systems 最近のAI、特に大規模言語モデル(LLM)はますます巨大化しており、その中でも「MoE(Mixture-of-Experts)」という特殊な構造を持つモデルが注目されています。MoEモデルは、トークンごとに一部の「エキスパート」(専門家)だけを動かすことで、従来のモデルよりも効率的に計算できるのが特徴です。しかし、このMoEモデルを非常に大規模な環境で効率よく動かすには、いくつかの課題があります。 この記事では、NVIDIAが提案する「Wide Expert Parallelism(Wide-EP)」という技術と、その基盤となる「GB200 NVL72」というシステムが、これらの課題をどのように解決し、大規模MoEモデルの推論を高速化・効率化するのかを解説しています。 MoEモデルスケーリングの課題とWide-EPによる解決策 メモリと計算のボトルネック: MoEモデルでは、必要なエキスパートの「重み」(モデルの知識データ)をGPUに読み込む作業が頻繁に発生し、これが処理の遅延につながります。Wide-EPでは、エキスパートの処理を多数のGPUに分散させることで、1つのGPUが持つエキスパートの数を減らし、重みデータの読み込みを効率化します。これにより、GPUがより集中して計算に専念できるようになります。 GPU間の通信オーバーヘッド: エキスパートが複数のGPUに分散しているため、計算結果を集約する際に大量のデータ通信が必要になります。この通信が遅れると、全体の処理速度が低下します。GB200 NVL72システムは、超高速なNVLinkという技術でGPU間を接続しており、最大130TB/秒という圧倒的な帯域幅で、この通信のボトルネックを解消します。また、NVIDIAのNCCLライブラリが最適化された通信カーネルを提供し、効率的なデータ交換を可能にします。 負荷の偏り(ロードバランシング): 特定のエキスパートが頻繁に使われる一方で、使われないエキスパートもあるため、一部のGPUばかりが忙しくなり、他のGPUが遊んでしまうことがあります。Wide-EPの「Expert Parallel Load Balancer (EPLB)」は、利用状況に応じてエキスパートのGPUへの割り当てをリアルタイムまたは事前に調整し、すべてのGPUが均等に働くように負荷を分散します。 これらの技術はNVIDIAのTensorRT-LLMに組み込まれており、さらに「NVIDIA Dynamo」と組み合わせることで、大規模なMoEモデル推論のオーケストレーション(全体の管理)と実行を最適化します。 性能と経済性へのインパクト Wide-EPをGB200 NVL72システムで活用することで、GPUあたりの処理能力が最大1.8倍向上することが確認されています。これは、モデルの推論コスト(TCO)を大幅に削減し、より多くのユーザーに対して高速なAIサービスを提供できることを意味します。新人エンジニアの皆さんにとっては、将来、巨大なAIモデルを扱う際に、このような分散処理と最適化技術が非常に重要になるということを理解する上で、この記事は良い学びになるでしょう。 引用元: https://developer.nvidia.com/blog/scaling-large-moe-models-with-wide-expert-parallelism-on-nvl72-rack-scale-systems/ AWSで障害–PerplexityやSlackなどグローバルサービスに支障 新人エンジニアの皆さん、今日の重要なITニュースについてお話しします。私たちが毎日使っているインターネットサービスは、巨大な「クラウドサービス」という基盤の上で動いていることが多いのですが、その代表格であるAmazonの「Amazon Web Services(AWS)」で、世界的な障害が発生しました。 AWSは、世界中の企業がウェブサイト、アプリケーション、データ保存、そして最近ではAIの複雑な計算処理など、様々なITシステムを動かすために利用している巨大なデータセンターの集合体です。今回の障害は、2025年10月20日17時30分頃、主にアメリカ東部の「US-EAST-1」というリージョン(物理的に離れた地域に設置された、独立したデータセンターのグループ)で発生しました。このUS-EAST-1は、AWSの中でも特に多くのサービスが利用する中心的なリージョンの一つであるため、ここで問題が起きると影響が非常に広範囲に及ぶのが特徴です。 具体的に影響を受けたサービスとしては、最新のAIチャットサービスである「Perplexity」や、多くの企業で使われているビジネスチャットツールの「Slack」の一部機能(例えば、音声会議機能のハドルなど)、ゲームプラットフォームの「EpicGames」などが挙げられています。これらのサービスが一時的に利用できなくなったり、動作が遅くなったりする事態が発生しました。この影響はアメリカだけでなく、日本のユーザーにも波及し、SNS上では「仕事で使っているSlackのハドルが使えなくて困った」「Perplexityで調べ物ができない」といった声が多数上がりました。 PerplexityのCEO、アラヴィンド・スリニヴァス氏も、自身のX(旧Twitter)アカウントで「Perplexityが現在ダウンしており、原因はAWS側の問題だ」とコメントし、復旧に向けて対応中であることを明らかにしました。AWS側も、ステータスページで問題が発生していることを公表し、原因の特定と復旧作業を進めている状況です。 今回のAWS障害は、普段当たり前のように利用しているインターネットサービスが、いかに一つの巨大なインフラに依存しているか、そして、そのインフラで

  7. 10월 19일

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251020

    関連リンク The Case for the Return of Fine-Tuning AIの世界では、一度は主流から外れていた「ファインチューニング」という技術が、再び大きな注目を集めています。これは、既存の大規模言語モデル(LLM)を、より特定の用途やデータに合わせて微調整する技術のことです。 かつて、Transformerモデルの登場により、ファインチューニングは効率的なモデル開発手法でした。しかし、LLMが非常に巨大化すると、モデル全体を再学習する「フルファインチューニング」は莫大な計算コストと時間が必要となり、実用的ではなくなりました。その代わりに、開発者はモデルへの指示を工夫する「プロンプトエンジニアリング」や、外部情報を参照させる「RAG(Retrieval-Augmented Generation)」を活用するようになりました。これらはモデルを再学習する必要がなく、手軽に良い結果を出せたからです。 ところが、2021年にMicrosoft Researchが発表した「LoRA(Low-Rank Adaptation)」という新しい手法が状況を変えました。LoRAは、モデルのほとんどの部分を固定し、ごく一部の小さな追加部分だけを学習することで、コストを大幅に削減しつつ、フルファインチューニングと同等の性能を引き出すことを可能にしました。Hugging FaceのPEFTライブラリもLoRAの実装を容易にし、ファインチューニングのハードルを大きく下げました。 現在、ファインチューニングが再び重要視されている主な理由は以下の通りです。 技術環境の整備: GPUを利用できるクラウドサービスが増え、LoRAのような効率的な手法が手軽に実行できるようになりました。 モデルの進化安定: LLMの進化が「革命的」から「進化的」になり、ファインチューニングしたモデルが無駄になりにくくなりました。 オープンソース化: MistralやLlamaのようなオープンなLLMが増え、企業が自社のニーズに合わせてモデルをカスタマイズしやすくなりました。 プロンプトの限界: プロンプトやRAGだけでは対応しきれない、企業独自の専門用語や話し方、複雑なルールなど、よりきめ細かなカスタマイズが求められるようになったからです。 Thinking Machines Labsの「Tinker」のような新しいプラットフォームは、ファインチューニングをさらに進化させています。例えば、LoRAの適用範囲を広げたり、学習率やバッチサイズといったパラメータを工夫したりすることで、より高性能なモデルを効率的に作れるよう提唱されています。現代のファインチューニングは、一つの大きなモデルを調整するだけでなく、ベースモデルと複数のLoRAアダプターを組み合わせて、用途に応じて柔軟に切り替える「モジュール式」へと進化しています。 モデルの評価にはまだ課題が残るものの、今後は運用中にフィードバックを受けて自動で学習し続ける「継続的学習」のような仕組みも期待されています。 ファインチューニングは、単なる技術的な調整を超え、企業がAIを自社のビジネスに合わせて深くカスタマイズし、独自の強みを生み出すための「戦略的な手段」として、その価値を高めています。AIをよりパーソナルに、より専門的に活用する未来において、この技術が果たす役割はますます大きくなるでしょう。 引用元: https://welovesota.com/article/the-case-for-the-return-of-fine-tuning LLM回答精度検証でテストデータやテストケースケースをAIに作ってもらう この記事では、LLM(大規模言語モデル)の回答精度を検証するために必要な「テストデータ」や「テストケース」を、AIと協力して効率よく作成する方法が解説されています。新人エンジニアの皆さんも、AIを上手に活用して開発作業を効率化するヒントが得られるでしょう。 まず、LLMを使った情報検索システム(例:Slackのメッセージ検索)の検証に使う「ダミーデータ」作りからスタートです。筆者は、実際のメッセージのJSONデータをAIに見本として渡し、「スレッド内のメッセージとスレッド外のメッセージを半々で100件作ってほしい」「改行や文字数のばらつきも入れてほしい」といった具体的な条件を細かく指定しました。AIはこれらの指示に応え、人間と対話しながら、より本物に近い、多様なメッセージデータを作り上げていきました。 次に、この作成したダミーデータを異なる形式に変換する作業もAIに依頼しました。例えば、読みやすいPretty JSON形式を、プログラムで扱いやすいOne-line JSONやCSV形式に変換したい場合です。筆者はAIに「JSON部分を1行にするスクリプトを作って」と指示したり、「CSV形式ならどんな形が良いか」と相談したりしました。AIは複数の変換案を提示し、筆者のフィードバック(例:「.で階層構造を表現する」)を受けて、最終的にPythonスクリプトを生成。このスクリプトを使うことで、適切な形式のデータが自動的に準備できました。 さらに、LLMの回答が正しいかを評価するための「テストケース」もAIと共に作成しました。当初、AIの提案は単純な「番号指定」のケースに偏っていました。そこで筆者は、AIに自身の提案を見直させる「critical-think」という機能を使ってみました。するとAIは、より多様な視点からのテストが必要だと自己認識し、「BigQueryについて話しているメッセージ」のような「内容ベース」の指定や、「U089VWX0YZAさんが投稿したメッセージ」のような「ユーザー名ベース」、さらには複数の条件を組み合わせた「複合条件」など、多角的なテストケースを再提案。スレッドの返信メッセージに関するテストも要望に応じて増やし、最終的にコメント付きでテスト設定ファイルに追記するまでをAIに任せました。 このように、LLMの検証に必要なテストデータやテストケースの作成において、AIは単に指示を実行するだけでなく、課題を認識し、より良い解決策を提案する強力なパートナーとなることが示されています。AIとの効果的な「壁打ち」を通じて、開発プロセス、特に検証フェーズの効率を大幅に向上させることができるという、現代のエンジニアリングにおいて重要な知見が得られるでしょう。 引用元: https://blog.shibayu36.org/entry/2025/10/15/173000 RAGでのデータ整形(改行・インデント)がLLMの回答精度に与える影響を検証した 今回の記事は、AIシステムの一つであるRAG(Retrieval Augmented Generation)において、大規模言語モデル(LLM)に渡すデータの「整形方法」(例えば、JSONデータを読みやすくするために改行やインデントを入れるかどうか)が、LLMの回答精度にどう影響するのかを検証した興味深いレポートです。 筆者は自身のプロジェクトで、トークン消費を抑えるためにデータを1行のJSON形式でLLMに渡していましたが、回答精度が不安定なことがあり、整形の影響について疑問を持っていました。そこで、この疑問を解決するために実験を行ったのです。 検証では、「oneline JSON(改行なしのJSON)」「pretty JSON(改行・インデントありのJSON)」「CSV」の3種類のデータ形式を用意し、最新のLLM(gpt-5, claude-sonnet-4-5など)と少し前のモデル(gpt-4.1-mini, claude-3-7-sonnetなど)を使って、特定の情報を抽出し、SlackのURLを生成できるかを試しました。 実験の結果、次の3つの重要な発見がありました。 データ整形は精度に大きな影響を与えない: データを見やすくするために改行やインデントを入れても、LLMの回答精度は特に向上しないことが分かりました。つまり、人間が読みやすい形式が、必ずしもLLMにとっても良いとは限らないということです。 LLMの性能向上で差がなくなる: 最新の高性能なLLM(特にgpt-5)では、どのデータ形式を使ってもほぼ100%の正答率を叩き出し、整形による精度の差はほとんどありませんでした。これは、LLMが賢くなればなるほど、データの見た目はそれほど気にしなくてよくなることを示唆しています。 トークン効率が重要: 精度に大きな差がないのであれば、RAGにおいてはLLMへの入力に使う「トークン数」を最も少なくできるフォーマットを選ぶのが賢い選択と言えます。トークン数が少なければ、それだけ処理コストも下がり、効率的です。今回の検証では、CSV形式が最もトークン消費が少なかったため、コスト面で有利である可能性が示唆されました。 この検証から、新人エンジニアの皆さんは、RAGシステムを設計する際に、データの見た目を整えることよりも、LLMの性能が十分高ければトークンコストを意

  8. 私立ずんだもん女学園放送部 podcast 20251017

    10월 16일

    私立ずんだもん女学園放送部 podcast 20251017

    youtube版(スライド付き) 関連リンク Cognition Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval このブログ記事は、AIコーディングエージェントの「速さ」と「賢さ」という、これまでの課題を解決する新技術「SWE-grep」と「SWE-grep-mini」を紹介しています。これは、まるで人間のようにコードベースを理解・探索し、必要な情報を素早く見つけ出すためのAIモデルです。 これまでのAIコーディングエージェントは、複雑なタスクは得意でも、コード検索に時間がかかりすぎて開発者の作業を中断させてしまうという問題がありました。特に、AIエージェントが最初に情報を探し出す「文脈取得」の段階で、作業時間の60%以上を費やすこともあったそうです。 文脈取得の方法には主に2つありました。 埋め込み検索(RAG): 事前の準備は速いものの、複雑なコードのつながりを追うような検索では不正確になる可能性がありました。 エージェントによる検索: 人間のようにCLIツール(コマンドラインツール)を使ってコードを探索するため柔軟ですが、何度もAIとのやり取りが発生し、非常に時間がかかりました。また、関係ない情報まで大量に読み込んでしまい、AIの判断を鈍らせる「コンテキスト汚染」という問題も抱えていました。 そこで登場したのが、今回発表された「SWE-grep」と「SWE-grep-mini」です。これらのモデルは、従来の最先端のAIコーディングモデルと同等の情報検索能力を持ちながら、なんと10倍も速く結果を返します。これにより、AIがコードを理解するためにかかる時間が大幅に短縮され、開発者はWindsurfというツールで「Fast Context(高速な文脈取得)」サブエージェントとして利用できるようになります。デモプレイグラウンドでもその速さを体験できます。 SWE-grepがこれほど高速な理由は以下の通りです。 並列ツール呼び出し: 複数の検索コマンド(grep、ファイル読み込みなど)を同時に実行することで、コードベースの様々な部分を効率よく探索します。従来のAIが1つずつ検索していたのを、同時に8つまで実行できるように訓練されています。 最適化されたツールと高速な推論: 検索ツール自体も高速化され、さらにCerebras社と協力してAIモデルの推論(思考)速度も大幅に向上させています。 これらのモデルは、強化学習(RL: Reinforcement Learning)というAIの訓練方法を使って開発されました。特に、報酬関数では、関連性の高い情報を正確に取得することを重視し、「コンテキスト汚染」を避けるように学習させています。 Cognition社は、この「Fast Context」技術を「Fast Agents」という、より広範な目標の第一歩と位置づけています。最終目標は、開発者が集中して作業できる「フロー状態」を維持し、ソフトウェア開発の生産性を最大限に高めることです。AIエージェントの応答速度が、開発者の作業効率に大きく影響すると考えており、わずか5秒という短い「フローウィンドウ」を目標に、AIの賢さと速さの両方を追求しています。 引用元: https://cognition.ai/blog/swe-grep AIエージェントを支える技術: コンテキストエンジニアリングの現在地 AIエージェントは、まるで人間のようにタスクをこなすための技術ですが、その性能を最大限に引き出すためには「コンテキストエンジニアリング」という技術が非常に重要です。新人エンジニアの皆さんも、この考え方を理解することで、AI開発の奥深さに触れることができるでしょう。 コンテキストエンジニアリングとは? これは、大規模言語モデル(LLM)に与える「情報(コンテキスト)」をどう効率的に扱うかを考える技術です。特定のタスクに特化した指示の出し方であるプロンプトエンジニアリングに対し、コンテキストエンジニアリングは、AIが複数回の推論を伴う複雑なタスクをこなすための情報管理全般を指します。例えば、外部の情報を引っ張ってくるRAG(Retrieval Augmented Generation)もこの一部です。 なぜコンテキストエンジニアリングが重要なの? LLMが一度に扱える情報量には限りがあります。情報が多すぎると、必要な情報が埋もれてしまう「Context Rot」という現象が起こり、AIは「本当に必要な情報だけを、適切な量で与える」ことが不可欠であることを示しています。この効率的な情報の与え方が、AIの出力品質を大きく左右するのです。 コンテキストエンジニアリングの3つの手法 情報の取得と生成 (Context Retrieval & Generation) AIがタスクを進める上で、必要な情報をリアルタイムで探し出し、準備する技術です。外部データベースからの情報取得や、ユーザーの質問をより適切な形に書き換えるなどが該当します。 情報の加工 (Context Processing) 取得した情報が使いにくい場合があるため、LLMが理解しやすいように加工します。不要な情報をフィルタリングしたり、長文を要約・圧縮したりします。また、AIに役割や振る舞いを教える「システムプロンプト」の設計や、少数の具体例(Few-shotプロンプティング)を効率的に提示することも含まれます。AIの処理を高速化する「KVキャッシュ」の最適化も重要です。 情報の管理 (Context Management) AIが過去に得た知識や経験を記憶し、次に活かすための技術です。一時的なメモ(Scratchpad)のような短期間の記憶と、永続的に保存される長期的な記憶があります。AIがタスクで失敗した際、その原因を記憶しておくことで、同じ失敗を繰り返さないようにするといった活用も可能です。複数のAIが協力する「マルチエージェント」の場合は、エージェント間で情報が共有され、整合性が保たれるように管理することが非常に重要になります。 コンテキストエンジニアリングは、AIエージェントをより賢く、より効率的に動かすための、まさに土台となる技術です。この知識を身につけることで、皆さんのAI開発スキルは格段に向上するでしょう。 引用元: https://tech.algomatic.jp/entry/2025/10/15/172110 【コピペOK】AIエージェントで良いコードを書く!誰でも使える品質向上ルールの設定方法 AIエージェントを使った開発はとても便利ですが、「動くコードは作ってくれるけど、品質は大丈夫かな?」と不安に感じることはありませんか?この記事は、AIエージェントに「良いコード」の基準を教え込み、コード品質を向上させるための「共通ルールファイル」の活用法を紹介しています。 なぜAIにルールが必要かというと、プログラミングにおける「良いコード」とは、ただ動くだけでなく、読みやすさ、修正のしやすさ、セキュリティ、処理速度など、さまざまな品質が求められる奥深いものだからです。AIエージェントは、私たちが何も指示しなければ、プロジェクトの文脈(例えば、試作品なのか、お客様に納品する本番用なのか)を自ら判断できないため、「とりあえず動くコード」を優先しがちです。だからこそ、私たちが「ルール」として明確な品質基準を教えてあげる必要があります。 「共通ルールファイル」は、AIに対する開発の指針をまとめたドキュメントで、まるで優秀な先輩エンジニアが隣でアドバイスしてくれるように、AIが常に品質を意識してコードを生成するようになります。このファイルは一度設定すれば、新しいプロジェクトごとに設定し直す必要がなく、多くのプロジェクトで共通の品質基準を保ちながら効率的に開発を進められるのが大きな利点です。 設定方法は非常に簡単で、Claude Code、Codex、Cursorといった主要なAIエージェントの場合、指定された場所にルールファイルを作成し、記事で提供されているルールをコピー&ペーストするだけで完了します。 新人エンジニアの皆さんが特に意識すべき「良いコード」のポイントとして、記事では以下の8つの観点が紹介されており、これらをAIが考慮するように設定できることで、皆さんの学習にも繋がります。 エラーハンドリング: プログラムで問題が起きたときに、適切に対処し、ユーザーに状況を伝える。 セキュリティ: パスワードの隠蔽や悪意ある入力のブロックなど、プログラムの安全性を確保する。 保守性: 後から機能を追加したり、バグを修正したりしやすいように、整理されたコードを書く。 テスタビリティ: プログラムが正しく動くか確認(テスト)しやすい作りにする。

소개

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

좋아할 만한 다른 항목