株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

  1. 1 NGÀY TRƯỚC

    株式会社ずんだもん技術室AI放送局 podcast 20251202

    youtube版(スライド付き) 関連リンク Accenture and OpenAI accelerate enterprise AI success グローバルなコンサルティング会社であるAccenture(アクセンチュア)と、生成AIの最先端を走るOpenAIが提携し、企業におけるAI活用を大きく加速させることを発表しました。この提携は、特に「エージェントAI」という、まるで人間のように自ら考えて行動し、自律的にタスクをこなすAIの能力をビジネスに深く組み込むことを目指しています。 この協力関係の大きなポイントはいくつかあります。まず、Accentureは世界規模で数万人の社員にビジネス向けに強化された「ChatGPT Enterprise」を導入し、OpenAI公式のトレーニングを通じてAIスキルを習得させます。これはOpenAIの認定プログラムとしては過去最大規模となり、Accenture自身のコンサルティングや業務、システム開発などのあらゆる仕事でChatGPTを活用し、その経験をクライアントのAI導入支援に活かしていく方針です。 次に、OpenAIはAccentureが提供する次世代AIサービスにおいて、主要なテクノロジーパートナーとなります。両社は共同で、企業がAIを事業のあらゆる領域に導入するための新たな「旗艦AIクライアントプログラム」を立ち上げます。このプログラムでは、OpenAIが持つ最先端のAI製品とAccentureが持つ業界ごとの深い知識や導入経験が組み合わされます。 具体的には、クライアント企業がAIをビジネスに取り入れるための最新ガイドラインや成功事例、セキュリティに関する知見、そして実践的なノウハウが提供されます。カスタマーサービス、サプライチェーン、財務、人事といった企業の主要な業務プロセスにおいて、AIを活用した新しいソリューションが共同で開発される予定です。特に、OpenAIが提供する「AgentKit」というツールを使って、企業独自のAIエージェントを迅速に開発・導入し、業務の自動化や意思決定の支援、そしてビジネス全体の変革を加速させることを目指します。 この提携を通じて、企業は最先端のエージェントAI技術をより速く、そして深く組織に組み込むことが可能になり、新たな成長の機会を創出することが期待されます。 引用元: https://openai.com/index/accenture-partnership 【みんなでやる】 Claude Code Actionでテックブログレビューエージェントをマルチエージェント構成に進化させてみた Insight Edge社が、テックブログのレビュー作業を効率化し品質を高めるため、AIエージェントシステムを大幅に進化させた取り組みを紹介する記事です。新人エンジニアの皆さんも、生成AIを実務に活用するヒントが見つかるはずです。 このシステムは、当初LangGraphベースで構築されましたが、AnthropicのClaude Code Actionを活用し、複数のAIエージェントが協力し合う「マルチエージェント構成」へと発展しました。 課題とマルチエージェント構成による解決 従来のAIレビューでは、指摘の質のばらつき、ファクトチェック不足、レビューが表面的な内容にとどまる、執筆段階に合わせたレビューができないといった課題がありました。これを解決するため、AIエージェントを以下のように進化させました。 段階的レビュー: 執筆のフェーズ(目次、初稿、修正後)に合わせて「/outline-review」「/initial-review」「/update-review」という専用のカスタムスラッシュコマンドを用意。執筆者は必要なタイミングで最適なレビューを受けられます。 レビューの質向上: マルチエージェント化: 日本語品質、技術的正確性、SEO、読者体験など、各専門分野に特化した複数のAIエージェント(サブエージェント)を導入。それぞれが独立したコンテキストで深く専門的なレビューを行います。 ペルソナ駆動レビュー: 記事内容に応じてターゲット読者(ペルソナ)をAIが生成し、その視点からレビューを行うことで、より実践的なアドバイスを提供します。 外部ツール(MCPツール)連携とWeb検索・取得機能: textlintによる日本語チェック、Context7による最新技術ドキュメント参照、Web検索による時事ネタや技術のファクトチェックなど、AIの能力を外部ツール連携で拡張しました。 効率的な修正提案: GitHubのプルリクエスト上で、AIが直接修正案を提案する「GitHub Suggestion」機能を活用。該当箇所にワンクリックで修正を適用できるようになり、執筆者の負担を軽減します。 システム構築における工夫点 カスタムスラッシュコマンドでのワークフロー制御: コマンド一つで、環境判定、ペルソナの適用、記事内容に応じたサブエージェントの条件付き起動、並列実行を自動で行い、レビューフローを最適化しました。 サブエージェント分離によるコンテキスト節約: 各サブエージェントが独立した役割を持つことで、AIが一度に処理する情報量を抑えつつ、それぞれの専門性を深め、レビューの質を高めています。 JSON形式での結果受け渡し: 複数のサブエージェントから返されるレビュー結果を統一されたJSON形式で設計し、結果統合やレポート生成をスムーズにしました。 ツールの明示的な活用指示と有効化: GitHub SuggestionやWeb検索などの機能は、AIにプロンプトで具体的に指示するだけでなく、Claude Code Actionの設定で明示的に有効化することが重要です。 まとめ この事例は、生成AIの機能を単体で使うだけでなく、複数のAIを連携させる「マルチエージェント」という考え方や、外部ツールとの組み合わせで実務的な課題を解決できる可能性を示しています。AI技術の進化を「やってみる・みんなでやる・やり抜く」という精神で継続的に改善していくことの重要性が学べます。皆さんもAIを活用した業務改善に挑戦し、新しい価値を創造してみてください。 引用元: https://techblog.insightedge.jp/entry/claude-code-techblog-review-agent Nano Banana Pro (Gemini 3 Pro Image)で画像生成・編集をやってみた - GMOインターネットグループ グループ研究開発本部 Googleから、最新の画像生成・編集AIモデル「Nano Banana Pro (Gemini 3 Pro Image)」がリリースされました。これは従来のNano Banana (Gemini 2.5 Flash Image)がGoogleの強力なAIモデルであるGemini 3 Proの推論能力を取り込んだことで、さらに高性能になったバージョンです。 Nano Banana Proの主な特徴は以下の通りです。 高解像度画像生成: 最大4Kの非常にクリアな画像を生成できます。 複数画像からの生成・編集: 最大14枚の入力画像を利用でき、特に人物の場合は最大5名まで、見た目の一貫性を保ったまま新しいシーンに配置できます。 リアルタイム情報の活用: Google検索と連携し、最新の天気情報などリアルタイムデータに基づいた画像を生成可能です。 このモデルは、Geminiアプリ、Gemini API、そしてGoogle AI Studioを通じて利用できます。Geminiアプリでは「Thinking」モードを選ぶとNano Banana Proを利用でき、無料ユーザーでも利用回数に制限はありますが試すことが可能です。性能評価サイトLMArenaでは、画像生成・編集およびText-to-Imageのタスクでトップ評価を得ており、その能力の高さがうかがえます。ただし、従来のNano Bananaに比べて生成に時間がかかり、コストも高くなるため、用途に応じた使い分けが推奨されています。 エンジニアとしてNano Banana Proを利用するには、Pythonのgoogle-genaiライブラリを使ってAPI経由でアクセスするのが一般的です。gemini-3-pro-image-previewというモデル名を指定することで利用でき、aspect_ratioやimage_sizeといった設定で解像度やアスペクト比を細かく制御できます。また、tools=[{"google_search": {}}]を設定することで、リアルタイム検索機能を使った画像生成が可能です。Google AI Studioでもチャット形式で手軽に試せますが、有料APIキーとの連携が必要となります。 高品質な画像を生成するためには、プロンプト(指示文)の工夫が重要です。Googleからは以下のコツが共有されています。 具体的に指示する: 被写体、構図、動作、場所、スタイル、編集内容などを詳細に記述します。 文脈と意図を明確に: 何を目的とした画像なのかを伝えます。 段階的に生成する: 複雑なシーンは背景から順に要素を追加していくと良いでしょう。 カメラ表現を活用する: 広角ショット、ローアングル、ライティングの指示などを加えることで、より意図に近い画像を生成できます。 Nano Banana Proは、これらの強力な機能と日本語の文字レンダリング改善により、画像生成・編集の可能

  2. 2 NGÀY TRƯỚC

    マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251201

    関連リンク Claude Code のプランモードがより正確な計画を立てられるようになっていた AIによるコーディング支援ツール「Claude Code」のプランモードが、より賢く、詳細な計画を立てられるように進化しました。新人エンジニアの皆さんも、AIが開発プロセスをどう変えるのか、その最前線として注目してみてください。 今回のアップデートで、プランモードは次の3つの主要な改善点を持ちます。 計画立案に「専用のAI」を活用 Claude Codeは、計画を立てるためだけの「プランサブエージェント」を導入しました。このサブエージェントは、既存の探索用AIよりも高性能な「Sonnet」モデルを使用しています。これにより、メインのAIの負荷を軽減しつつ、コード構造の分析や専門的なタスク理解能力が向上し、より詳細で正確な計画の立案が可能になりました。 不明点を「ユーザーに直接質問」する機能 AIに指示を出す際、指示が曖昧だったり情報が不足していると、期待通りの結果にならないことがあります。新しいプランモードでは、計画を進める上で不明な点があれば、具体的な質問をユーザーに投げかけ、対話形式で確認できるようになりました。これにより、ユーザーの真の要求を正確に把握し、開発途中の手戻りを未然に防ぐ効果が期待できます。 計画が「詳細な仕様書」としてファイル保存されるように 以前は計画の概要を示すだけでしたが、これからは生成された計画がMarkdownファイルとして保存されます。このファイルには、単なる計画だけでなく、実装のステップ、技術的な設計判断、テスト戦略、受け入れ基準までが、まるで実際のシステム設計書のように詳細に記述されるようになりました。これにより、開発の全体像が明確になり、チームでの認識合わせや、後からの確認作業が格段にスムーズになります。 この進化は、AIが単にコードを生成するだけでなく、プロジェクトの「設計者」や「プランナー」のような高度な役割を担うようになってきたことを示しています。これは「仕様駆動開発(SDD)」という開発手法にも近い考え方です。 ただし、生成される計画が長文化し、読みづらくなる場合や、AIへの利用制限(レートリミット)に達しやすくなるという課題も報告されており、今後の改善が期待されています。 今回のアップデートは、AIが開発プロセスに深く関わり、エンジニアの作業効率や品質向上に貢献する、重要な一歩と言えるでしょう。 引用元: https://azukiazusa.dev/blog/claude-code-plan-mode-improved/ Go + クリーンアーキテクチャで AI エージェント基盤を再設計した話【前編】 この記事は、Go言語とクリーンアーキテクチャを用いてAIエージェント基盤を再設計した事例を紹介しています。通常AIエージェント開発にはPythonが選ばれがちですが、筆者の既存システムがGoで統一されていたこと、そしてGoの並行処理やインターフェースによる抽象化といった特性がAIエージェントの構築に適していると考え、あえてGoで自前開発を進めました。既存のフレームワークに縛られず、長期的な運用を見据えた柔軟性の高い基盤を目指した点が特徴です。 AIエージェント開発は、使用するAIモデルやツールの種類、データの管理方法など、変化が非常に激しい分野です。そこで、システム全体の変更に強く、保守しやすい「クリーンアーキテクチャ」が採用されました。このアーキテクチャは、システムを複数の「層」に分け、中心にあるビジネスロジックが、データベースや外部APIといった具体的な技術に依存しないように設計する考え方です。Go言語はインターフェースを使いやすく、このような抽象化と依存関係の制御に優れているため、クリーンアーキテクチャとの相性が良いと説明されています。 AIエージェントの主な構成要素は、推論を行う「LLM(大規模言語モデル)」、外部と連携する「Tool(ツール)」、会話履歴などを管理する「Memory(メモリ)」です。 初期のシンプルな構成では、特定のLLM(OpenAI SDK)への強い依存や、ツールと実装の密結合、テストの困難さといった課題に直面しました。 そこで再設計では、クリーンアーキテクチャの原則に基づき、これらの課題を解決しました。 「Model」「Memory」「Tool」「Agent」「Streaming」といったAIエージェントの核となる概念を、pkg/aiパッケージ内で「共通の約束事(インターフェース)」として定義し、汎用的な抽象化を行いました。 例えば、OpenAIなどの具体的なLLM実装はpkg/ai/openaiのように専用のパッケージに閉じ込められ、中心のロジックが特定のLLMに依存しないようにしました。 データベースでの履歴保存(Memory)や、アプリケーション固有のツールなども、インターフェースを介して利用され、実際の具体的な実装は別の層に配置されています。 各要素の組み合わせはユースケース(Usecase)層で行い、HTTPリクエストを処理するハンドラ(Handler)は入出力の制御に徹することで、役割が明確になりました。 この設計により、AIモデルの切り替え、ツールの追加・削除、メモリの永続化方法の変更、ストリーミング方式の拡張などが、システム全体に大きな影響を与えずに柔軟に対応可能となりました。また、エージェントの核となるロジックを単体でテストしやすくなったことも大きなメリットです。 Go言語とクリーンアーキテクチャの組み合わせは、変化の激しいAIエージェント開発において、スケーラブルで保守性の高い基盤を構築するための有力なアプローチであることが示されています。 引用元: https://zenn.dev/iyusuke/articles/b06400ce2b66c9 ワンクリックでKiro-CLI環境を構築できる「AI Agent Development Code Server」を試してみた この記事では、AWSが提供する「AI Agent Development Code Server」というソリューションを使って、AIエージェント開発用のCLIツール「Kiro-CLI」の開発環境をいかに簡単に構築できるかを紹介しています。特に、これからAIエージェント開発を始めたい新人エンジニアにとって、実践的な第一歩を踏み出しやすい内容です。 Kiro-CLI(旧 Amazon Q Developer CLI)は、AIエージェントを開発するための便利なコマンドラインインターフェースです。通常、開発環境の準備には手間がかかることがありますが、「AI Agent Development Code Server」を利用すると、AWSのCloudFormationという仕組み(AWSのリソースをまとめて自動で作ってくれるサービス)を使って、わずか約7分でKiro-CLIがプリインストールされた開発環境を構築できます。 この環境は、Webブラウザ上で動作するVS Code(Code Server)として提供されます。具体的には、CloudFront、サーバーの負荷分散を行うALB、開発環境が動くEC2インスタンス、そして必要な権限を持つIAMロールなどが、他のシステムに影響を与えない安全なネットワーク環境(VPC)内に自動でセットアップされます。記事では、EC2のインスタンスタイプを無料枠の対象となる「t4g.small」に変更することで、コストを抑えつつ環境構築を行った事例が紹介されています。 構築完了後、提供されるURLとパスワードでCode Serverにアクセスすると、すぐにVS Codeの画面が開きます。ターミナルで確認すると、最新版のKiro-CLIがすでにインストールされていることがわかります。Kiro-CLIを使用する際の認証は、リモート環境のためブラウザを自動で開けない点に注意が必要ですが、「--use-device-flow」オプションを使うことで、手元のPCのブラウザから簡単に認証を完了できます。 認証が完了すれば、Kiro-CLIでAIエージェント開発をすぐに始められます。記事内では、用意されたハンズオン資料の内容について質問したり、現在の環境で利用可能なAWSの権限(IAM)を確認したりする様子が紹介されており、実際の開発作業に必要な権限が適切に設定されていることが確認できました。 コスト面では、無料枠が適用される期間内であれば、ほぼ費用をかけずに利用できる可能性があります。無料枠終了後も、記事の試算では月額約18.85ドル(約2,800円程度)と比較的低コストで維持できるとされています。利用しない期間は停止したり、検証が終わればすぐに削除したりすることで、さらに費用を抑えることが可能です。 このソリューションは、AWS Cloud9のようなブラウザベースの開発環境を使ったことがある方にとって、AIエージェント開発へ

  3. 私立ずんだもん女学園放送部 podcast 20251128

    5 NGÀY TRƯỚC

    私立ずんだもん女学園放送部 podcast 20251128

    youtube版(スライド付き) 関連リンク GitHub Copilot カスタムエージェントのための agents.md 作成ベストプラクティス GitHub Copilotの新しい「カスタムエージェント」機能をご存じでしょうか?これは、AIアシスタントに特定の役割や専門知識を与え、開発を効率化するものです。本記事は、このカスタムエージェントの設定ファイル「agents.md」の効果的な作り方を、新人エンジニアにも分かりやすく解説します。GitHubが2,500以上のリポジトリを分析して得た知見が基になっています。 agents.mdファイルは、リポジトリの.github/agents/に配置し、エージェントの役割、使用ツール(read, edit, shellなど)、プロジェクト構造、コードスタイルなどを定義します。これにより、バックエンド専門やフロントエンド専門といった、特化したエージェントチームを構築できます。 効果的なagents.mdには、以下の6つの要素が重要です。 コマンド: エージェントが実行する具体的なコマンドを明確に書きます。 テスト: 使用するテストフレームワークやテストの実行方法を具体的に指定します。 プロジェクト構造: ディレクトリ構成とその役割を記述し、エージェントがファイルを理解しやすくします。 コードスタイル: 推奨されるコードの書き方と避けるべき書き方を、具体的な例で示します。 Gitワークフロー: ブランチ命名規則やコミットメッセージのフォーマットなど、開発プロセスを定義します。 境界線: エージェントが「必ずやること」「確認が必要なこと」「絶対にやってはいけないこと」を明確にし、意図しない挙動を防ぎます。 曖昧な指示や複雑すぎる設計は、エージェントのパフォーマンスを低下させます。最初は完璧を目指さず、「最小限の設定から始め、問題があればルールを追加していく」という段階的なアプローチが推奨されます。 カスタムエージェントの大きな利点は、複数の開発タスク(Issue)に適切なエージェントをアサインし、並行して効率的に作業を進められることです。エージェントが正しく作業するためには、Issueに必要な情報(背景、要件、受け入れ条件など)がしっかり記載されていることが不可欠です。Issue作成自体もエージェントに任せることで、必要な情報が漏れなくそろい、開発の精度と効率がさらに向上するでしょう。 AIオーケストレーションを上手に活用し、皆さんの開発ライフをより豊かなものにしてください。 引用元: https://zenn.dev/studypocket/articles/github-copilot-agents-md-best-practices Programmatic Tool Calling(PTC)の何が新しいのか? Anthropicが、対話型AI「Claude」の新しいAPI機能として「Programmatic Tool Calling」(PTC)を公開しました。これは、Claudeが外部のツールを使う方法を大きく進化させる技術です。新人エンジニアの皆さんも、これからのAIエージェント開発で役立つポイントなので、ぜひ知っておきましょう。 これまでのTool Use(ツール利用)では、Claudeがツールを一つ使うたびに「次はこれをやろう」と判断し、その結果を会話の履歴(これを「コンテキスト」と呼びます)に全て記録していました。ツールをたくさん使う複雑なタスクでは、このコンテキストがどんどん長くなり、「コンテキスト肥大化」という問題が起きていました。コンテキストが長くなると、情報処理のコストが増えるだけでなく、Claudeが重要な情報を見落としたり、判断を誤ったりする「context rot(コンテキスト腐敗)」と呼ばれる精度低下の問題も発生しやすかったのです。 PTCでは、この課題を根本的に解決します。Claudeは、複数のツールを呼び出す一連の処理をまとめたPythonコードを一度に生成します。このコードは、Anthropicが用意した特別な実行環境(「サンドボックス」と呼びます)の中で動きます。重要なのは、ツールが実行されたときの中間的なデータ(例えば、大量のデータ分析結果など)は、このサンドボックスの中にだけ保持され、Claudeのコンテキストには直接戻されない点です。Claudeが受け取るのは、サンドボックスでの処理が終わった後の「最終的な結果」だけになるため、コンテキストが肥大化するのを防げます。 実際に検証した結果、従来のTool Use方式と比較して、PTCを使うことで、Claudeに与える入力情報量(トークン)を約74%も削減できました。さらに、全体の処理時間も約24%短縮される効果が確認されています。これにより、より長く、より複雑なタスクでも、Claudeが効率的かつ正確にツールを使いこなせるようになります。 このPTCは、直接APIを使ってAIエージェントを開発するエンジニアにとっては、コンテキスト管理という核心的な問題を解決するための強力な技術となります。皆さんが将来、より賢く、より効率的に動くAIエージェントを開発する上で、このPTCのような技術は不可欠な要素となるでしょう。 引用元: https://blog.lai.so/programmatic-tool-calling/ vLLM+Structured Outputを使ったテキストのラベリング高速化 Wantedly Engineer Blog 本記事は、自然な文章で書かれた大量のテキストデータに、AI(大規模言語モデル、LLM)を使って効率的に「タグ付け(ラベリング)」を行う方法と、その処理を高速化する技術について解説しています。 私たちの周りにはたくさんのテキストデータがありますが、そのままでは扱いにくいことが多いです。そこで、文章の内容を意味ごとに整理し、適切なラベルを付ける「テキストラベリング」が重要になります。しかし、この作業は人間が手作業で行うと非常に大変ですし、自動化しようにも言葉の揺れなどで難しい側面がありました。 最近ではChatGPTのようなLLMが登場したおかげで、比較的簡単にテキストラベリングができるようになりました。LLMを使うと、どのような基準でラベルを付けるかを「プロンプト(指示文)」で伝えるだけで、柔軟にラベリング作業をコントロールできます。 さらに、自分のコンピュータ環境でLLMを動かす「ローカルLLM」を利用すれば、機密データを外部に出すことなくAIを活用できたり、APIの利用回数制限を気にせずに大量のデータを処理できたりするメリットがあります。 しかし、たくさんのテキストを一度にラベリングしようとすると、処理に時間がかかってしまうのが課題です。そこで、この記事では「vLLM」というライブラリを使って、ローカルLLMが答えを出す処理(推論)を大幅に速める方法を紹介しています。 また、ラベル付けでは、単に「AかBか」だけでなく、「有害かどうか」「もし有害なら、どんな種類の有害性か」といった、より複雑で「構造化されたラベル」が必要になることがあります。このニーズに応えるのが「Structured Output(構造化出力)」という機能です。これは、outlinesやvLLMといったライブラリを使うことで実現でき、事前に定義した形式(例えば、Pydanticというライブラリで作成するデータ型)に合わせてLLMが出力してくれるため、結果がとてもきれいに整理されます。 実際に実験として、日本語の有害テキストをラベリングするタスクで、vLLMとStructured Outputの機能を組み合わせて使用しました。その結果、従来のStructured Outputのみで推論するよりも、約6.5倍も高速にラベリングできることが分かりました。 まとめると、クラウドのLLMサービスが使えない状況でも、ローカルLLMに「vLLM」を導入し、「Structured Output」を組み合わせることで、複雑な構造を持つラベルを非常に速く生成できる、という具体的な技術応用事例です。新人エンジニアの皆さんにとって、LLMを実際のサービスに組み込む際のパフォーマンス向上や、精度を高めるためのヒントになること間違いなしです。 引用元: https://www.wantedly.com/companies/wantedly/post_articles/1021372 生成AIが発達してくる未来で俺が危惧してること「ドラレコの映像、証拠にならなくなるのでは…?」 生成AIの進化で、ドラレコ映像が改ざんされ事故の証拠にならなくなるのでは、という懸念が議論されています。過去の映像改ざん事例やデジタルデータの信憑性の問題が指摘される一方で、複数のカメラでの検証、時刻認証技術、改ざん防止機能付きドラレコ、GPSデータ記録など、信頼性を保つための技術や対策も挙がっています。AIが進化する中で、デジタルデータの証拠能力をどう担保していくか、今後の社会で考えるべき大切な課題です。 引用元: https://toge

  4. 6 NGÀY TRƯỚC

    株式会社ずんだもん技術室AI放送局 podcast 20251127

    youtube版(スライド付き) 関連リンク 「Goで作る自作コーディングエージェント nebula 開発入門」が良かった この記事では、著者が「Goで作る自作コーディングエージェント nebula 開発入門」という書籍を通して、Go言語でAIコーディングエージェント「nebula」を実際に開発した体験談が語られています。著者はこの実践的な学習が非常に有益で、深い学びがあったと評価しています。 新人エンジニアの皆さんにとって、「AIエージェント」という言葉はまだ聞き慣れないかもしれません。これは簡単に言うと、まるで人間のように目標を設定し、外部の情報を使ったり判断したりしながら、自律的にタスクをこなすAIプログラムのことです。特に「コーディングエージェント」は、指示に基づいてコードを書いたり修正したりするAIですね。この本は、そんなAIエージェントの「仕組み」をGo言語で作りながら学べる、実践的な入門書です。 この実践で得られる主な学びは、AIエージェントの「賢さ」や「振る舞い」を司る重要な設計パターンです。例えば、 ツールコール: AIが外部のプログラムやAPI(例えば、ファイルを読み書きする機能やWeb検索機能など)を適切に呼び出し、利用する仕組み。これにより、AIは自身が持たない能力を拡張できます。 システムプロンプト設計: AIに対して「あなたはどのような役割で、どのように振る舞うべきか」を指示する、AIの「憲法」のようなもの。これをしっかり設計することで、AIは意図した通りに動きます。 メモリ機能設計: AIが過去の会話履歴や学習した情報を覚えておき、それを次の行動に活かす仕組み。人間が経験から学ぶように、AIも「記憶」を持つことでより高度な判断ができるようになります。 これらはコーディングエージェントだけでなく、あらゆるAIエージェント開発に応用できる基礎中の基礎であり、実際に手を動かして理解できたことが大きな収穫だったと著者は述べています。 著者はこの書籍の内容を参考に、自身のGitHubリポジトリ(https://github.com/shibayu36/nebula)で「nebula」を公開しています。単に写経するだけでなく、一部の設計を改善したり、セッション一覧表示やコードの差分表示といった実用的な機能を追加したりと、自分なりに工夫を凝らしている点も注目です。これにより、読者は単なる写経を超えた、より深い理解と応用力を養うヒントを得られるでしょう。 Go言語での開発経験があり、AIエージェントという新しい技術分野に挑戦してみたい新人エンジニアにとって、この書籍は最適な学習リソースとなるはずです。著者の経験から、全ての学習を終えるのにかかる時間は約10時間程度とのこと。短期間で実践的なAI開発の基礎を身につけ、今後のキャリアの選択肢を広げるきっかけにもなりそうです。AIの進化が著しい今、Go言語とAIエージェントの組み合わせは、皆さんのスキルアップに大いに役立つでしょう。 引用元: https://blog.shibayu36.org/entry/2025/11/25/170000 人工知能は拡散言語モデルの夢を見るか? PredNext ブログ 2025年現在、「拡散言語モデル」という新しい技術が注目を集めています。これは、現在の大規模言語モデル(LLM)の主流である「自己回帰モデル型Transformer」が抱える性能上の課題を解決する可能性を秘めているためです。 現在のLLMは、文章を構成する単語(トークン)を一つずつ順番に予測して生成する「自己回帰モデル」という仕組みで動いています。この方式では、前の単語の生成が終わらないと次の単語の生成に進めないため、計算を並列に処理するのが難しいという特徴があります。さらに、モデルの規模が大きくなるにつれて、1トークンを生成するたびに非常に巨大なモデルデータ(例えば700億パラメータのモデルで70GB)を、メモリ(DRAM)からプロセッサ(GPUなど)へ何度も読み込む必要が生じます。このデータ転送の頻度と量が多すぎると、プロセッサがフル稼働できず、メモリとの間のデータ帯域が「ボトルネック」(処理速度の限界)となってしまうのです。 この非効率さを「B/F」(Bytes per FLOP:1回の浮動小数点演算に必要なデータ転送バイト数)という指標で表現します。プロセッサとメモリは物理的に離れた場所にあり、データのやり取りには時間がかかります。そのため、コンピュータは昔からB/F値が高い計算が苦手で、自己回帰モデル型Transformerは推論時にこのB/F値が高く、効率的な実行が難しいとされています。 そこで期待されるのが拡散言語モデルです。これは、画像生成で成功を収めている「拡散モデル」の考え方をLLMに応用したものです。拡散モデルは、元の画像にノイズを加えていき、そのノイズから元の画像を復元する過程を利用します。拡散言語モデルでは、文章の一部を[MASK]という特殊なトークンで隠し、その[MASK]部分に適切な単語を予測して埋めていく作業を繰り返すことで文章を生成します。 この方式の大きなメリットは、一度に複数の[MASK]トークンを並列で処理し、予測できる点にあります。これにより、モデルデータをメモリから読み込む回数を大幅に減らすことができ、B/F値を低く抑えられます。結果として、GPUなどのプロセッサをより効率的に活用できるようになる可能性があります。 しかし、拡散言語モデルの実用性についてはまだ議論の途中です。品質面では、同規模の自己回帰モデルと同程度の性能を発揮する研究報告もあります。一方、速度面では、完全な文章になるまで[MASK]の予測と除去を繰り返す必要があるため、繰り返し回数が増えると自己回帰モデル(特に「投機的デコーディング」のような高速化技術を導入したもの)よりも遅くなってしまう可能性も指摘されています。 まとめると、拡散言語モデルは自己回帰モデルの根本的な効率問題を解決する可能性を秘めていますが、品質と速度の両面で自己回帰モデルを「常に大きく上回る」とまでは言えないのが現状です。まだ多くの課題が残されており、今後の技術進化が期待される新しいトレンドと言えるでしょう。 引用元: https://prednext.com/blog/diffusion-language-model/ Continuous batching from first principles LLM(大規模言語モデル)を使ったAIチャットボットは、最初の応答まで少し時間がかかり、その後は1単語ずつ(トークンと呼びます)高速に生成されるのを見たことがあるかもしれません。これは、LLMがまずプロンプト全体を処理し(Prefill)、その後、前の生成結果を考慮しながら1トークンずつ予測していく(Decoding)ためです。この生成プロセスは計算コストが非常に高く、特に多くのユーザーが同時に利用するサービスでは、効率的な推論技術が求められます。その中でも特に重要なのが「Continuous Batching」という技術です。 この技術を理解するために、基礎から順に見ていきましょう。 1. Attentionメカニズム LLMが文章中の単語(トークン)間の関係性を理解する中心的な仕組みがAttentionです。Attention層だけが、異なるトークンが相互に影響し合う場所です。LLMはプロンプトの各トークンに対し、クエリ(Q)、キー(K)、バリュー(V)と呼ばれる情報を計算し、これらを組み合わせて次のトークンを予測します。このとき、「因果マスク(Causal Mask)」という仕組みによって、未来のトークンが過去のトークンの計算に影響を与えないように制御されています。最初のプロンプト全体を処理する段階をPrefillと呼びます。 2. KVキャッシュ LLMが一度Prefillで計算したKey(K)とValue(V)の情報を「KVキャッシュ」として保存しておくと、その後のDecoding段階でこれらの情報を再計算する必要がなくなります。これにより、Decodingの計算コストを大幅に削減し、次のトークン生成を高速化できます。まるで過去の計算結果をメモしておいて使い回すようなイメージです。 3. Chunked Prefill(チャンクプリフィル) プロンプトが非常に長い場合、GPUメモリに一度に収まらないことがあります。Chunked Prefillは、KVキャッシュを使いながら長いプロンプトを小さな塊(チャンク)に分割して順番に処理する技術です。これにより、メモリの制約をクリアしつつ、長いプロンプトも効率的に扱えるようになります。 4. Continuous Batching(コンティニュアスバッチング) 複数のユーザーからのリクエストを同時に処理して、LLMの「スループット」(単位

  5. 25 THG 11

    株式会社ずんだもん技術室AI放送局 podcast 20251126

    youtube版(スライド付き) 関連リンク Introducing shopping research in ChatGPT ChatGPTに、商品の購入検討をサポートする「ショッピングリサーチ」という新機能が導入されました。この機能は、私たちが製品を選ぶ際にかかる時間と手間を大幅に削減し、より賢い選択を支援してくれます。 具体的には、「小さなアパートに最適な静音のコードレス掃除機を探して」「この3つの自転車から選ぶのを手伝って」のように、求めている商品をChatGPTに伝えるだけで、詳細な購入ガイドを作成してくれます。私たちはこれまで、何十ものサイトを比較検討したり、レビューを読み込んだりしていましたが、この機能がそれらの調査を代行してくれるのです。 ショッピングリサーチは、ユーザーの過去の会話履歴や「記憶」機能から得た情報を活用し、スマートな質問を通じてニーズを深く掘り下げます。例えば、予算や重視する機能など、具体的な条件を聞き出すことで、よりパーソナライズされた結果を提供します。電子機器、美容品、家庭用品など、特に詳細な情報が必要なカテゴリでその威力を発揮します。 利用方法はとても簡単です。商品に関する質問をすると、ChatGPTが自動的に「ショッピングリサーチ」の利用を提案してくれます。または、メニューから直接選択することも可能です。利用中は対話形式で、ChatGPTが提示する製品オプションに対して「興味なし」や「もっとこれに似たものを」といったフィードバックを返すことで、リアルタイムでリサーチ内容を調整し、希望に合った製品へと絞り込めます。数分後には、主要な製品、それぞれの違いや長所・短所、信頼できる小売店からの最新情報がまとまった、自分だけの購入ガイドが手に入ります。 この機能は、GPT-5 miniをベースに、ショッピングタスクに特化して強化学習で訓練されたモデルによって動いています。信頼性の高い情報源から情報を収集し、複数の情報源を統合して質の高い調査結果を生成します。また、透明性も重視されており、ユーザーのチャット内容が小売業者と共有されることはありません。結果は公開されている小売サイトの情報を元に生成され、低品質なサイトは避けられています。 ただし、まだ完璧ではないため、価格や在庫などの製品詳細には誤りが含まれる可能性もあります。最終的な購入の際には、必ず小売業者のサイトで最新情報を確認することが推奨されています。OpenAIは今後も、ユーザーの好みをより深く理解し、対応するカテゴリを増やし、製品の比較や発見をより直感的に行えるように、この機能を進化させていくとしています。この新しい機能は、AIアシスタントが単なる情報提供だけでなく、より具体的なタスクをこなす「AIエージェント」へと進化していることを示す良い例と言えるでしょう。 引用元: https://openai.com/index/chatgpt-shopping-research Using skills with Deep Agents Anthropic社が提唱する「エージェントスキル」という新しい概念をLangChainのAIエージェントフレームワーク「deepagents-CLI」がサポートしたという発表がありました。これは、AIエージェントの性能を向上させ、開発・運用の効率を高める重要な一歩です。 エージェントスキルとは、簡単に言うと、特定のタスクをこなすためのファイル群(SKILL.mdという説明ファイルと、それに関連するドキュメントやスクリプトなど)をまとめたフォルダのことです。AIエージェントは必要に応じて、これらのスキルを動的に見つけて読み込み、利用できます。 近年、Claude CodeやManusのような汎用AIエージェントが普及していますが、意外にも、これらのエージェントが実際に使うツールはごく少数であることが分かっています。彼らが少ないツールで多様なタスクをこなせる秘密は、コンピュータ自体へのアクセス(Bashシェルやファイルシステム操作)を持っている点にあります。これにより、人間がパソコンでファイル操作やスクリプト実行をするように、エージェントも特別なツールなしに多くの作業を行えるのです。LangChainのdeepagentsも、この原則に基づいてファイルシステム操作とコード実行機能を備えています。 エージェントスキルは、この考え方をさらに発展させたものです。ツールをたくさん用意するのではなく、ファイルシステム上に多様なアクションを実行するためのスクリプトや指示を配置し、エージェントがそれを活用するというアプローチです。Anthropicが定義するスキルは、YAML形式のメタデータとMarkdown形式の指示を含むSKILL.mdファイルで構成されます。 スキルには主に2つの大きなメリットがあります。 トークン効率の向上:エージェントがスキルを使う際、最初はSKILL.mdの要約情報(YAMLフロントマター)だけを読み込みます。タスク遂行に必要になった場合のみ、ファイル全体を読み込むため、AIの処理に使う情報量(トークン)を削減できます。これにより、コンテキストウィンドウの肥大化を防ぎ、より複雑なタスクに対応しやすくなります。 エージェントの認知負荷軽減:エージェントは、多くの複雑なツールの中から適切なものを選ぶ代わりに、より基本的な(アトミックな)少数のツールを使ってファイルシステム上のスキルを呼び出します。これにより、ツール選択の混乱を減らし、エージェントがタスクに集中しやすくなります。 さらに、スキルは「継続的な学習」への道を開き、エージェントが新たなタスクに遭遇した際に新しいスキルを自律的に作成したり、エージェント間で簡単にスキルを共有したり、複数のスキルを組み合わせて使ったりすることも可能になります。 deepagents-CLIでは、このスキル機能を簡単に利用できます。公開されている豊富なスキルコレクション(Anthropic社やSkillsMPなど)を自分のエージェントにコピーするだけで、すぐに利用可能です。設定後、deepagents skills listコマンドで利用可能なスキルを確認できます。エージェントにスキルに関連するリクエストを出すと、自動的に該当するSKILL.mdを読み込み、スキルを実行してくれます。 引用元: https://blog.langchain.com/using-skills-with-deep-agents/ Google Antigravity IDEで焼き肉部位サイトを作ってみた - 開発フローと知っておくべき機能 Google Antigravity IDEは、Googleが提供する最新のAI統合開発環境です。この記事では、これを使って「焼き肉部位確認サイト」を開発した体験を紹介します。AIを活用した開発の面白さや、知っておくべきポイントを新人エンジニアの皆さん向けにまとめました。 「焼き肉の部位が視覚的にわかるWebサイトを作りたい」とプロンプトを入力すると、AIが「Implementation Plan(計画書)」を自動作成。これはレビュー可能で、コメントで修正指示(例:「日本語化」)を出せます。計画実行後、Webサイトと「Walkthrough(報告書)」が生成されます。 初期サイトの画像が期待と違ったため、「リアルな写真も」と報告書にコメント。すると、Antigravity搭載の画像生成AI「nano banana」がリアルな焼き肉写真を生成し、サイトに組み込み改善してくれました。このように、AIとの対話とレビューを通じて効率的に開発を進められます。 Antigravity IDEには、開発を助ける便利な機能があります。 会話モード: 複雑な作業には「Plan」、簡単な作業には「Fast」を使い分けます。 スクリーンショット/画面録画: ブラウザ画面をAIに取得させ、特定部分を指定して修正依頼が可能です(ブラウザ拡張機能必須)。 エージェントモード: Ctrl + Eで開くこのモードはAIとの対話がメイン。「Workspaces」で複数プロジェクト管理、「Playground」で現在の作業を汚さずにAIに質問できます。AIの計画や進捗も確認しやすいです。 エージェントの設定(特に重要!): レビューポリシー: AIが勝手に作業を進めないよう「Request Review」に設定し、必ず確認が入るようにしましょう。 ターミナルコマンド実行: セキュリティのため「off」にし、許可するコマンドだけリストに追加して実行するのが推奨です。 ファイルアクセス: 情報漏洩リスクを避けるため、ワークスペース外のファイルへのアクセスは「off」にすることを強く推奨します。 Google Antigravity IDEは、nano bananaのような強力なAIが統合され、アイデアを楽しく効率的に形にできます。AIと共に開発を進める経験は、新人エンジニア

  6. 24 THG 11

    株式会社ずんだもん技術室AI放送局 podcast 20251125

    youtube版(スライド付き) 関連リンク Google Antigravity のスタートガイド    Google Codelabs 皆さん、こんにちは!今回は、Googleが新たに発表した画期的なAI開発プラットフォーム「Google Antigravity」について、新人エンジニアの皆さんにも分かりやすくご紹介します。 Antigravityは、今までの開発環境(IDE)を「エージェントファースト」という新しい時代へと進化させるツールです。従来のAIがコードを自動補完するだけだったのに対し、AntigravityではAIがまるで一人前のエンジニアのように、開発の「計画」「コーディング」「ウェブサイトの調査」「テスト」といった複雑なタスクを、自律的にこなしてくれます。私たちはAIに細かい指示を出すというより、プロジェクト全体のゴールを伝え、AIエージェントにその達成を任せる、というイメージですね。 このプラットフォームの主な特徴は以下の通りです。 エージェントマネージャー(ミッションコントロール): 複数のAIエージェントを同時に管理できる「管制室」のようなダッシュボードです。例えば、「認証機能をリファクタリングして」「依存関係を更新して」といった異なるタスクを複数のAIエージェントに並行して指示し、進捗を一覧で確認できます。まるでプロジェクトマネージャーのように、AIエージェントたちを指揮する感覚です。AIエージェントにどれくらいの自由度で作業させるか(ターミナルコマンドの実行や、作業内容のレビューを求める頻度など)も細かく設定できます。 エディタ: お馴染みのVS Codeをベースに作られており、コード編集のしやすさはそのままに、AIエージェントとの連携が強化されています。コードの一部をハイライトして「ここをもっと効率的にしてほしい」「このロジックにコメントを追加して」といった指示を直接AIに出せるのが便利です。 Antigravityブラウザ: AIエージェントが自らChromeブラウザを操作し、ウェブサイトにアクセスして情報収集をしたり、開発したウェブアプリケーションの動作検証を行ったりできます。人間がブラウザを操作するのと同じように、クリックやスクロール、入力などが可能です。 アーティファクト: AIエージェントが作業する過程で作成する「作業記録」のことです。例えば、タスクの計画書、コードの変更点(差分)、画面のスクリーンショット、テスト結果の動画などが自動で生成されます。これにより、AIが「何を」「どうやって」作業したのかが明確になり、その作業が正しかったのかを人間が簡単に確認・承認できるようになります。 具体的な活用例としては、以下のようなことができます。 Googleニュースのようなウェブサイトから最新情報を自動で抽出し、要約する。 PythonとFlaskを使ったウェブサイトを一から生成し、さらに機能を追加したり修正したりする。 ポモドーロタイマーのようなシンプルな生産性向上アプリを生成し、デザインや機能の改善をAIに依頼する。 既存のPythonコードに対して、AIが自動で単体テストコードを生成し、実行してその検証まで行う。 Antigravityは、AIが開発プロセスに深く関わる「エージェントファースト」という新しい働き方を提案しています。プログラミングの経験がまだ浅い新人エンジニアの皆さんでも、AIエージェントの力を借りて、複雑な開発タスクに挑戦したり、効率的に学習を進めたりできる素晴らしいツールです。ぜひ一度、この新しい開発体験を試してみてはいかがでしょうか。 引用元: https://codelabs.developers.google.com/getting-started-google-antigravity?hl=ja 仕様書駆動開発で一番いいAIモデル&エージェント検証 11/23版 この記事は、最新のAIモデル(GPT5.1、Gemini 3.0、Sonnet 4.5など)を使い、ソフトウェア開発の手法の一つである「仕様書駆動開発(SDD)」において、どのAIエージェントが最も効果的かを検証したものです。AIが仕様書を作成し、その仕様書に基づいてコードを実装するという2つの段階に分けて、各モデルの性能が比較されています。 検証は、個人開発中のゲーム(約4万行のコードベース)に「歯車システムが特定の条件で破壊される」という機能を追加するタスクを例に行われました。 評価対象となったAIエージェント: codex-cli (GPT-5.1) claude-code (Sonnet-4.5) Cursor + gemini-3.0-pro-preview 検証結果:仕様書作成の段階 当初、AIによる評価では、内容が包括的で読みやすい日本語だったClaude(Sonnet-4.5)の仕様書が最も良いと判断されました。しかし、実際にその仕様書をもとにコードを実装させたところ、Gemini 3.0が作成した仕様書から最も質の高い実装ができました。 この結果から、AIは文章量の多いものを良いと評価する傾向がありますが、必ずしもそれが実装のしやすさにつながるとは限らないという考察が述べられています。むしろ、詳細に記述しすぎず、ざっくりとした仕様書の方が、実装を担当するAIがコードの文脈を深く理解し、より柔軟で最適なコードを生成できる可能性が示唆されました。 検証結果:コード実装の段階 仕様書作成とは別に、純粋な「コード実装力」についても比較が行われました。同じ仕様書を使ってAIエージェントに実装させた結果、codex-cli (GPT-5.1-codex-max) が最も優れた実装を生成しました。 Gemini 3.0による実装は、不自然なコードや不要な記述が多く見られ、もし開発者が手直しをする場合、かなりの修正量が必要になると判断されました。これは、Gemini 3.0がソフトウェアエンジニアリングのベンチマーク(SWE-Bench)で他のモデルにやや劣るスコアであることとも一致しています。 結論 今回の検証では、仕様書作成の段階ではGemini 3.0が、そして実際のコード実装の段階ではcodex-cli (GPT5.1) が最も優れたパフォーマンスを発揮するという結論に至りました。 ただし、この検証は一つのプロジェクトにおける特定のテストケースでの結果であり、AIモデルは日々進化しているため、今後のアップデートによって最適な選択は変わる可能性があります。 引用元: https://zenn.dev/sakastudio/articles/a5ea1eee97ec37 Build and Run Secure, Data-Driven AI Agents この記事は、NVIDIAが提供する「AI-Q Research Assistant」と「Enterprise RAG Blueprints」というAIエージェントの構築方法について、AWS上でのセキュアかつ効率的なデプロイに焦点を当てて解説しています。新人エンジニアの皆さんにとって、AIエージェントがビジネスでどのように活用され、どのように構築できるのかを理解する良い機会になるでしょう。 生成AIの進化により、企業は自社のデータに基づいて、正確で信頼性の高いAIエージェントを求めています。NVIDIAのこれらの「ブループリント」(設計図のようなもの)は、大規模言語モデル(LLM)と検索拡張生成(RAG)技術を組み合わせることで、大量のドキュメントから必要な情報を理解し、要約したり分析レポートを作成したりするのを自動化します。 ソリューションの核となるのは、以下の2つです。 Enterprise RAG Blueprint: これは、企業内の文書(PDFやレポートなど)からテキスト、表、図などの情報を抽出し、ベクトルデータベースに保存します。ユーザーが質問すると、関連する情報をデータベースから検索し、LLMを使って文脈に沿った正確な回答を生成します。これにより、社内ナレッジベースからの迅速な情報検索が可能になります。 AI-Q Research Assistant: RAGの基盤の上に構築され、さらに高度な「エージェント」としての機能を提供します。ユーザーの複雑な調査プロンプトを分析し、社内データ(RAG)とリアルタイムのWeb検索(Tavily API)を使い分けて情報を収集します。そして、これらの情報を整理・統合し、詳細なレポートを自動生成します。これは、まるで専属のリサーチャーを雇うような体験です。 これらのAIエージェントは、Amazon Web Services (AWS) 上に安全かつスケーラブルにデプロイされます。主要なAWSサービスとして、コンテナ化されたAIアプリケーション(NVIDIA NIM microservices)を管理する「Amazon EKS」、企業データを保管する「Amazon S3」、ベクトルデータを効率的に検索する「Amazon OpenSearch Serverless」が利用されます。特に注目すべきは、「Karpenter」というツールで、AIに必要なGPUリソースを、必要な時に必要なだけ自動的に準備し、コストを最適化してくれます。 デプロイは、Terraformなどのツールを使った自動化

  7. 私立ずんだもん女学園放送部 podcast 20251121

    20 THG 11

    私立ずんだもん女学園放送部 podcast 20251121

    youtube版(スライド付き) 関連リンク 量子技術でDeepSeekを55%小型化、「検閲解除」にも成功 スペインのMultiverse Computing社が、AIモデル「DeepSeek R1」を改良し、「DeepSeek R1 Slim」を開発したという興味深いニュースが届きました。この新しいモデルは、量子物理学からヒントを得た特別な技術を使うことで、元のDeepSeek R1とほぼ同じ性能を保ちながら、なんとサイズを55%も小型化することに成功したそうです。 この技術のもう一つの大きなポイントは、DeepSeek R1に元々組み込まれていた「検閲機能」を取り除いたと主張している点です。中国では、AI企業が開発するモデルに、国の法律や「社会主義的価値観」に反する内容を出力させないための検閲機能を組み込むことが義務付けられています。そのため、たとえば「天安門事件」や「くまのプーさん」(習近平国家主席を揶揄するミームとして知られる)といった政治的に敏感な話題について質問すると、AIは回答を拒否したり、特定の情報に偏った回答をしたりすることがあります。 Multiverse Computing社は、この小型化と検閲除去のために「テンソルネットワーク」という数学的な手法を採用しました。これは、AIモデルの複雑な内部構造を、量子物理学の考え方を使って効率的に表現・操作する技術です。例えるなら、巨大なデータのかたまりを、無駄なく整理された地図のようにすることで、モデルのサイズを劇的に小さくできるだけでなく、特定の情報(例えば検閲に関わる部分)をピンポイントで特定し、除去できるようになるイメージです。 実際に、中国で制限される質問(約25種類)を使って検証したところ、改良されたモデルは、元のDeepSeek R1が検閲によって回答を制限するような内容に対しても、西側の一般的なAIモデルと同等に事実に基づいた回答を生成できたと報告されています。 この技術は、大規模言語モデル(LLM)の世界に大きな影響を与える可能性があります。現在、高性能なLLMを動かすには、大量のGPU(画像処理装置)と膨大な電力が必要で、コストもエネルギー消費も大きいです。しかし、今回の研究のようにモデルを大幅に圧縮できれば、より少ないリソースでLLMを動かせるようになり、運用コストやエネルギー消費の削減につながります。さらに、検閲だけでなく、AIが持つ可能性のある「バイアス」(特定の情報への偏り)を取り除いたり、特定の専門知識を効率よくAIに学習させたりする応用も期待されています。 ただし、専門家からは、中国政府の検閲システムは非常に複雑で動的なため、少数の質問への対応だけで検閲を完全に「除去」できたと断言するのは難しい、という慎重な意見も出ています。 この研究は、AIの効率化、カスタマイズの可能性、そしてAIと社会・倫理的な問題がどのように交差するかについて、私たちエンジニアが深く考えるきっかけを与えてくれるでしょう。 引用元: https://www.technologyreview.jp/s/372724/quantum-physicists-have-shrunk-and-de-censored-deepseek-r1/ LLM で使われる位置情報のベクトル化について調べてみる この記事では、ChatGPTのような大規模言語モデル(LLM)の基盤技術であるTransformerモデルが、文章中の単語の「位置」をどのように扱っているか、そのための「位置エンコーディング」という技術について、様々な手法を分かりやすく解説しています。 Transformerモデルの根幹技術である「自己注意機構」は、単語同士の関係性を計算しますが、そのままでは単語の順序や位置を考慮できません。例えば、「猫が犬を追いかける」と「犬が猫を追いかける」では意味が全く異なりますよね。この問題を解決するために、単語のベクトルに位置情報を加えることで、単語の並び順も考慮できるようになります。 主要な位置エンコーディングの手法は以下の通りです。 絶対位置エンコーディング (Absolute Position Encoding): Transformerの元論文で使われた基本的な手法です。文の先頭から何番目の単語かという「絶対的な位置」を、数学的な関数(三角関数)を使ってベクトルで表現し、単語の埋め込みに足し合わせます。シンプルですが、非常に長い文章の場合、学習データに登場しないような遠い位置の単語が出てくることで、性能が落ちる場合があります。 相対位置表現 (Relative Position Representation): これは、注目している単語から他の単語が「どれくらい離れているか」という「相対的な位置」をベクトルで表現し、自己注意機構の計算時に利用します。絶対位置に比べて長文でも性能が落ちにくいとされていますが、位置を表すための追加のパラメータが必要になることがあります。 Rotary Position Embedding (RoPE): 現在の多くのLLM(LlamaやGPT-NeoXなど)で採用されている主流の手法です。単語のベクトルをその位置に応じて「回転」させることで、絶対位置と相対位置の両方の情報を表現します。追加のパラメータなしで、特に長文処理において高い性能を発揮できるのが大きな特徴です。 Attention with Linear Biases (ALiBi): これは非常にシンプルなアイデアで、自己注意機構の計算結果(注意スコア)に「線形のバイアス」を足し合わせるだけで位置情報を表現します。追加のパラメータも不要で、単純な仕組みながら長文に対して効果的なことが示されています。 No Positional Encoding (NoPE): 驚くことに、明示的な位置情報を使わない手法もあります。LLMの自己注意機構の特性(Causal Attentionなど、前の単語しか見られない制約)が、暗黙的に位置情報を与えるため、ある程度の性能を出せることが示されています。 Wavelet-based Positional Representation (WPR): 比較的新しい手法で、信号処理で使われる「ウェーブレット変換」という技術を用いて位置を表現します。RoPEよりも柔軟に位置情報を扱え、長文処理でさらに高い性能を発揮できる可能性があり、今後のLLMで採用されるかもしれません。 これらの位置エンコーディングの工夫は、LLMが長い文章を正確に理解し、より自然な文章を生成する上で非常に重要な役割を担っています。特に、最近のLLMは扱う文章がどんどん長くなってきているので、この分野の技術進化は、モデルの性能向上に直結すると言えるでしょう。 引用元: https://zenn.dev/kawara_y/articles/27f69346c851f7 Early experiments in accelerating science with GPT-5 OpenAIは、最新のAIモデル「GPT-5」が科学研究をどのように加速させるかについて、初期実験の結果をまとめた論文を発表しました。科学は私たちの生活のあらゆる面に影響を与えますが、新しい発見やイノベーションの実現には時間がかかり、これが社会全体の課題とされています。GPT-5は、新しいアイデアの創出や、アイデアから具体的な結果に至るまでの時間を短縮することで、科学の進歩を加速し、社会全体に大きな利益をもたらす可能性を秘めています。 この研究は、著名な大学や研究機関との共同で行われました。GPT-5は、数学、物理学、生物学、計算機科学、天文学、材料科学といった幅広い分野で、研究者が新しい発見をするのを支援しています。 具体的な成功事例をいくつかご紹介します。 生物学: 数ヶ月かかっていた免疫細胞の変化の原因特定を、GPT-5がわずか数分で推測し、その検証のための実験まで提案しました。これにより、病気の理解や治療法開発が加速するかもしれません。 数学: 数十年もの間未解決だったポール・エルデシュの問題に対し、GPT-5が証明の最終ステップとなる画期的なアイデアを提供しました。 アルゴリズムと最適化: ロボット工学などで使われる意思決定手法に、人々が気づかなかった問題点があることをGPT-5が発見し、最適化という数学分野の古典的な結果を改善しました。 OpenAI for Scienceは、研究者がより多くのアイデアを探求し、仮説検証を加速し、通常では多くの時間を要する発見を可能にすることを目指しています。これは、シミュレーションツールやデータベースといった専門的な科学ツールと、さまざまな分野のアイデアを結びつける能力を持つ基盤モデル(GPT-5のような大規模言語モデル)を組み合わせることで実現しようとしています。 ただし、GPT-5は自律的に研究を進めるものではありません。最も有意義な進歩は、科学者が質問を設定し、方法を選び、アイデアを批判し、結果を検証する「人間とAIの

  8. 19 THG 11

    株式会社ずんだもん技術室AI放送局 podcast 20251120

    youtube版(スライド付き) 関連リンク Building more with GPT-5.1-Codex-Max 日本の新人エンジニアの皆さん、こんにちは!OpenAIから、皆さんの開発を大きく助けてくれる新しいAIエージェント型コーディングモデル「GPT-5.1-Codex-Max」が発表されました。これは、これまでのAIモデルの限界を超え、より賢く、速く、そして効率的にコード開発をサポートすることを目指しています。 何が新しいの? このモデルの最大の進化は、「Compaction(コンパクション)」という新しい技術によって、「長時間の詳細な作業」をこなせるようになった点です。これまでのAIは、一度に扱える情報量(コンテキストウィンドウ)に限りがあり、長い時間のかかる複雑なタスクでは途中で「あれ?何してたっけ?」となってしまうことがありました。 しかし、GPT-5.1-Codex-Maxは、まるで人間がメモを取りながら考えるように、必要に応じて過去の情報を整理・圧縮することで、何百万ものトークンを扱う大規模なプロジェクトのリファクタリングや、数時間にわたるデバッグセッション、さらには自律的なエージェントループまで、途切れることなく作業を続けられるようになりました。社内評価では24時間以上も独立して作業し、テストの失敗修正までこなした例もあるそうです。 開発体験はどう変わる? 高速・高効率・低コスト: より少ないトークンで高い性能を発揮するため、開発コストの削減にも繋がります。例えば、高品質なフロントエンドデザインを、以前より低いコストで作成できるようになりました。 実践的な開発作業に強い: PR(プルリクエスト)の作成、コードレビュー、フロントエンドコーディング、Q&Aなど、実際のソフトウェア開発現場で必要とされるタスクに特化して学習されています。なんと、Windows環境での動作にも対応しました。 利用方法と注意点 GPT-5.1-Codex-Maxは、現在、CodexのCLI(コマンドラインインターフェース)、IDE(統合開発環境)拡張機能、クラウド、コードレビューなどで利用可能です。APIアクセスも近日提供予定です。 ただし、AIエージェントの利用にはいくつかの注意点があります。 人間による確認の重要性: AIが生成したコードやレビュー結果は、最終的には人間が確認し、承認することが非常に重要です。AIはあくまで強力な「共同作業者」であり、人間の「代替」ではありません。 セキュリティ: Codexはデフォルトで安全なサンドボックス環境で動作しますが、インターネットアクセスなどを有効にする場合は、プロンプトインジェクションなどのリスクに注意が必要です。 OpenAI社内では、すでにエンジニアの95%が週にCodexを利用し、プルリクエストの提出数が約70%も増加したとのこと。GPT-5.1-Codex-Maxは、皆さんの開発生産性を劇的に向上させる可能性を秘めています。この新しいツールをぜひ活用して、素晴らしいものを生み出してください! 引用元: https://openai.com/index/gpt-5-1-codex-max LLMで業務ワークフローを自動生成・最適化する! 〜ワークフロー自動生成・最適化の取り組みについて〜 LLM(大規模言語モデル)は様々なタスクに利用できますが、複数のステップを組み合わせるような複雑な業務を丸ごと任せるのは難しい場合があります。そこで注目されているのが、LLMとプログラミングコード(Pythonなど)を組み合わせて、複雑なタスクを効率的に処理する「AIワークフロー」です。例えば、「文章を要約する」→「情報を抽出する」→「整形する」といった流れを自動化します。 しかし、このAIワークフローを作るには、「どんなステップを組み合わせるか」「各ステップでどんな指示(プロンプト)を出すか」といった設計に、多くの時間と手間がかかるのが課題でした。また、LLMのアップデートや扱うデータが変わると、ワークフローを修正する必要があり、これが運用上の負担となっていました。 LayerXでは、これらの課題を解決するために、AIワークフローを自動で生成・最適化する技術に取り組んでいます。この技術は、Generator(LLMで新しいワークフローのアイデアを出す)、Executor(アイデアを試す)、Evaluator(試した結果を評価する)、Memory(過去の経験から学習する)という4つの仕組みを連携させます。これにより、まるで人間が試行錯誤するように、AIが自らワークフローの構造やプロンプト、コードを学習し、より良いものに改善していくことができます。約5〜7回の試行で、高精度なワークフローが見つかったそうです。 具体的な成功事例として、300ページを超えるプロジェクト完了報告書から、工数やコストなど48個の複雑なデータを抽出・計算するタスクが紹介されています。このタスクでは、以下の6つのステップからなるワークフローが自動で生成されました。 1ページずつテキスト化(Python): PDFから各ページをテキストデータに変換。 重要ページを判定(LLM): 300ページの中から、必要な情報が含まれる「重要ページ」をLLMが判定。これを30ページ程度に絞り込み、LLMが一度に処理できる情報量に調整する工夫が自動で発見されました。 重要ページを選択・結合(Python): 判定された重要ページを結合し、次のステップへ渡します。 データを抽出(LLM): 結合されたテキストから、LLMが数値を抽出します。ここでは「計算は禁止」と明確に指示し、LLMには情報の「読み取り」に集中させます。 合計値を計算(Python): 抽出された数値を使って、Pythonコードで正確な計算(合計値、差異、密度など)を行います。 単位を正規化(Python): 最終的なデータ形式に合わせて、単位などを調整します。 このワークフローは、大規模なデータ処理においてLLMの制約を克服する「チャンキング戦略(必要な部分だけを切り出す工夫)」や、LLMとPythonがそれぞれの得意な役割(LLMは「意味理解・判断」、Pythonは「正確な計算・データ整形」)を分担する最適な方法をAIが自動で発見した点が画期的です。この取り組みにより、訓練データでは約90%の精度を達成しました。 今後も、より複雑なタスクへの適用や精度の向上が期待されており、AIを活用した業務効率化の大きな可能性を示しています。 引用元: https://tech.layerx.co.jp/entry/2025/11/19/133143 仕様駆動開発の理想と現実、そして向き合い方 AIを活用した開発が広がる中、感覚的にコードを書く「Vibe Coding」から脱却し、より確実な成果を出すための「仕様駆動開発(Spec-Driven Development: SDD)」について、その理想と現実、そして現場での向き合い方が解説されています。新人エンジニアの方にも理解しやすいように、要点をまとめました。 1. 仕様駆動開発(SDD)とは? SDDは、AIが直接コードを生成できるレベルまで詳細に、かつ構造化された「Spec(仕様書)」を作成し、それを中心に開発を進めるアプローチです。これまでの開発では「コード」が共通言語でしたが、SDDでは「自然言語」で書かれたSpecがその役割を担います。これにより、人間はSpecの承認やレビューが主な役割となり、AIが開発の主体となる新しいスタイルが期待されています。 2. SDDの理想とメリット SDDが理想通りに機能すれば、以下のような大きなメリットがあります。 手戻りの削減: 事前に明確なSpecがあるため、実装段階での認識のズレが減ります。 設計レビューの負担軽減: Specが構造化されているため、設計内容の理解が容易になります。 並行開発の促進: 各機能のSpecが独立していることで、複数のチームやエンジニアが並行して開発を進めやすくなります。 品質とスピードの向上: Spec作成からレビュー、実装、テスト、フィードバックのサイクルがAIによって高速化され、高品質なソフトウェアを迅速に顧客に届けられるようになります。 「検証可能性」と「フィードバックループ」: Specの振る舞いが自動テストと結びつき、実装の正確性が検証されます。また、Specは一度作ったら終わりではなく、開発を通じて改善されていくものと捉えられています。 3. SDDの現実と課題 しかし、SDDはまだ進化の途中にあり、2025年11月時点ではいくつかの課題も抱えています。 ツールの未成熟: 現在のSDDツールやLLM(大規模言語モデル)の性能は、SDDの理想に完全に追いついていません。 Specの巨大化とレビューの負荷: AIが生成するSpecが大きくなりすぎることがあり、人間

Giới Thiệu

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。(MC 月:春日部つむぎ、火水木:ずんだもん、金:お嬢様ずんだもん)

Có Thể Bạn Cũng Thích