株式会社ずんだもん技術室AI放送局

株式会社ずんだもん技術室AI放送局 podcast 20251009

youtube版(スライド付き)

関連リンク

  • Introducing the Gemini 2.5 Computer Use model

Google DeepMindは、AIがコンピューターのユーザーインターフェース(UI)を直接操作できるようになる画期的な新モデル「Gemini 2.5 Computer Use」を発表しました。このモデルは、Gemini 2.5 Proの持つ「見て、考えて、判断する」高度な視覚理解と推論能力をベースに開発されており、AIエージェントがまるで人間のようにWebサイトやアプリケーションを操作できるようにすることを目的としています。

このモデルの大きな特徴は、Webやモバイルの制御に関するテスト(ベンチマーク)において、既存のどのモデルよりも高い性能を発揮し、しかも応答速度(レイテンシー)が非常に速い点です。具体的には、Webページのフォームに情報を入力したり、ドロップダウンメニューを選んだり、ログインが必要なページを操作したりといった、これまでAIだけでは難しかったデジタルタスクをスムーズにこなすことができます。

技術的な仕組みとしては、Gemini APIを通じて提供される「computer_use」という特別なツールを使います。AIは、現在の画面のスクリーンショット、ユーザーからの指示、そして過去にどのような操作をしたかという履歴情報を受け取ります。これらを分析して、「このボタンをクリックする」「ここに文字を入力する」といった具体的なUIアクションを判断し、実行します。もし、購入などの重要な操作が必要な場合は、ユーザーに確認を求める機能も備わっています。この一連のプロセスを繰り返すことで、AIが自律的にタスクを完了させることが可能です。現在のところ、主にWebブラウザでの操作に最適化されていますが、モバイルアプリのUI制御においても大きな可能性を秘めています。

AIがコンピューターを直接操作できるようになるため、Google DeepMindは安全性を非常に重視しています。モデル自体に、意図しない誤操作や悪用を防ぐための安全機能が最初から組み込まれています。さらに、開発者向けにも、システムを破壊したり、セキュリティを侵害したりするような高リスクなアクションをAIが勝手に実行しないよう、細かく設定できる安全制御機能が提供されています。Googleは、この新しい技術を導入する際には、開発者がシステムを徹底的にテストするよう強く推奨しています。

すでに早期アクセスプログラムでは、このモデルが様々な分野で活用され、大きな成果を上げています。例えば、ソフトウェア開発におけるUIテストの自動化により、開発スピードが飛躍的に向上したり、個人のタスク管理アシスタントや企業内のワークフロー自動化に利用されたりしています。Google社内でも、決済プラットフォームの脆いUIテストをAIが自動で修復するといった活用例があり、最大で60%以上のテストをAIが立て直すことに成功しているとのことです。

この「Gemini 2.5 Computer Use」は現在、Google AI StudioやVertex AIを通じて、パブリックプレビュー版として利用可能です。日本の新人エンジニアの皆さんも、この新しいAI技術に触れて、未来の自動化やAIエージェント開発の可能性をぜひ体験してみてください。

引用元: https://deepmind.google/discover/blog/introducing-the-gemini-2-5-computer-use-model/

  • Agents Playwright

「Playwright Agent」は、人気のWebテストフレームワークPlaywrightに標準で組み込まれた、AIの力を活用したテスト自動化支援機能です。新人エンジニアの皆さんにとっては、テストコードを書く手間を大幅に減らし、より効率的に品質の高いWebアプリケーションを開発できるようになる、強力なツールだと考えると良いでしょう。

このPlaywright Agentには、主に3つの「エージェント」と呼ばれる仕組みが含まれています。これらはそれぞれ異なる役割を持ち、連携しながらテストの作成から修復までを自動的に進めます。

  1. 🎭 Planner(プランナー): このエージェントは、皆さんのWebアプリケーションを自動的に探索し、「何をテストすべきか」という計画を、人間が理解しやすいMarkdown形式のドキュメントとして作成します。例えば、「ユーザーが商品をカートに追加し、購入を完了する」といった具体的なシナリオを設計する手助けをしてくれます。

  2. 🎭 Generator(ジェネレーター): プランナーが作成したMarkdown形式のテスト計画を受け取り、それを基に、実際に実行可能なPlaywrightのテストコードを自動的に生成します。Webページのボタンや入力フォームなどの要素を正しく識別し、期待される動作を検証するコードを効率的に作り出してくれます。これにより、手作業でテストコードを一から書く時間を大幅に短縮できます。

  3. 🎭 Healer(ヒーラー): WebアプリケーションのUI変更などでテストコードが動かなくなった場合、このエージェントが活躍します。ヒーラーは、失敗したテストを自動で検知し、その原因を分析します。そして、例えばUI要素の指定(セレクタ)が変わっていた場合に新しいセレクタを提案したり、処理の待機時間を調整したりするなど、テストを修正するための「パッチ」を自動で適用しようとします。これにより、テストのメンテナンス作業が非常に楽になります。

これらのエージェントは、それぞれ単独で使うこともできますが、順番に連携させて使うことで、アプリケーション全体に対する包括的なテストカバレッジ(網羅性)を自動的に生み出すことができます。

導入も簡単で、npx playwright init-agentsというコマンド一つで、プロジェクトにエージェントの定義を追加できます。その後は、VS CodeなどのAIツールと連携して、これらのエージェントに指示を出し、Playwrightテストの作成や修復を自動で行わせることが可能になります。

Playwright Agentは、テスト作成の初期段階からメンテナンスまで、テスト工程全体の効率化を強力にサポートし、エンジニアがより本質的な開発作業に集中できるようにするための画期的な機能と言えるでしょう。

引用元: https://playwright.dev/docs/test-agents

  • エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始 - 株式会社Preferred Networks

皆さん、こんにちは!今回は、国内のAI技術をリードする株式会社Preferred Networks(PFN)から発表された、日本のエンジニアにとって注目のニュースをご紹介します。PFNが独自に開発している国産の大規模言語モデル(LLM)「PLaMo™(プラモ)」の商用版「PLaMo 2.1 Prime」がリリースされ、特に「エージェント機能」が大きくパワーアップしたとのことです。

エージェント機能とは、AIが単に質問に答えるだけでなく、まるで秘書のように、ユーザーの指示を理解して、必要な情報を自動で探し出し、様々なシステムと連携してタスクをこなしてくれる機能のことです。

今回の「PLaMo 2.1 Prime」で特に注目すべきは、「自動ツール連携」機能が実装された点です。これまでのPLaMoも外部システムと連携できましたが、2.1 Primeでは、ユーザーの指示に合う最適なツール(たとえば、Web検索、社内のデータベース、外部のAIエージェント、APIなど)をPLaMoが自分で判断して選び、複数組み合わせて使うことができるようになりました。これにより、AIがより複雑で高度な仕事をこなせるようになります。

例えば、具体的な活用イメージとして以下が挙げられています。

  • お客様からの問い合わせに対して、PLaMoが「顧客管理システム」で情報を確認し、「在庫管理システム」で在庫状況を調べて、それらの情報をまとめてお客様に回答するといった、複数の情報を連携させた高度な対応が可能になります。
  • 特定のキャンペーンに興味を持ちそうな顧客を社内システムから自動で抽出し、その顧客向けにパーソナライズされたメールの本文をPLaMoが生成、さらにそのメールを自動で送信するといった一連の業務を任せることもできるようになります。

このような自動ツールの選択や呼び出しの精度は、専門のベン