Googleは7日、コンピューターのUIを直接操作できる新モデル「Gemini 2.5 Computer Use model」の提供を開始しました。

開発者向けに、Gemini APIを通じて公開されます。
AIが人間と同じように、クリックや入力、スクロールといった操作でウェブページやアプリケーションを扱えるようになり、フォームへの入力やログイン作業など、これまでAIが苦手としていたGUI操作が可能になります。
購入などの重要な操作では、ユーザーに確認を求める機能も備えています。
性能面では、同様のモデルを提供する他社を上回る結果を示し、セキュリティ侵害を防ぐ安全対策も施されています。 AIエージェントの実用化が、いよいよ現実のものとなってきました。