米グーグルは、AIモデル「Gemini 3.5 Flash」に、画面を見て自律的に操作する「コンピューター使用(computer use)」機能を組み込みツールとして搭載したと発表した。ブラウザ、モバイル、デスクトップの各環境を横断して動作するAIエージェントを、開発者が構築できるようになる。
これまでコンピューター使用機能は、独立した「Gemini 2.5 computer use」モデルとしてのみ提供されていた。今回、主力であるFlashモデルにネイティブ統合され、開発者は3.5 Flash単体で、画面を認識し、推論し、操作を実行するエージェントを構築できる。グーグルによれば、エージェント的なコンピューター操作タスクで自社最高の性能を実現するという。

想定する用途は、継続的なソフトウェアテストや、専門アプリケーションをまたいだ知識労働といった、長期的かつ企業向けの自動化タスクである。開発者と企業は、Gemini APIおよびGemini Enterprise Agent Platform経由で利用を開始できる。
安全面では、ライブ環境で動作するエージェントのプロンプトインジェクションのリスクを軽減するため、標的型の敵対的訓練を実施した。加えて、機微または不可逆な操作にユーザーの明示的な確認を求める機能と、間接的なプロンプトインジェクションを検知した際にタスクを自動停止する機能という、2つのオプションのエンタープライズ向けセーフガードを提供する。
グーグルは「多層防御(defense-in-depth)」のアプローチを掲げ、これらの機能を安全なサンドボックス化や人間による検証、厳格なアクセス制御と組み合わせることを開発者に推奨している。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/

