カスタマーサポート向けAIを開発するカラクリ株式会社は9日、日本企業初となるComputer-Using Agent(CUA)モデル「KARAKURI VL」を公開した。
経済産業省とNEDOが推進するGenerative AI Accelerator Challenge(GENIAC)第2期で開発されたもので、日本語画像読解タスクにおいて国内最高性能を記録した。

CUAは自然言語指示でコンピュータ操作を完全自動化できる次世代AI技術。従来は海外モデルが中心であり、日本語環境への対応に課題があった。カラクリは縦書き横書き混在の日本語UIや複雑な図表に対応する独自技術を搭載。マウスクリックやキーボード操作を実行し、人間と同様にアプリケーションを操作可能とした。開発にはQwen2.5-VLを基盤とし、AWS Trainiumでの大規模学習に成功。国際ベンチマーク「OSWorld」を翻訳・改変した400タスク以上の日本語版「OSWorld-JP」を開発し、評価基準を確立したことも特筆される。
代表の小田志門は「日本語業務環境に最適化されたAIで、企業の現場課題を解決する礎になる」と語る。一方、実用化にはガードレール技術の高度化や、各企業の操作パターン学習が不可欠とされる。カラクリは今後、音声入力にも対応するオムニモーダル化や強化学習による性能向上を進め、ベテランオペレーター同等の業務遂行を可能にするAIへと成長させる方針。公開デモは期間限定で視聴可能。