Google DeepMindは8月5日、テキストプロンプトから対話型環境をリアルタイムで生成する汎用ワールドモデル「Genie 3」を発表した。同モデルは720p解像度で24フレーム毎秒の速度で動的な世界を生成し、数分間にわたって一貫性を保持する能力を持つ。

Genie 3は従来のGenie 1およびGenie 2から大幅に進化を遂げ、初めてリアルタイム対話を可能とした世界モデルとなった。火山地帯でのロボット走行、ハリケーン接近時のフロリダ海岸、深海でのクラゲ追跡など、多様な環境を生成できる。また、日本の禅庭園や古代アテネ、ヴェネツィアの運河といった地理的・時間的境界を超えた場所の探索も実現する。
技術的な革新として、自動回帰的フレーム生成において、1分前の関連情報を参照する長期視覚メモリ機能を搭載した。これにより、ユーザーが同じ場所を再訪問した際も環境の一貫性が維持される。従来のNeRFsやGaussian Splattingとは異なり、明示的な3D表現に依存せず、フレームごとに動的で豊かな世界を創造する点が特徴だ。
同社は10年以上にわたってシミュレーション環境の研究を pioneering してきており、リアルタイム戦略ゲームのエージェント訓練から、オープンエンド学習やロボティクス向けシミュレーション環境開発まで手がけてきた。ワールドモデルはAGI(汎用人工知能)への重要なステップとして位置づけられ、AIエージェントが豊富なシミュレーション環境の無制限カリキュラムで訓練することを可能にするとしている。
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/