米OpenAIは4月21日(現地時間)、画像生成モデルの新版「ChatGPT Images 2.0」を発表した。同社の画像モデルとして初めて「思考(thinking)」機能を搭載し、生成前に構図や整合性を検討してから出力する仕組みである。日本語を含む非ラテン文字の描画精度も大きく向上したという。
新モデルはAPIでは「gpt-image-2」として提供される。指示追従の精度を高め、オブジェクト同士の位置関係や細部を保ったまま複雑なレイアウトを描画できるようになった。インフォグラフィック、スライド、UIモックアップ、漫画など、文字とデザインが密に組み合わさる用途で性能を発揮するとされる。

対応アスペクト比は3:1の超横長から1:3の超縦長まで拡大し、API経由で最大2K解像度の出力に対応する。思考モードを有効にすると、Web検索を用いて最新情報を取り込みながら、1度のプロンプトで最大8枚の画像を連続して生成でき、キャラクターやオブジェクトの一貫性を保てる。
日本語、韓国語、中国語、ヒンディー語、ベンガル語など非ラテン文字の描画精度が向上し、教育コンテンツや多言語広告制作での活用が見込まれる。アイコン、UI要素、小さな文字など従来モデルが苦手としてきた要素にも対応が強化された。
提供範囲は、同日からChatGPT、Codex、APIの全ユーザーに展開される。Enterprise向けも近日提供予定としている。思考モードと拡張出力はChatGPT Plus、Pro、Businessの各有料プランで利用可能となる。
https://openai.com/index/introducing-chatgpt-images-2-0/

