OpenAI、GPT-5クラスの推論搭載音声モデル「GPT-Realtime-2」など新世代3モデルをAPIに追加——翻訳・文字起こしもリアルタイム対応

2026.05.09
2026.05.12
DX・AI

米OpenAIは2026年5月7日、リアルタイム音声AIモデルの新世代3モデルをAPIに追加したと発表した。音声による会話・翻訳・文字起こしをリアルタイムで実現するこれらのモデルにより、開発者はより自然で高度な音声アプリを構築できるようになる。

発表された3モデルは次のとおりである。「GPT-Realtime-2」はGPT-5クラスの推論能力を備えた同社初の音声モデルで、複雑なリクエストへの対応や会話の自然な継続が可能。「GPT-Realtime-Translate」は70以上の入力言語から13の出力言語へリアルタイムで翻訳するライブ翻訳モデル。「GPT-Realtime-Whisper」は話し手の発話に合わせてリアルタイムで文字起こしを行うストリーミング音声認識モデルである。

GPT-Realtime-2は従来モデル（GPT-Realtime-1.5）と比較して、音声知性の評価指標Big Bench Audioで15.2%、会話型指示追従の評価指標Audio MultiChallengeで13.8%それぞれスコアが向上している。推論処理中も会話を途切れさせずに継続できる設計が特徴だ。

料金体系はGPT-Realtime-2が音声入力トークンあたり32ドル／100万トークン、音声出力64ドル／100万トークン。GPT-Realtime-TranslateおよびGPT-Realtime-Whisperは分あたり課金で、それぞれ0.034ドル／分、0.017ドル／分に設定されている。すべてのモデルはRealtime APIで利用可能で、OpenAIのPlaygroundでも試用できる。

同社によると、すでにZillowがGPT-Realtime-2を複雑な音声対応に活用し、通話成功率とコンプライアンスの堅牢性が大幅に向上したと報告している。またDeutsche TelekomはGPT-Realtime-Translateを活用した多言語顧客対応の実証に取り組んでいる。安全対策として有害コンテンツ検知時に会話を自動停止するクラシファイアーも実装されている。

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

BIZNEWS365

OpenAI、GPT-5クラスの推論搭載音声モデル「GPT-Realtime-2」など新世代3モデルをAPIに追加——翻訳・文字起こしもリアルタイム対応

関連記事

Apple、Xcode 26.3で「エージェンティックコーディング」対応　AIが自律的に開発工程を支援

OpenAI、ChatGPT搭載の新ブラウザ「Atlas」を発表

AIアシスタント「Gemini」iPhone専用アプリ登場！GeminiがiPhoneで利用可能に

Google、次世代AI「Gemini 3 Flash」提供開始

Manus、大規模並列処理機能「Wide Research」発表

AIエージェント103社を15分野に分類　「AIエージェントカオスマップ 2025」

生成AIで業務改革　ベネッセとサイバーエージェントが協業

OpenAI、画像生成AI「ChatGPT Images 2.0」発表思考機能を初搭載、日本語描画も大幅向上

JTBとMobility Technologies、「デジタルタクシーチケット for Events」の提供開始

パルコ、モデルから声まですべてAIの広告を公開

GensparkがAIチャット無制限化と自律型エージェントを同時発表

Google、「検索 Live」を日本で提供開始――200以上の国・地域でAIモードのマルチモーダル検索が解禁

最新ニュース記事

アンソロピック、Slackで使えるAIエージェント「Claude Tag」発表——「＠Claude」で業務を委任、自社コードの65％を生成

グーグル、「Gemini 3.5 Flash」にPC・スマホ操作の自動実行機能を標準搭載——ブラウザ横断でAIエージェント構築が可能に

OpenAI、Codexに操作の実演で自動化する新機能「Record & Replay」——Macでの作業を一度見せるだけで再利用可能なスキルに

2025年の社名変更は2万1547社——4社に1社が英語化、「AI」冠社名も純増42社と急増　帝国データバンク調査

アドビ、PhotoshopやPremiereなどCreative Cloud全体にAIエージェントを大幅拡充——ChatGPTやClaudeとの連携も

newmo、北海道・札幌に進出——乗務員不足に対応、今秋開業へ新会社設立とドライバー採用を開始

OpenAI、ChatGPT Enterpriseにコスト分析と支出管理機能を追加——AI投資の可視化と制御を強化

Voicy、企業向けPodcast制作サービス「Voicy Podcast Studio」を開始——企画から配信・分析までワンストップ、最短4週間で配信

Microsoft、AIエージェント「Copilot Cowork」を全世界で一般提供開始——数千ファイルの比較も自律実行、Fortune 500の過半数が採用

物価高と魚離れを救う。シェアNo.1企業が語る「魚肉ソーセージ」再ブレイクの理由

365AIニュースセンター最新記事

不登校からの復学へ！お子様の心を動かす7つのきっかけ

入学できないことも？「フリースクール入学拒否問題」の現実とその対処法

フリースクール中学校・通信制高校生の卒業後の進路：進学以外の就職という選択肢

中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

不登校脱出への道？フリースクールの魅力と注意点-親子で考える新たな一歩-

Amazonが「プライムデー夏祭り」を六本木で開催！

甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定！「もろこしチーズバーガー」新登場

OpenAI、GPT-5クラスの推論搭載音声モデル「GPT-Realtime-2」など新世代3モデルをAPIに追加——翻訳・文字起こしもリアルタイム対応

関連記事

最新ニュース記事

アンソロピック、Slackで使えるAIエージェント「Claude Tag」発表——「＠Claude」で業務を委任、自社コードの65％を生成

グーグル、「Gemini 3.5 Flash」にPC・スマホ操作の自動実行機能を標準搭載——ブラウザ横断でAIエージェント構築が可能に

OpenAI、Codexに操作の実演で自動化する新機能「Record & Replay」——Macでの作業を一度見せるだけで再利用可能なスキルに

2025年の社名変更は2万1547社——4社に1社が英語化、「AI」冠社名も純増42社と急増 帝国データバンク調査

アドビ、PhotoshopやPremiereなどCreative Cloud全体にAIエージェントを大幅拡充——ChatGPTやClaudeとの連携も

newmo、北海道・札幌に進出——乗務員不足に対応、今秋開業へ新会社設立とドライバー採用を開始

OpenAI、ChatGPT Enterpriseにコスト分析と支出管理機能を追加——AI投資の可視化と制御を強化

Voicy、企業向けPodcast制作サービス「Voicy Podcast Studio」を開始——企画から配信・分析までワンストップ、最短4週間で配信

Microsoft、AIエージェント「Copilot Cowork」を全世界で一般提供開始——数千ファイルの比較も自律実行、Fortune 500の過半数が採用

物価高と魚離れを救う。シェアNo.1企業が語る「魚肉ソーセージ」再ブレイクの理由

365AIニュースセンター最新記事

不登校からの復学へ！お子様の心を動かす7つのきっかけ

入学できないことも？「フリースクール入学拒否問題」の現実とその対処法

フリースクール中学校・通信制高校生の卒業後の進路：進学以外の就職という選択肢

中学生の不登校、30万人突破 – 教育現場の危機と新たな希望

【専門家が伝える】不登校のお子様を持つ親御様の「心の荷」を軽くする5つのヒント

不登校脱出への道？フリースクールの魅力と注意点-親子で考える新たな一歩-

Amazonが「プライムデー夏祭り」を六本木で開催！

甘いとうもろこしとフライドチキンの絶妙コンビ。夏限定！「もろこしチーズバーガー」新登場

ログイン

パスワード再設定

2025年の社名変更は2万1547社——4社に1社が英語化、「AI」冠社名も純増42社と急増　帝国データバンク調査