3 行で言うとは？

- 何が: OpenAI が Realtime API に GPT-Realtime-2 / GPT-Realtime-Translate / GPT-Realtime-Whisper の 3 種類の新音声モデルを追加（公式ブログ『Advancing voice intelligence with new models in the API』2026-05-07）。 - 誰に: 音声で話す AI アプリやライブ配信ツールを作っている開発者、海外向けに自社サービスを音声で出したい非エンジニアの事業オーナー、多言語イベント・カスタマーサポートを運営しているチーム。 - 何が新しいか: 「翻訳専門」「推論強化」「文字起こし専門」の 3 本立てに Realtime API のモデル群を整理し、なかでも Translate は入力 70 言語超 → 出力 13 言語の話者の声を保ったままのライブ翻訳を 1 本のモデルでできるとされている。

新機能2026.05.09AI経営実践ラボ編集部

OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新

Q: 何が出たかは？

OpenAI 公式ブログと Realtime Translation ドキュメントの記述に基づくと、 追加されたのは以下の 3 モデルです（出典は末尾の URL）。 1. GPT-Realtime-2 — Realtime API のフラッグシップ。推論能力を強化 した 汎用音声モデルで、複雑な会話や長い文脈の保持に効く位置づけ。 2. GPT-Realtime-Translate — ライブ翻訳専用モデル。 入力は 70 言語以上 に対応、出力は 13 言語。話者の声色や 会話のテンポを保ったまま訳す（speech-to-speech）。 3. GPT-Realtime-Whisper — 音声→文字 に特化したリアルタイム 書き起こしモデル。Realtime API の中で、転写だけが必要な場面に 適したコスト / 精度プロファイルになる、という整理。 利用は OpenAI API 経由（model: を上記モデル名に切り替える形）。 専用ガイドとして が用意されており、ライブ放送や配信アプリでの使い方が解説されています。

Q: 誰に関係する？

- 多言語イベント / カンファレンスの配信担当: 登壇者の声色を保ったまま 13 言語に同時通訳できれば、英語登壇を日本語視聴者に届ける運用が 司会者を 1 人挟むよりシンプル になる。 - 海外向け CS / インサイドセールスのチーム: 通話の音声をそのまま別言語へ流せれば、社内に翻訳者を抱える前段の選択肢になりうる。まずはトライアル的なライブチャットの裏側に挿し込むのが現実解。 - 音声エージェントを作っている開発者: GPT-Realtime-2 にすると推論寄りの会話が安定する想定。書き起こしだけで足りる用途は Whisper モデルに切り分けるとコスト最適化しやすい。

# OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新。

AI5分

AI経営実践ラボ NOTEAIAI

AI 新機能記事一覧

この記事の要点

3行で言うと

# OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新。
AIの新機能として、確認に必要な要点を整理しています。
料金、利用条件、対応プランを社内の運用ルールに合わせて確認してください。

この記事の目次

Realtime API とは

OpenAI が提供する、音声でリアルタイムに会話するためのオーディオ専用 API です。文字を返すだけの普通の Chat Completions と違い、マイクで話した声をそのまま OpenAI 側に流し続け、相手モデルから音声がリアルタイムに返ってくる仕組みです。ChatGPT アプリの「音声モード」も、内部ではこの仕組みを使っています。

今回の発表はその背骨になるモデルの差し替え + 拡張です。

ティザー投稿の本文「tell your live translator we said こんにちは」は、ローンチ直前の 1 行コピーで、後述する GPT-Realtime-Translate に読者の意識を引き寄せるための短文と読めます。

何が出たか

OpenAI 公式ブログと Realtime Translation ドキュメントの記述に基づくと、追加されたのは以下の 3 モデルです（出典は末尾の URL）。

1. GPT-Realtime-2 — Realtime API のフラッグシップ。推論能力を強化した

汎用音声モデルで、複雑な会話や長い文脈の保持に効く位置づけ。

2. GPT-Realtime-Translate — ライブ翻訳専用モデル。

入力は 70 言語以上に対応、出力は 13 言語。話者の声色や会話のテンポを保ったまま訳す（speech-to-speech）。

3. GPT-Realtime-Whisper — 音声→文字に特化したリアルタイム

書き起こしモデル。Realtime API の中で、転写だけが必要な場面に適したコスト / 精度プロファイルになる、という整理。

利用は OpenAI API 経由（model: を上記モデル名に切り替える形）。専用ガイドとして <https://developers.openai.com/api/docs/guides/realtime-translation> が用意されており、ライブ放送や配信アプリでの使い方が解説されています。

誰にどう効くか

・多言語イベント / カンファレンスの配信担当: 登壇者の声色を保ったまま 13 言語に同時通訳できれば、英語登壇を日本語視聴者に届ける運用が司会者を 1 人挟むよりシンプルになる。

・海外向け CS / インサイドセールスのチーム: 通話の音声をそのまま別言語へ流せれば、社内に翻訳者を抱える前段の選択肢になりうる。まずはトライアル的なライブチャットの裏側に挿し込むのが現実解。

・音声エージェントを作っている開発者: GPT-Realtime-2 にすると推論寄りの会話が安定する想定。書き起こしだけで足りる用途は Whisper モデルに切り分けるとコスト最適化しやすい。

触ってみるには / 注意点

・入口: 既存の OpenAI API。model: gpt-realtime-2 / gpt-realtime-translate / gpt-realtime-whisper を Realtime API エンドポイントに渡す形。詳細は公式ブログとガイド参照。

・料金 / レート制限 / GA・preview 区分は本記事の作成時点で公式 URL から数字を確認できていない（Grok 経由で要旨を取得したのみ）。本番投入前に <https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api> と OpenAI の Pricing ページで再確認すること。

・対応言語: 入力 70 超 / 出力 13 という配分は OpenAI 自身が公開している現時点の仕様。日本語が出力 13 言語に含まれるかはガイド側のサポート言語表で必ず確認したい（ティザー投稿は「こんにちは」だが、これは入力側の想定例にも読める）。

・音声の取り扱い: ライブ翻訳の用途は録音 / 配信の同意・利用規約まわりと直結する。社外配信や顧客対応で使う場合、社内ガイドラインを先に整える前提で導入する。

3行で言うと

Realtime API とは

何が出たか

誰にどう効くか

触ってみるには / 注意点

関連リンク

関連記事