新機能2026.05.09AI経営実践ラボ編集部

OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新

# OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新。

AI5分
AI経営実践ラボ NOTEAIAI
AI新機能記事一覧

この記事の要点

3行で言うと

  • # OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新。
  • AIの新機能として、確認に必要な要点を整理しています。
  • 料金、利用条件、対応プランを社内の運用ルールに合わせて確認してください。
この記事の目次

Realtime API とは

OpenAI が提供する、音声でリアルタイムに会話するためのオーディオ専用 API です。文字を返すだけの普通の Chat Completions と違い、マイクで話した声をそのまま OpenAI 側に流し続け、相手モデルから音声がリアルタイムに返ってくる仕組みです。ChatGPT アプリの「音声モード」も、内部ではこの仕組みを使っています。

今回の発表はその 背骨になるモデルの差し替え + 拡張 です。

ティザー投稿の本文「tell your live translator we said こんにちは」は、ローンチ直前の 1 行コピーで、後述する GPT-Realtime-Translate に読者の意識を引き寄せるための短文と読めます。

何が出たか

OpenAI 公式ブログと Realtime Translation ドキュメントの記述に基づくと、追加されたのは以下の 3 モデルです(出典は末尾の URL)。

1. GPT-Realtime-2 — Realtime API のフラッグシップ。推論能力を強化 した

汎用音声モデルで、複雑な会話や長い文脈の保持に効く位置づけ。

2. GPT-Realtime-Translateライブ翻訳専用モデル

入力は 70 言語以上 に対応、出力は 13 言語。話者の声色や会話のテンポを保ったまま訳す(speech-to-speech)。

3. GPT-Realtime-Whisper音声→文字 に特化したリアルタイム

書き起こしモデル。Realtime API の中で、転写だけが必要な場面に適したコスト / 精度プロファイルになる、という整理。

利用は OpenAI API 経由(model: を上記モデル名に切り替える形)。専用ガイドとして <https://developers.openai.com/api/docs/guides/realtime-translation> が用意されており、ライブ放送や配信アプリでの使い方が解説されています。

誰にどう効くか

多言語イベント / カンファレンスの配信担当: 登壇者の声色を保ったまま 13 言語に同時通訳できれば、英語登壇を日本語視聴者に届ける運用が 司会者を 1 人挟むよりシンプル になる。

海外向け CS / インサイドセールスのチーム: 通話の音声をそのまま別言語へ流せれば、社内に翻訳者を抱える前段の選択肢になりうる。まずはトライアル的なライブチャットの裏側に挿し込むのが現実解。

音声エージェントを作っている開発者: GPT-Realtime-2 にすると推論寄りの会話が安定する想定。書き起こしだけで足りる用途は Whisper モデルに切り分けるとコスト最適化しやすい。

触ってみるには / 注意点

・入口: 既存の OpenAI API。model: gpt-realtime-2 / gpt-realtime-translate / gpt-realtime-whisper を Realtime API エンドポイントに渡す形。詳細は公式ブログとガイド参照。

料金 / レート制限 / GA・preview 区分は本記事の作成時点で公式 URL から数字を確認できていない(Grok 経由で要旨を取得したのみ)。本番投入前に <https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api> と OpenAI の Pricing ページで再確認すること。

対応言語: 入力 70 超 / 出力 13 という配分は OpenAI 自身が公開している現時点の仕様。日本語が出力 13 言語に含まれるかはガイド側のサポート言語表で必ず確認したい(ティザー投稿は「こんにちは」だが、これは入力側の想定例にも読める)。

音声の取り扱い: ライブ翻訳の用途は録音 / 配信の同意・利用規約まわりと直結する。社外配信や顧客対応で使う場合、社内ガイドラインを先に整える前提で導入する。

関連リンク

・ティザー投稿 (OpenAI 公式): <https://x.com/OpenAIDevs/status/2052536435300073805>

・公式ブログ「Advancing voice intelligence with new models in the API」: <https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api>

・Realtime Translation 公式ガイド: <https://developers.openai.com/api/docs/guides/realtime-translation>

_Status: pending(人間レビュー待ち)。料金 / GA 区分 / 出力対応言語の詳細は公式ブログ本文での再確認が必要。_

タグ(0件):タグ未設定
もっと見る