使い方2026.05.09AI経営実践ラボ編集部

OpenAI、GPT-Realtime-2 向けの公式プロンプトガイドを公開 — 推論強度・前置き・ツール設計・聞き取りにくい音声の扱いまで

# OpenAI、GPT-Realtime-2 向けの公式プロンプトガイドを公開 — 推論強度・前置き・ツール設計・聞き取りにくい音声の扱いまで。

AI5分
AI経営実践ラボ NOTEAIAI
AI使い方記事一覧

この記事の要点

3行で言うと

  • # OpenAI、GPT-Realtime-2 向けの公式プロンプトガイドを公開 — 推論強度・前置き・ツール設計・聞き取りにくい音声の扱いまで。
  • AIの使い方として、確認に必要な要点を整理しています。
  • 料金、利用条件、対応プランを社内の運用ルールに合わせて確認してください。
この記事の目次

GPT-Realtime-2 とは(非エンジニア向け 100 字)

GPT-Realtime-2 は、OpenAI の Realtime API(マイクで話した声がそのまま AI に届き、AI も声でリアルタイムに返す音声専用 API)の最新フラッグシップモデルです。

2026-05-07 に Realtime-Translate / Whisper と並んで投入された「推論を強化した汎用音声モデル」で、複雑な会話や長い文脈の保持に効くポジションになっています。

同日のモデル投入そのものは別記事 〔OpenAI、Realtime API に「同時通訳」モデル — GPT-Realtime-Translate / 2 / Whisper の 3 本立てで音声 AI を更新〕で扱っています。今回はその 使いこなし方 に踏み込むガイドです。

何が新しいか — プロンプトガイドが触れている 6 領域

@OpenAIDevs の告知ポストと、貼られていた公式ガイド <https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2> によると、ガイドは以下のテーマを順番にカバーしています。

1. 推論の強さを調整する(reasoning effort)

GPT-Realtime-2 は推論能力を強化した世代です。とはいえ音声は「話してから返事までの間」が体感を大きく左右するため、必要以上に深く考えさせるとレイテンシが伸びる。用途別に「どこまで考えさせるか」を明示 するのがガイドの基本姿勢です。

2. 前置き(preambles)を設計する

モデルが本題の答えを出す前に、短い「いま考えています」「ご質問をこう理解しました」といった応答前の一言をどう設計するか。無音時間が UX を壊さないための音声特有のテクニックです。

3. ツール呼び出しの設計

音声エージェントが社内 DB を引いたり、API を叩いたりするいわゆる ツール(関数呼び出し) をどう定義し、どんなタイミングで使わせるか。説明文・引数の書き方・誤呼び出しの抑止までガイドが具体例つきで示しています。

4. 聞き取りにくい音声の扱い(unclear audio)

マイクが遠い、背景音がある、複数人が同時に話す、といった 音声側のノイズにモデルがどう振る舞うべきか。「聞き取れなかった時はどう聞き返すか」「黙るのか・確認するのか」を プロンプトで前もって指示しておく 設計が薦められています。

5. 固有名詞や数値を正確に書き起こす(capture exact entities)

人名・社名・住所・電話番号・予約番号など「1 文字違うと意味が壊れる情報」を、聞き間違いせずに引き渡すためのプロンプト戦略。読み返し確認や、入力フォーマットの強制などが扱われている領域です。

6. 長時間セッションで状態を保つ(maintain state in longer sessions)

ライブ通話やコールセンター用途のように、1 セッションが長く続くケースで、会話の前提・呼びかけ方・本人確認情報をどう保持し、どこで要約するか。Realtime ならではの「コンテキストの伸び」と向き合うガイドです。

誰にどう効くか

音声エージェントを作っている開発チーム: 「GPT-Realtime-2 に差し替えただけだとなぜか会話が冗長になった」「ツール呼び出しが暴れる」といった現場の症状にそのまま効く実装メモになる。プロンプトだけで治る範囲が広い。

コールセンター / インサイドセールスの裏側を整備している事業者: 本人確認や予約番号など「正確に取りたい情報」の書き起こし精度をプロンプト側で底上げできる。録音規約とガイドラインを整える前提で、自社運用の音声 AI を一段プロ仕様に近づける材料になる。

音声 AI を自社サービスに組み込みたい非エンジニアの事業オーナー: 自分でコードを書かなくても、外部開発者に依頼するときの「ここまで詰めたい」というチェックリストとして読める。とくに「聞き取りにくい時の振る舞い」「長時間セッション」は、運用品質に直結する論点。

触ってみるには / 注意点

入口: 既存の OpenAI API。model: gpt-realtime-2 を Realtime API エンドポイントで指定し、Developer Portal の <https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2> に従ってシステムプロンプトを組み立てる流れ。

対象モデルが GPT-Realtime-2 限定 という点に注意。同時に発表された GPT-Realtime-Translate(ライブ翻訳専用)/ GPT-Realtime-Whisper (書き起こし専用)には別の使いどころと別の留意点があるので、プロンプトガイドの内容を そのまま流用しない

料金 / レート制限 / 提供リージョンは今回の投稿の対象外(あくまでプロンプト設計のガイド)。本番投入時は OpenAI の Pricing ページと Realtime API の Rate Limits を別途参照する必要がある。

筆者注: ガイドは「音声 UX を壊さない」観点が強く、テキスト用のプロンプトベストプラクティスとは別物として読むほうが頭の整理がしやすい。たとえばテキストでは歓迎される「ステップごとに丁寧に考えてください」も、音声で同じことをやるとレイテンシで UX を壊しがち、という前提に立っている。

参考

・告知ポスト (OpenAI 開発者公式): <https://x.com/OpenAIDevs/status/2052530378184032560>

・公式プロンプトガイド (GPT-Realtime-2 用): <https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2>

_Status: pending(人間レビュー待ち)。同日 2026-05-09 の Realtime 新モデル投入記事と合わせて読むと、何が出たか / どう使うかの両面が揃う。_

タグ(0件):タグ未設定
もっと見る