OpenAIはAPI向けの新世代リアルタイム音声モデル3種を発表した。単純な呼びかけと応答にとどまらず、会話の流れのなかでリアルタイムに聞き取り・推論・翻訳・文字起こし・ツール実行までを行う音声エージェントの実現を目指したラインナップとなっている。
1つ目のGPT-Realtime-2はGPT-5クラスの推論能力を備えた音声モデル。より複雑なリクエストへの対応、文脈の把握精度の向上、より自然な会話の実現を特徴とする。コンテキストウィンドウをこれまでの32Kから128Kに拡大し、より長く複雑なセッションにも対応する。推論レベルはminimal・low・medium・high・xhighの5段階から選択可能で、シンプルなやり取りでは低レイテンシを、複雑なリクエストでは高精度の推論を使い分けられる。
2つ目のGPT-Realtime-Translateは、70以上の言語による音声入力を13言語の音声出力にリアルタイムで翻訳するモデル。カスタマーサポート、越境販売、教育、イベント、メディア、クリエイタープラットフォームなどのグローバル対応を想定している。Deutsche Telekomが多言語音声サポートへの活用をテスト中。
3つ目のGPT-Realtime-Whisperは、話しながらリアルタイムで文字起こしを行う低レイテンシ型のストリーミング音声認識モデル。会議・授業・放送・イベントのリアルタイムキャプション生成、会話進行中のメモや要約作成、カスタマーサポートや医療・営業など高頻度の音声業務における迅速なフォローアップワークフローへの活用が想定されている。














