API の新モデルで音声インテリジェンスを前進させる

OpenAI
OpenAI は、自然な対話とリアルタイム機能を強化する高度な音声アプリケーション向けに、3 つの新しい API モデルを導入しました。

概要

OpenAI は、次世代の音声アプリケーションを可能にするために、API 内に 3 つの新しいオーディオモデルをリリースしました。GPT-Realtime-2 は、自然な会話と複雑なリクエストに対応する GPT-5 クラスの推論機能を提供します。GPT-Realtime-Translate は、70 を超える入力言語と 13 の出力言語でリアルタイムの音声翻訳を提供し、話者のペースに追随します。GPT-Realtime-Whisper は、低遅延のリアルタイム文字起こし用のストリーミング音声テキスト変換モデルです。これらのモデルは、単純な応答を超えた音声インターフェイスを、リアルタイムで聞き取り、推論し、翻訳し、文字起こしし、アクションを実行できるエージェントへと進化させることを目指しており、音声からアクションへ、システムから音声へのガイダンス、音声から音声へのコミュニケーションといったパターンをサポートします。GPT-Realtime-2 は、コンテキストウィンドウ、リカバリ動作、トーン制御、推論機能が改善されており、オーディオインテリジェンスと指示追従のベンチマークで大幅な向上が見られます。GPT-Realtime-Translate は、シームレスな多言語音声体験のために設計されており、GPT-Realtime-Whisper は、即時文字起こしによってライブビジネスワークフローを強化します。Realtime API には安全対策が含まれており、各モデルの価格設定の詳細が提供されています。

(出典:OpenAI)