API の新モデルで音声インテリジェンスを前進させる

English 中文 Español

OpenAI May 7, 2026

OpenAI は、自然な対話とリアルタイム機能を強化する高度な音声アプリケーション向けに、3 つの新しい API モデルを導入しました。

全文を読む

概要

OpenAI は、次世代の音声アプリケーションを可能にするために、API 内に 3 つの新しいオーディオモデルをリリースしました。GPT-Realtime-2 は、自然な会話と複雑なリクエストに対応する GPT-5 クラスの推論機能を提供します。GPT-Realtime-Translate は、70 を超える入力言語と 13 の出力言語でリアルタイムの音声翻訳を提供し、話者のペースに追随します。GPT-Realtime-Whisper は、低遅延のリアルタイム文字起こし用のストリーミング音声テキスト変換モデルです。これらのモデルは、単純な応答を超えた音声インターフェイスを、リアルタイムで聞き取り、推論し、翻訳し、文字起こしし、アクションを実行できるエージェントへと進化させることを目指しており、音声からアクションへ、システムから音声へのガイダンス、音声から音声へのコミュニケーションといったパターンをサポートします。GPT-Realtime-2 は、コンテキストウィンドウ、リカバリ動作、トーン制御、推論機能が改善されており、オーディオインテリジェンスと指示追従のベンチマークで大幅な向上が見られます。GPT-Realtime-Translate は、シームレスな多言語音声体験のために設計されており、GPT-Realtime-Whisper は、即時文字起こしによってライブビジネスワークフローを強化します。Realtime API には安全対策が含まれており、各モデルの価格設定の詳細が提供されています。

(出典：OpenAI)

English 中文 Español

全文を読む

Bbc Jun 21, 2026

なぜAI企業が私のニューヨークのマンションを無料で掃除したのか

TechCrunch Jun 21, 2026

トランプ政権が Anthropic を締め付けたとき、誰が得をするのか？

TechCrunch Jun 21, 2026

Siriを超えて：iOS 27でiPhoneに搭載される実用的なAI機能をご紹介

the Guardian Jun 21, 2026

ブランドがSNSでの製品プロモーションにAI生成インフルエンサーを活用

TechCrunch Jun 20, 2026