Descriptが多言語ビデオの吹き替えを大規模に実現する方法

OpenAI
Descriptは、OpenAIモデルを使用して、意味の忠実度と尺度の順守の両方を同時に最適化するように吹き替えパイプラインを再設計し、自然なペースを大幅に改善しました。

概要

Descriptは、AIネイティブのビデオエディターであり、多言語ビデオの吹き替え機能において、意味の忠実度と尺度の順守という2つの重要な要素を同時に最適化するよう翻訳パイプラインを再設計しました。

従来、翻訳は意味を優先するあまり、異なる言語間の自然な発話速度の違い(例:ドイツ語は英語より「長い」傾向がある)に対応できず、吹き替え音声が不自然になるという問題がありました。Descriptの新しいアプローチでは、OpenAIの推論モデルを活用し、音節カウントなどのタスクにおける一貫性を利用して、生成時に尺度の順守と意味の保持を同時に最適化します。

この再設計の結果、自然なペースの許容範囲内に収まるセグメントの割合が40%〜60%から73%〜83%に向上し、吹き替え付きの翻訳ビデオのエクスポートが15%増加しました。Descriptは現在、大規模なローカライゼーションに対応するためバッチ処理機能の構築を進めており、将来的には音声のトーンや強調などの非言語的特徴をより維持するために、パイプラインをよりマルチモーダルにすることを目指しています。

(出典:OpenAI)