Descript 如何实现大规模多语言视频配音

OpenAI
Descript 重新设计了视频配音流程,利用 OpenAI 模型同时优化语义保真度和时长一致性,显著提升了自然语速。

内容摘要

Descript 是一款以人工智能为核心的视频编辑器,它通过重新设计翻译流程,解决了多语言视频配音中语义准确性和时长一致性难以兼顾的问题,从而显著提升了配音的自然度。

过去,翻译结果虽然语义正确,但由于不同语言表达相同意思所需时间不同(例如德语通常比英语“长”),导致配音语速不自然。Descript 的新方法利用 OpenAI 推理模型,特别是其在音节计数等任务上的一致性,在生成过程中同时优化语义保真度和时长一致性,而不是事后修正。

此次改进使配音的自然语速范围内的片段比例从 40%-60% 提高到 73%-83%,并使翻译视频的导出量增加了 15%。Descript 正在构建批量处理功能以支持大规模内容本地化,并计划未来使流程更加多模态,以更好地保留语调和强调等非语言特征。

(来源:OpenAI)