Cómo Descript permite el doblaje de video multilingüe a escala

OpenAI
Descript rediseñó su canalización de doblaje utilizando modelos de OpenAI para optimizar simultáneamente la fidelidad semántica y la adherencia a la duración, mejorando el ritmo natural.

Resumen

Descript, un editor de video nativo de IA, ha mejorado significativamente sus capacidades de doblaje de video multilingüe al rediseñar su canalización de traducción para abordar el problema crítico de la adherencia a la duración, que a menudo hacía que el habla traducida sonara poco natural.

Anteriormente, las traducciones optimizadas para el significado a menudo no cumplían con las restricciones de tiempo debido a que diferentes idiomas requieren diferentes velocidades de habla (por ejemplo, el alemán es a menudo "más largo" que el inglés). El nuevo enfoque de Descript utiliza modelos de razonamiento de OpenAI para optimizar simultáneamente la fidelidad semántica y la adherencia a la duración durante la generación, en lugar de corregir el tiempo después.

Los resultados mostraron un aumento del 15% en las exportaciones de videos traducidos y una mejora de 13 a 43 puntos porcentuales en la adherencia a la duración. Las pruebas de escucha confirmaron que la canalización rediseñada aumentó los segmentos dentro de una ventana de ritmo natural del 40%-60% a entre el 73% y el 83%. Descript ahora está desarrollando capacidades de procesamiento por lotes para permitir la localización de contenido a gran escala, con mejoras futuras centradas en hacer que la canalización sea más multimodal para preservar mejor las características del habla no verbal como el tono y el énfasis.

(Fuente:OpenAI)