Redes de supercomputadoras para acelerar el entrenamiento de IA a gran escala

OpenAI
OpenAI presentó MRC, un protocolo de red desarrollado con socios industriales para mejorar el rendimiento y la resiliencia en clústeres de entrenamiento de IA.

Resumen

OpenAI ha introducido la Conexión Multipath Confiable (MRC), un protocolo de red diseñado para mejorar la eficiencia y la resiliencia de los clústeres de supercomputadoras utilizados para entrenar modelos de IA a gran escala. Desarrollado en colaboración con AMD, Broadcom, Intel, Microsoft y NVIDIA, MRC permite arquitecturas de red multiplano que utilizan la dispersión adaptativa de paquetes y el enrutamiento estático de origen basado en SRv6. Estas innovaciones minimizan la congestión de la red y permiten redirigir el tráfico rápidamente ante fallos de hardware sin interrumpir los procesos de entrenamiento, reduciendo así la complejidad de la infraestructura y facilitando el desarrollo de modelos de IA de vanguardia más capaces.

(Fuente:OpenAI)