用于加速大规模人工智能训练的超级计算机网络
内容摘要
OpenAI 推出了“多路径可靠连接”(MRC)网络协议,旨在提升用于训练大规模人工智能模型的超级计算机集群的效率与稳定性。该协议由 OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 共同开发,支持多平面网络架构,并结合了自适应数据包喷洒技术与基于 SRv6 的静态源路由。这些创新显著减少了网络拥塞,能够在不中断训练任务的情况下快速绕过硬件故障,并降低了基础设施的整体复杂度,从而为开发更强大的前沿人工智能模型提供了有力支撑。
(来源:OpenAI)