大規模AIトレーニングを加速するスーパーコンピュータネットワーク

OpenAI
OpenAIは、大規模AIトレーニングクラスターのパフォーマンスと回復力を向上させるため、業界パートナーと共同開発した新しいネットワークプロトコル「MRC」を発表しました。

概要

OpenAIは、大規模なAIモデルのトレーニングに使用されるスーパーコンピュータクラスターの効率と信頼性を向上させるためのネットワークプロトコル「Multipath Reliable Connection (MRC)」を発表しました。AMD、Broadcom、Intel、Microsoft、NVIDIAとの共同開発によるMRCは、適応型パケットスプレー技術とSRv6ベースの静的ソースルーティングを活用したマルチプレーンネットワークアーキテクチャを実現します。これらの技術革新により、ネットワークの混雑を最小限に抑え、ハードウェア障害時にもトレーニングを中断することなく迅速に経路を迂回できるため、より高度なフロンティアAIモデルの開発が可能となります。

(出典:OpenAI)