OpenAI stellt neues Netzwerkprotokoll für KI-Supercomputer vor

OpenAI und Partner stellen offenes Netzwerkprotokoll MRC vor, das Engpässe in KI-Clustern verhindern soll.

Ein Konsortium aus OpenAI, AMD, Broadcom, Intel, Microsoft und NVIDIA hat ein offenes Netzwerkprotokoll entwickelt, das die nächste Generation von KI-Supercomputern vor Engpässen schützen soll.

Das als Multipath Reliable Connection (MRC) bezeichnete Protokoll soll verhindern, dass Netzwerküberlastungen oder Hardwareausfälle die riesigen GPU-Cluster ausbremsen, die für das Training moderner KI-Modelle nötig sind. Durch die Veröffentlichung der Spezifikation über das Open Compute Project (OCP) setzt die Allianz auf einen offenen Industriestandard – ein klarer Schritt weg von proprietären Netzwerklösungen hin zu einer widerstandsfähigeren Ethernet-Basis.

Anzeige

Während Tech-Giganten wie Microsoft und NVIDIA die Infrastruktur für die nächste Rechenrevolution bauen, fragen sich viele Anleger, wie sie am besten von diesem massiven Wachstum profitieren können. Dieser kostenlose Report enthüllt die 10 Big-Data-Aktien, die Experten aktuell als die größten Gewinner des KI-Megatrends identifiziert haben. Top 10 KI-Aktien jetzt gratis herunterladen

Intelligentes Routing für Tausende GPUs

Das zentrale Problem, das MRC löst: Bei großen KI-Trainingsläufen müssen zehntausende GPUs perfekt synchron arbeiten. Verzögert sich auch nur eine einzige Datenübertragung, stehen teure Rechenressourcen still. Branchenbeobachter betonen längst, dass das Netzwerk bei Systemen mit hunderttausenden GPUs zum entscheidenden Engpass wird – vergleichbar mit den Prozessoren selbst.

MRC begegnet diesem Problem mit einem Verfahren namens intelligentes Packet-Spray-Load-Balancing. Statt Datenpakete wie üblich über einen einzigen Pfad zu schicken, verteilt das Protokoll die Übertragungen gleichzeitig über hunderte Wege. Das dämmt Überlastungen ein und reduziert die Latenzschwankungen, die synchronisierte Trainingsabläufe immer wieder stören.

Zusätzlich setzt MRC auf IPv6 Segment Routing (SRv6). Netzwerkkarten kodieren Routing-Anweisungen direkt in die Paket-Header, was aufwendige Switch-Logik überflüssig macht. Das System erkennt Ausfälle von Leitungen oder Switches im Mikrosekunden-Bereich und leitet Daten um – herkömmliche Netzwerke brauchen dafür oft Sekunden oder sogar Minuten.

Der Abschied von InfiniBand

Die strategische Bedeutung von MRC geht weit über technische Details hinaus. Es beschleunigt den bereits laufenden Wechsel von InfiniBand zu Ethernet in KI-Rechenzentren. InfiniBand dominierte lange das Hochleistungsrechnen, doch der Bedarf an Skalierbarkeit, Offenheit und einer breiteren Lieferantenbasis macht Ethernet zunehmend attraktiver. MRC erweitert das bestehende RDMA over Converged Ethernet (RoCE) um die nötige Zuverlässigkeit für synchrones Training.

Die Effizienzgewinne sind beachtlich: Laut OpenAI verbindet MRC über 100.000 GPUs mit nur zwei Ebenen Ethernet-Switches – herkömmliche 800-Gb/s-Designs benötigen drei oder vier Ebenen. Weniger Komponenten bedeuten geringeren Stromverbrauch und niedrigere Infrastrukturkosten.

Durch die Übergabe an das Open Compute Project will das Konsortium eine Zersplitterung des KI-Infrastrukturmarkts in proprietäre Insellösungen verhindern. Das ist dringend nötig: Laut einer Studie von Dell‘Oro Group sicherten sich NVIDIA und Celestica 2025 allein 50 Prozent der Umsätze mit KI-Backend-Netzwerken – eine Konzentration, die offene Standards wie MRC aufbrechen sollen.

Anzeige

Die technologische Aufrüstung in den Rechenzentren markiert den Beginn einer neuen industriellen Ära, in der Milliarden in Robotik und KI fließen. Erfahren Sie im aktuellen Gratis-Report von Finanztrends.de, welche Unternehmen diese Revolution anführen und wo das große Geld der Profi-Investoren gerade hinfließt. Gratis-Report zur neuen Industrierevolution sichern

Live im Einsatz: Von Texas bis zu Microsofts Supercomputern

MRC ist keine Zukunftsmusik. OpenAI bestätigt, dass das Protokoll bereits in seinen produktiven Umgebungen läuft – unter anderem auf den größten NVIDIA-GB200-Supercomputern im Oracle-Cloud-Rechenzentrum in Abilene, Texas, und bei Microsofts Fairwater-Installationen.

Die praktischen Vorteile zeigten sich zuletzt beim Training der aktuellen ChatGPT- und Codex-Modelle. OpenAI-Techniker konnten während laufender Trainingsläufe vier Tier-1-Switches neu starten – ohne die Workload-Manager zu informieren. Bisher hätte ein solcher Eingriff meist den Abbruch des gesamten Trainings erzwungen.

MRC ist zudem ein zentraler Baustein der „Stargate“-Initiative von OpenAI, einem 500-Milliarden-Dollar-Projekt zum Ausbau der KI-Infrastruktur in den USA. Das Unternehmen hat bereits über 10 Gigawatt (GW) gesicherte KI-Kapazität gemeldet – mehr als 3 GW davon kamen allein in den letzten 90 Tagen hinzu. Bei solchen Dimensionen wird die Fähigkeit, Durchsatz und Ausfallsicherheit konstant zu halten, zur Überlebensfrage für den Trainingsbetrieb.

Ausblick: Offene Standards als Wettbewerbsvorteil

Mit MRC wandelt sich das Netzwerk vom unterstützenden Dienstleister zur strategischen Ressource. Dass sowohl traditionelle Netzwerkspezialisten wie Broadcom und Intel als auch die dominierenden Rechenanbieter NVIDIA und AMD an Bord sind, sichert dem Protokoll breite industrielle Unterstützung.

Für kleinere Cloud-Anbieter und Forschungseinrichtungen bietet die offene Lizenz eine Blaupause, um Infrastruktur zu bauen, die an die Leistungsfähigkeit der großen KI-Labore heranreicht. Die nächste Hürde ist der Hardware-Fahrplan: Mehrere Hersteller integrieren MRC bereits in ihre neuen 800-Gb/s- und 1,6-Tb/s-Netzwerkschnittstellen – ein klares Signal, wohin die Reise geht.