MLPerf v6.0: NVIDIA Blackwell dominiert KI-Training mit 1,6× Speedup
16.06.2026 - 21:55:52 | boerse-global.de
Neue MLPerf-Benchmarks zeigen Rekordleistungen bei KI-Training – und erstmals Spezialtests für Mixture-of-Experts-Modelle.
Die KI-Hardware-Branche hat heute neue Maßstäbe gesetzt. MLCommons veröffentlichte die Ergebnisse der MLPerf Training v6.0-Benchmarks, die erstmals spezielle Tests für Mixture-of-Experts (MoE)-Architekturen enthielten. Die Teilnehmerzahl stieg auf 24 Organisationen mit insgesamt 95 eingereichten Systemen – 60 Prozent davon Mehrknoten-Konfigurationen.
Während die Hardware-Leistung neue Rekorde bricht, müssen Unternehmen auch die rechtlichen Rahmenbedingungen im Blick behalten. Dieser kostenlose Praxisleitfaden erklärt kompakt die neuen Pflichten und Risikoklassen der EU-KI-Verordnung. EU AI Act in 5 Schritten verstehen
NVIDIA Blackwell räumt ab
NVIDIAs Blackwell-Plattform erzielte in allen sieben Benchmark-Kategorien die schnellsten Trainingszeiten. Das GB300 NVL72-System übertraf seinen Vorgänger GB200 NVL72 um das bis zu 1,6-Fache. Besonders beeindruckend: die Rekordzeiten für Large Language Models wie Llama 3.1 405B und das neu eingeführte DeepSeek-V3.
Die Leistungssprünge verdankt NVIDIA einer Kombination aus Hardware-Skalierung und Software-Optimierungen. CUDA Graphs, CuTe DSL und MXFP8 Attention beschleunigen die Datenverarbeitung. Speziell entwickelte fused MLP-Kernel verbesserten die Vorwärtsdurchläufe um das 1,3-Fache und die Rückwärtsdurchläufe um das 2,1-Fache – ein entscheidender Vorteil für MoE-Modelle.
CoreWeave und Azure: Rekorde im großen Stil
Der spezialisierte Cloud-Anbieter CoreWeave erzielte die schnellste Trainingszeit für DeepSeek-V3 – ein Modell mit 671 Milliarden Parametern. Mit einem Cluster von 8.192 NVIDIA GB300 NVL72-GPUs – dem größten im Benchmark – schaffte CoreWeave die Aufgabe in 2,02 Minuten. Zum Vergleich: Auf 4.096 GPUs dauerte es 3,09 Minuten, auf 2.048 GPUs 5,54 Minuten.
Microsoft Azure setzte seinerseits einen Rekord für Llama 3.1 405B: 7,07 Minuten mit 8.192 GB200 NVL72-GPUs. Azure betonte eine Weak-Scaling-Effizienz von 99,8 Prozent beim Wechsel von 7.168 auf 8.192 GPUs – ermöglicht durch die Fairwater-AI-Infrastruktur und Hochgeschwindigkeits-Netzwerke.
Der rasante Fortschritt bei KI-Modellen wie DeepSeek bringt auch neue Anforderungen an die Dokumentation und Qualitätssicherung mit sich. Erfahren Sie in diesem kostenlosen Report, welche KI-Systeme als Hochrisiko gelten und wie Sie die Compliance-Vorgaben erfüllen. Kostenlosen Umsetzungsleitfaden zum EU AI Act sichern
Neue Benchmarks für MoE-Architekturen
Die Version 6.0 führte zwei spezifische Benchmarks für MoE-Architekturen ein: DeepSeek V3 und GPT-OSS 20B. Diese Modelle zeichnen sich durch eine hohe Gesamtparameterzahl aus, aktivieren aber nur einen Bruchteil während der Berechnung – bei DeepSeek V3 sind das 37 Milliarden, bei GPT-OSS 3,6 Milliarden.
Die Zahl der Cloud-basierten Systemeinreichungen hat sich im Vergleich zu v5.1 mehr als verdoppelt. Neue Teilnehmer wie Inventec, Netweb Technologies India, TTA und Vultr zeigen die wachsende Bedeutung des Marktes.
AMD kontert mit Prognosen für Agentic AI
Während die MLPerf-Ergebnisse die aktuelle Hardware-Leistung zeigen, blicken andere Hersteller bereits in die Zukunft. AMD veröffentlichte heute Daten zu seinen EPYC 9965-Prozessoren und beansprucht einen Durchsatzvorteil für agentische KI-Aufgaben auf Rack-Ebene.
Laut AMD-Prognosen bietet die aktuelle EPYC-Hardware den 2,37-fachen Rack-Durchsatz im Vergleich zu bestimmten Konfigurationen der Konkurrenz bei spezifischen Leistungsgrenzen. Für die kommende Venice-Architektur sagt AMD sogar den 3,30-fachen Durchsatz voraus. Der Wettbewerb im Servermarkt verschärft sich – und die Optimierung auf hohe Kerndichten und Energieeffizienz wird zum entscheidenden Faktor.
