RTX 5090 vs. M5 Max: Wer gewinnt beim lokalen KI-Rennen

19.06.2026 - 19:54:11 | boerse-global.de

Tests zeigen: Nvidia dominiert bei Geschwindigkeit, Apple bei Speicher für große KI-Modelle. Neue Chips und Quantisierung verändern den Markt.

KI-Hardware-Duell: Apple M5 gegen Nvidia RTX 5090 im Test — RTX - A glowing neural network over a split image of an Apple M-series chip and an NVIDIA RTX GPU, connected by data streams. 19.06.2026 - Bild: über boerse-global.de

Während NVIDIA auf rohe Geschwindigkeit setzt, punktet Apple mit riesigen Speicherkapazitäten.

Während Tech-Giganten um die beste Hardware für lokale KI-Modelle kämpfen, stellt sich für viele die Frage nach der richtigen Anwendung. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie KI-Tools wie ChatGPT bereits heute ohne teure Hardware-Investitionen effektiv in Ihren Alltag integrieren können. Gratis-Report mit praktischen KI-Tricks herunterladen

Geschwindigkeit gegen Speicher: Der grundlegende Kompromiss

Unabhängige Tests vom Juni 2026 zeigen ein klares Bild: NVIDIAs Flaggschiff RTX 5090 dominiert bei der reinen Generierungsgeschwindigkeit. Mit 32 Gigabyte GDDR7-Speicher und einer Bandbreite von 1.792 GB/s erreicht die Karte rund 185 Tokens pro Sekunde bei einem 8-Milliarden-Parameter-Modell. Das ist etwa 1,5- bis 1,8-mal schneller als der Vorgänger RTX 4090.

Doch die Arbeit hat einen Haken: Die 32 GB VRAM reichen für große Modelle nicht aus. Apples M5-Serie setzt dagegen auf Unified Memory – und kann so deutlich mehr Arbeitsspeicher für die GPU reservieren. Ein Mac Studio mit 64 GB RAM bringt ein dichtes 70-Milliarden-Parameter-Modell auf 20 bis 28 Tokens pro Sekunde. Für eine einzelne RTX 5090 oder 4090 ist das schlicht unmöglich – ihnen fehlt der Videospeicher, ohne auf langsamen Systemspeicher ausweichen zu müssen.

Die Bandbreiten der M5-Chips liegen zwischen 307 GB/s (M5 Pro) und 614 GB/s (M5 Max) – deutlich unter den Werten diskreter Grafikkarten, aber ausreichend für flüssige Inferenz.

NVIDIA und AMD schwenken um

Die Industrie reagiert. Auf der Computex 2026 präsentierte NVIDIA den RTX Spark – einen System-on-a-Chip, der mit einem 20-Kern-ARM-basierten Grace-Prozessor, einer Blackwell-GPU und bis zu 128 GB Unified Memory ausgestattet ist. Microsoft, ASUS, Dell und HP planen bereits kompatible Geräte, darunter das Surface Laptop Ultra, für Herbst 2026.

Die rasante Entwicklung bei KI-Hardware und -Software überfordert viele Einsteiger, die eigentlich nur von der Technologie profitieren möchten. Ein neuer Gratis-Report enthüllt die praktischsten Befehle und Tricks, mit denen Sie KI-Assistenten ganz unkompliziert für Ihre tägliche Organisation nutzen. Kostenlosen ChatGPT-Guide für Einsteiger sichern

Auch AMD mischt mit. Der Ryzen AI Max+ 395 zeigte beeindruckende Effizienz: Bei der Inferenz des Llama-70B-Modells verbraucht er Berichten zufolge bis zu 87 Prozent weniger Strom als ein RTX-4090-System. Allerdings bleibt die Grafikleistung rund 10 bis 12 Prozent hinter einer dedizierten RTX 4060 zurück – ein Kompromiss, den reine KI-Anwender wohl in Kauf nehmen werden.

Quantisierung senkt die Hürden

Neue Software-Techniken verändern das Kräfteverhältnis zusätzlich. Am 28. Mai 2026 veröffentlichte NVIDIA eine Version des Qwen3.6-35B-Modells mit NVFP4-Quantisierung. Das Format reduziert den VRAM-Bedarf von rund 71 GB auf nur 23 GB – mehr als eine Verdreifachung der Effizienz. Damit laufen 35-Milliarden-Parameter-Modelle auf einer einzelnen 24-GB-GPU wie der RTX 3090 oder 4090.

Der Haken: FP4 erfordert moderne Architekturen wie Hopper oder Blackwell. Ältere A100-Chips oder aktuelle RTX-40-Serie sind nicht kompatibel – ein klassischer Hardware-Lock-in für die effizienteste lokale Inferenz.

Am 18. Juni 2026 veröffentlichte Z.ai (ehemals Zhipu AI) das GLM-5.2, ein Mixture-of-Experts-Modell mit 744 Milliarden Parametern. Selbst in der 2-Bit-quantisierten Version benötigt es rund 256 GB Unified Memory. Für die größten Open-Source-Modelle bleibt Speicherkapazität also der entscheidende Faktor – nicht rohe Rechenleistung.

Betriebskosten entscheiden mit

Die Wirtschaftlichkeit spielt eine wachsende Rolle. Ein M5-betriebener Mac Mini verbraucht Strom für geschätzte 35 bis 55 Euro pro Jahr. Ein High-End-RTX-5090-System liegt dagegen bei 300 bis 400 Euro – ein Unterschied, der sich über drei Jahre auf über tausend Euro summiert.

Für Einsteiger bleibt der Gebrauchtmarkt attraktiv: Die RTX 3060 mit 12 GB VRAM ist ab etwa 180 Euro zu haben und bewältigt 14-Milliarden-Parameter-Modelle. Die RTX 3090 mit 24 GB gilt weiterhin als „Sweet Spot" für quantisierte 70B-Modelle – gebraucht für rund 800 Euro.

Neue Tools wie whichllm, zuletzt am 18. Juni aktualisiert, erlauben es Nutzern, ihre Hardware in Echtzeit zu testen und herauszufinden, welche Modelle von Plattformen wie HuggingFace auf ihrem System optimal laufen.

de | wissenschaft | 69584751 |