RTX, Spark

RTX Spark: NVIDIA bringt KI-PCs ohne Cloud-Abhängigkeit

22.06.2026 - 07:55:47 | boerse-global.de

NVIDIA und Microsoft präsentieren den RTX Spark für lokale KI. Neue Workstations von Dell, HP und Lenovo folgen im September 2026.

NVIDIA RTX Spark: Neue Ära lokaler KI-Workstations startet
RTX - A close-up of a modern GPU and CPU on a server motherboard, illuminated with a blue glow, symbolizing local AI processing. 22.06.2026 - Bild: über boerse-global.de

Eine neue Generation von Workstations und Servern bringt leistungsstarke KI-Modelle direkt auf den Schreibtisch – ohne Datenversand in die Cloud.

Der RTX Spark: NVIDIAs Antwort auf lokale KI

Auf der Computex 2026 im Juni präsentierten NVIDIA und Microsoft den RTX Spark – eine neue Windows-PC-Klasse, die speziell für lokale KI-Agenten entwickelt wurde. Die Systeme kombinieren Blackwell-GPUs mit 20-Kern-Grace-CPUs und bis zu 128 Gigabyte Unified Memory. Mit einer KI-Leistung von einem Petaflop können sie Modelle mit bis zu 120 Milliarden Parametern und Kontextfenstern von über einer Million Tokens ausführen.

Anzeige

Die neue Ära lokaler KI-Systeme bringt nicht nur technische Vorteile, sondern auch komplexe rechtliche Anforderungen durch den EU AI Act mit sich. Dieser kostenlose Leitfaden bietet Unternehmen einen kompakten Überblick über alle neuen Pflichten, Fristen und Risikoklassen der EU-KI-Verordnung. EU AI Act in 5 Schritten verstehen: Fristen, Pflichten und Risikoklassen kompakt erklärt

Die großen Hersteller Dell, HP, Lenovo, ASUS und MSI haben sich bereits zur Plattform bekannt. Vorbestellungen sind seit dem 15. Juni möglich, die allgemeine Verfügbaarkeit ist für September 2026 geplant. Parallel dazu bringt Microsoft Scout auf den Markt – einen lokalen Agenten für Microsoft 365 – sowie die sogenannten eXecution Containers (MXC) zur Verwaltung dieser Workloads.

Desktop-Supercomputer für Profis

Für anspruchsvolle professionelle Anwendungen kündigte NVIDIA zudem die DGX Station für Windows an. Dieser Desktop-Supercomputer nutzt den GB300 Grace Blackwell Ultra Superchip und erreicht 20 Petaflops FP4-Leistung. Für industrielle Großanwendungen ist die Vera-Rubin-Plattform für den Herbst 2026 angekündigt – sie soll eine deutlich höhere Agenten-Durchsatzrate bieten als aktuelle Grace-Blackwell-Systeme.

Mini-Workstations: Kompakt, aber leistungsstark

Auch der Markt für kompakte Workstations reagiert auf die KI-Nachfrage. GMKtec hat am 22. Juni den Early Access für seine EVO-X3 Mini-Workstation gestartet, der weltweite Verkaufsstart folgt am 29. Juni. Das System arbeitet mit dem AMD Ryzen AI Max+ 395 „Strix Halo" – einem Prozessor mit 16 Zen-5-Kernen und 128 Gigabyte LPDDR5X-Speicher. Der Preis liegt zwischen 3.300 und 3.500 Euro, je nach Speicherausstattung. Ein Dreifach-Lüfter-Kühlsystem bewältigt die 140 Watt Leistungsaufnahme.

Anzeige

Während neue Hardware-Generationen die lokale Ausführung von KI-Modellen ermöglichen, stellt sich für viele Unternehmen die Frage nach der rechtlichen Einstufung ihrer Systeme. Erfahren Sie in diesem kostenlosen Report, welche KI-Anwendungen konkret als Hochrisiko gelten und wie Sie die neuen Dokumentationspflichten rechtssicher umsetzen. Jetzt kostenlosen Umsetzungsleitfaden zum EU AI Act sichern

Ebenfalls im Juni 2026 hat Minisforum mit der Auslieferung seiner MS-03 Workstation begonnen. Das kompakte System setzt auf Intels Core Ultra Series 3 „Panther Lake" H-Serie und bietet zwei 10GbE SFP+-Ports sowie PCIe-Gen5-Speicher – ideal für Anwender, die Hochgeschwindigkeitsnetzwerke mit lokaler NPU-Leistung kombinieren müssen.

Leistungsvergleich: Was die neue Hardware wirklich bringt

Aktuelle Tests aus dem Juni 2026 zeigen deutliche Leistungssprünge zwischen den Hardware-Generationen. Mit der Ollama Q4_K_M-Quantisierung erreicht die neue RTX 5090 bei 8-Milliarden-Parameter-Modellen 250 Tokens pro Sekunde – mehr als doppelt so viel wie die RTX 3090 mit 119 Tok/s. Bei 32-Milliarden-Parametern hält die RTX 5090 noch 71 Tok/s, während die RTX 3090 auf 37 Tok/s fällt.

Für preisbewusste Entwickler bieten sich Multi-GPU-Konfigurationen an. Ein Serveraufbau mit drei gebrauchten RTX 3060-Karten für rund 1.400 Euro wurde kürzlich gegen eine einzelne RTX 3090 getestet. Zwar war die RTX 3090 bei der Tokengenerierung etwa doppelt so schnell, doch der Dreifach-RTX-3060-Aufbau erwies sich bei der Prompt-Verarbeitung bestimmter Modelle als konkurrenzfähig – bei einer Leistungsaufnahme von 580 bis 600 Watt.

Software-Tools für die lokale KI-Revolution

Die Softwareentwicklung hält mit der Hardware-Innovation Schritt. Version 0.13.1 von Mold, einer Rust-basierten Kommandozeilen-Oberfläche für KI-Bildgenerierung, wurde am 20. Juni 2026 veröffentlicht. Das Tool ermöglicht die lokale Ausführung verschiedener Modellfamilien wie FLUX und SDXL – ganz ohne Python.

Auf Unternehmensebene ist ein besonderer Erfolg gelungen: Forscher haben das 744-Milliarden-Parameter-Modell GLM-5.2 erfolgreich über vier DGX-Spark-Knoten verteilt. Mit dem llama.cpp-Framework und 128 GB Unified Memory pro Knoten erreichte die Konfiguration 6,28 Tokens pro Sekunde bei einem Kontextfenster von einer Million Tokens. Firmware-Updates im Juni haben zudem die Serviergeschwindigkeit für andere große Modelle wie MiniMax-M3 verbessert – durch optimierte Quantisierungsabdeckung und Serving-Stacks.

de | wissenschaft | 69600722 |