DFlash-Framework, NVIDIA

DFlash-Framework: NVIDIA beschleunigt KI-Inferenz um das 15-Fache

24.06.2026 - 02:35:28 | boerse-global.de

NVIDIA stellt das Open-Source-Framework DFlash vor, das KI-Inferenz auf Blackwell-Chips massiv beschleunigt und die Interaktivität von Sprachmodellen drastisch verbessert.

NVIDIA DFlash: 15-fache KI-Beschleunigung auf Blackwell-Chips
DFlash-Framework - A close-up of an NVIDIA Blackwell GPU glowing with digital light, surrounded by abstract data streams, symbolizing AI acceleration. 24.06.2026 - Bild: über boerse-global.de

Neue Technologie beschleunigt KI-Inferenz auf Blackwell-Chips drastisch – und das für alle.

NVIDIA hat am Dienstag einen Durchbruch bei der KI-Berechnung vorgestellt. Das neue DFlash-Framework beschleunigt große Sprachmodelle auf der Blackwell-Architektur um bis zu das 15-Fache. Die Open-Source-Software, ursprünglich an der University of California entwickelt, verspricht eine völlig neue Dimension der Interaktivität.

Anzeige

Während neue Technologien wie das DFlash-Framework die Leistung von KI-Systemen vervielfachen, müssen Unternehmen auch die rechtlichen Rahmenbedingungen im Blick behalten. Dieser kostenlose Umsetzungsleitfaden bietet einen kompakten Überblick über alle Anforderungen, Pflichten und Fristen der neuen EU-KI-Verordnung. EU AI Act in 5 Schritten verstehen

Wie DFlash die KI zum Sprint bringt

Herkömmliche Verfahren arbeiten tokenweise – ein Wort nach dem anderen. DFlash setzt auf einen Block-Diffusion-Ansatz, der mehrere Tokens parallel vorhersagt. Das Ergebnis: Statt mühsamer Autoregression gibt es echte Parallelverarbeitung.

Die Benchmarks sprechen eine deutliche Sprache. Nutzer können mit 500 bis 600 Tokens pro Sekunde rechnen. Für das Modell gpt-oss-120b bedeutet das auf Blackwell-Hardware einen 15-fachen Durchsatz. Auch andere Modelle profitieren massiv: Die Gemma 4 31B läuft 5,8-mal schneller, der Qwen3 8-B immerhin 5,1-mal.

Im direkten Vergleich mit dem bisherigen Standard EAGLE-3 verdoppelt DFlash fast die Interaktivität. Bei Llama 3.1 8B liegt der Geschwindigkeitszuwachs zwischen dem 2,3- und 2,8-Fachen.

Integration ohne Hürden

NVIDIA hat DFlash in die wichtigsten Inferenz-Frameworks eingebaut: TensorRT-LLM, vLLM und SGLang. Für Entwickler bedeutet das: kein aufwendiges Umschreiben des Codes. Wer von EAGLE-3 auf DFlash wechseln will, ändert einfach die Konfiguration.

20 vortrainierte Modelle stehen bereits auf Hugging Face bereit. Die Strategie dahinter ist klar: NVIDIA liefert nicht nur Hardware, sondern den kompletten Software-Stack. Besonders die Blackwell Ultra- und GB200-Systeme sollen von den Optimierungen profitieren.

Blackwell dominiert auch beim Training

Erst am Montag veröffentlichte NVIDIA die MLPerf Training 6.0-Ergebnisse. Die Blackwell-Plattform stellte in allen sieben Benchmarks neue Rekorde auf. Das GB300 NVL72-System trainiert bis zu 1,6-mal schneller als der Vorgänger GB200 NVL72.

Ein Beispiel für die Dimensionen: Das Modell DeepSeek-V3 671B wurde auf einem Cluster mit 8.192 GPUs trainiert. Solche Zahlen zeigen, wohin die Reise geht.

Anzeige

Die rasante Entwicklung von KI-Modellen stellt Unternehmen nicht nur vor technische, sondern auch vor komplexe Compliance-Fragen bezüglich Risikoklassen und Dokumentationspflichten. Erfahren Sie in diesem kostenlosen Report, welche KI-Systeme als Hochrisiko gelten und wie Sie die gesetzlichen Anforderungen rechtssicher erfüllen. Kostenlosen Umsetzungsleitfaden zum AI Act sichern

Europa rüstet auf: 35 neue KI-Supercomputer

Parallel zur Technologie-Offensive baut NVIDIA seine europäische Präsenz massiv aus. 35 neue KI-Supercomputer entstehen auf dem Kontinent – auf Basis von Blackwell und Hopper. Die 800 AI-Exaflops Rechenleistung verteilen sich auf Projekte wie das MareNostrum5 AI-Upgrade in Barcelona und das Blue Swan-System für BavariaAI.

Weniger Stromverbrauch, mehr Effizienz

NVIDIA denkt auch an die Betriebskosten. Neue Tools wie NVFP4 und die Dynamo KV-Cache-Beschleunigung senken den Energieverbrauch von KI-Rechenzentren. Bis zu 40 Prozent der Kosten entfallen dort auf den Strom. Dynamische Anpassungen der GPU-Geschwindigkeit können den Energiebedarf beim Training um 25 Prozent senken – ohne Zeitverlust.

BioNeMo: KI für die Wissenschaft

Ebenfalls am Dienstag vorgestellt: das BioNeMo Agent Toolkit. Die Suite mit Werkzeugen wie Nemotron und OpenShell soll wissenschaftliche Entdeckungen beschleunigen. Mehr als 50 Organisationen nutzen die Software bereits. In Zusammenarbeit mit dem Institute for Protein Design konnte die Leistung von RosettaFold3 verdoppelt werden – ein wichtiger Schritt für die Wirkstoffforschung.

de | wissenschaft | 69614672 |