DiffusionGemma, Google

DiffusionGemma: Google DeepMind erzeugt 256 Tokens gleichzeitig

11.06.2026 - 06:34:47 | boerse-global.de

Google DeepMind präsentiert mit DiffusionGemma ein KI-Modell, das bis zu 256 Tokens gleichzeitig erzeugt und so die Textgenerierung beschleunigt.

Google DeepMind: Neues KI-Modell DiffusionGemma generiert Textblöcke parallel
DiffusionGemma - An abstract image showing glowing blue and green neural pathways converging on a stylized, futuristic NVIDIA GPU chip, representing AI and parallel processing. 11.06.2026 - Bild: über boerse-global.de

Ein neues Open-Source-Modell von Google DeepMind soll die Textgenerierung grundlegend beschleunigen – mit Hilfe von Nvidia-Hardware.

Statt Wörter mühsam Wort für Wort zu erzeugen, arbeitet DiffusionGemma parallel: Bis zu 256 Tokens auf einmal. Das teilte Google DeepMind am Mittwoch mit. Möglich macht das ein diffusionsbasierter Ansatz, der sich radikal von herkömmlichen autoregressiven Modellen unterscheidet.

Anzeige

Während Profi-Modelle wie DiffusionGemma die technische Entwicklung vorantreiben, bleibt die praktische Anwendung von KI-Tools für viele Nutzer oft ein Rätsel. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie gängige KI-Lösungen ohne Vorkenntnisse sofort effektiv in Ihren Alltag integrieren. ChatGPT als Alltagshelfer: Jetzt kostenlosen PDF-Report sichern

Technische Basis: 26 Milliarden Parameter, 256.000 Tokens Kontext

Das Modell basiert auf der Gemma-4-Architektur und setzt auf ein Mixture-of-Experts (MoE) -Design. Von den insgesamt 26 Milliarden Parametern sind während der Inferenz nur 3,8 Milliarden aktiv – das spart Rechenleistung.

Die offenen Gewichte stehen unter der Apache-2.0-Lizenz zur Verfügung. Mit einer Kontextlänge von bis zu 256.000 Tokens eignet sich DiffusionGemma besonders für Aufgaben wie das Lösen von Sudokus oder das Vervollständigen von Code. Die Qualität der Ausgaben liegt allerdings noch unter der des regulären Gemma-4-Modells, räumten die Entwickler ein.

Nvidia optimiert für RTX, DGX und H100

Pünktlich zum Start kündigte Nvidia umfassende Unterstützung an. Die Optimierungen zielen auf maximale Durchsatzleistung auf den Plattformen GeForce RTX, RTX PRO und DGX. Besonders das NVFP4-Datenformat soll die Performance auf lokaler Hardware deutlich steigern.

Die ersten Benchmarks sprechen eine klare Sprache:

  • H100-GPUs: Über 1.000 Tokens pro Sekunde
  • DGX Station: Bis zu 2.000 Tokens pro Sekunde
  • RTX 5090: Mehr als 700 Tokens pro Sekunde
  • DGX Spark: 150 Tokens pro Sekunde

Für Entwickler mit hochwertiger Hardware ist das Modell auch lokal nutzbar: In quantisierter Form passt es in 18 GB VRAM – ein klarer Vorteil gegenüber cloudabhängigen Alternativen.

Anzeige

Ob lokal installierte Modelle oder Cloud-Tools – der effiziente Einsatz von KI spart im Alltag wertvolle Zeit bei der Organisation und Planung. Erfahren Sie in diesem kompakten Gratis-Guide die besten Tipps und fertige Befehle, um das volle Potenzial moderner KI-Assistenten auszuschöpfen. Die praktischsten KI-Tricks für den Alltag hier kostenlos herunterladen

Breite Integration in die Entwickler-Ökosysteme

Die Kompatibilität mit gängigen Frameworks war von Anfang an gegeben. DiffusionGemma läuft auf Hugging Face Transformers, vLLM und Unsloth. Hinzu kommen Nvidias eigene Dienste: NVIDIA NIM (Inference Microservices) und das NeMo AutoModel-Framework erleichtern die Bereitstellung.

Das Modell ist in den Formaten BF16 und NVFP4 verfügbar. Branchenbeobachter sehen darin einen strategischen Schachzug: Nvidia stärkt seine Position im Markt für lokale KI-Inferenz und reduziert gleichzeitig die Abhängigkeit von teuren Cloud-Diensten.

Lokale Inferenz als Gamechanger?

Der entscheidende Vorteil von DiffusionGemma liegt in der Effizienz für Einzelnutzer. Weil das Modell Textblöcke parallel erzeugt, sinken die Latenzzeiten drastisch – vor allem die Zeit bis zum ersten Token. Entwickler können direkt auf ihren Workstations arbeiten, ohne auf Cloud-Ressourcen angewiesen zu sein.

Google verfolgt damit eine klare Strategie: Die Wirtschaftlichkeit lokaler KI-Entwicklung soll sich grundlegend ändern. Dass das Modell auch über das MLX-Framework nutzbar ist, unterstreicht den Anspruch, möglichst viele Hardware-Umgebungen abzudecken.

de | wissenschaft | 69518617 |