Gemini Omni Flash: Google erzeugt Videos mit synchronisiertem Audio
04.06.2026 - 20:26:30 | boerse-global.de
Im Zentrum steht der Gemini Omni – ein multimodales System, das Texte, Bilder, Audio und Videos gleichzeitig verarbeiten kann. Parallel dazu veröffentlichte Google DeepMind mit Gemma 4 12B ein schlankeres Open-Source-Modell, das direkt auf dem Laptop läuft.
Weltmodell für realistische Inhalte
Bereits Mitte Mai 2026 auf der Google I/O vorgestellt, basiert Gemini Omni auf einer sogenannten „World Model"-Architektur. Das Besondere: Das System behält physikalische Gesetzmäßigkeiten und logische Zusammenhänge im Blick, wenn es Inhalte generiert. Ob Text, Ton, Bild oder Video – Gemini Omni verarbeitet alle Eingabeformen parallel und kann daraus beliebige Ausgaben erzeugen.
Während Google mit Gemini Omni die technische Messlatte immer höher legt, suchen viele Anwender noch nach einfachen Wegen, KI-Tools effizient in ihren täglichen Ablauf zu integrieren. Dieser kostenlose PDF-Report zeigt Ihnen mit fertigen Prompts, wie Sie KI für die Organisation von Reiseplänen oder zum Sprachenlernen im Handumdrehen nutzen. Kostenlosen PDF-Report mit fertigen Anleitungen herunterladen
Herzstück der aktuellen Einführung ist Gemini Omni Flash. Es produziert zehnsekündige Videoclips inklusive synchronisiertem Audio. Die Bedienung erfolgt über natürliche Sprache: Nutzer können Umgebungen verändern, Skizzen animieren oder Szenen per Sprachbefehl anpassen. Integriert ist die Technologie in die Gemini App, Google Flow und YouTube Shorts.
Für professionelle Entwickler kündigte Atlas Cloud API-Zugänge an. Die Preise beginnen bei umgerechnet rund 14 Cent pro Sekunde – sowohl für Bild-zu-Video als auch Text-zu-Video.
Lokale KI: Gemma 4 12B für den eigenen Rechner
Anfang Juni 2026 veröffentlichte Google DeepMind Gemma 4 12B unter der Apache-2.0-Lizenz. Mit 11,95 Milliarden Parametern ist das Modell bewusst kompakt gehalten – und läuft auf handelsüblichen Laptops mit mindestens 16 Gigabyte Arbeitsspeicher.
Die Architektur kommt ohne separaten Encoder aus. Stattdessen nutzt sie einen 35-Millionen-Vision-Embedder und eine direkte Audio-Wellenform-Projektion, um multimodale Eingaben über das Sprach-Backbone zu verarbeiten. Die Leistung kann sich sehen lassen: Im MMLU Pro Benchmark erreichte Gemma 4 12B 77,2 Prozent, im GPQA Diamond 78,8 Prozent. Der Kontextfenster umfasst 256.000 Tokens. Verfügbar ist das Modell über Kaggle und Hugging Face.
Abo-Features mit Sicherheitsauflagen
Seit dem 3. Juni 2026 erhalten Abonnenten von Gemini AI Pro und Ultra Zugriff auf eine neue Funktion: Sie können aus Selfies Avatar-Videos erstellen. Voraussetzung ist ein Gesichtsscan zur Verifizierung, die Clips sind auf zehn Sekunden begrenzt. Genutzt werden darf das Tool nur von Personen ab 18 Jahren – und vorerst nicht im Europäischen Wirtschaftsraum, der Schweiz und Großbritannien.
Dass Google neue Funktionen aufgrund regulatorischer Hürden im Europäischen Wirtschaftsraum vorerst zurückhält, verdeutlicht die Komplexität der neuen gesetzlichen Vorgaben. Unternehmen, die KI-Systeme rechtssicher einsetzen wollen, erhalten in diesem kostenlosen E-Book einen präzisen Überblick über alle Fristen und Pflichten der EU-KI-Verordnung. Jetzt den kostenlosen Umsetzungsleitfaden zum EU AI Act sichern
Um Missbrauch vorzubeugen, setzt Google auf SynthID-Wasserzeichen in allen generierten Inhalten. Das Unternehmen betont, die Maßnahmen dienten der Transparenz – vor allem, weil die „intuitive Physik" des Modells zunehmend realistische Sequenzen auf Basis wissenschaftlicher und kultureller Kontexte erzeuge.
NotebookLM und Edge Computing
Der Wechsel zu Gemini Omni betrifft auch Googles Produktivitätstools. Erste Tests von NotebookLM deuten darauf hin, dass Gemini Omni ältere Engines als Standard für Video-Übersichten ablöst. Ein neu entdeckter „Planning Mode" würde Nutzer künftig zwingen, einen von Gemini erstellten Outline zu genehmigen, bevor das finale Video gerendert wird.
Parallel dazu startete am 3. Juni die AI Edge Gallery für macOS. Die Plattform ermöglicht die lokale Ausführung von fünf Google-Modellen, darunter Gemma 4 12B. Mitgeliefert wird AI Edge Eloquent – eine kostenlose Diktier-App für den Mac, die Transkription und Textbearbeitung offline erledigt. Ein weiterer Schritt in Richtung lokaler, agentischer KI-Ausführung.
So schätzen die Börsenprofis Aktien ein!
Für. Immer. Kostenlos.
