Microsoft Mirage: Video-KI 10,5× schneller und 55× sparsamer
14.06.2026 - 17:07:04 | boerse-global.de
Gleich zwei neue KI-Modelle aus China und den USA setzen neue Maßstäbe in der Videogenerierung und Bildanalyse.
Forscher von Microsoft Research und der Tsinghua-Universität haben diese Woche bahnbrechende KI-Modelle vorgestellt. Die Entwicklungen vom 13. und 14. Juni zeigen einen klaren Trend: weg von rechenintensiven Giganten, hin zu spezialisierten, effizienten Systemen mit räumlichem Gedächtnis und höherer Präzision.
Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet: Ein kostenloser Ratgeber zeigt, wie Sie die KI sofort für Ihren Alltag nutzen können – ganz ohne Vorkenntnisse. Kostenlosen PDF-Report mit fertigen Anleitungen und Beispiel-Prompts jetzt gratis herunterladen
Microsoft Mirage: Schneller, schlanker, konsistenter
Am 14. Juni 2026 veröffentlichte Microsoft Research in Zusammenarbeit mit mehreren Universitäten das neue Video-Weltmodell "Mirage". Es löst ein Kernproblem der KI-Videogenerierung: die räumliche Stabilität bei langen Kamerafahrten.
Während herkömmliche Verfahren auf pixelbasierte 3D-Punktwolken setzen, speichert Mirage Bildmerkmale direkt im räumlichen Gedächtnis eines latenten Raums. Die Ergebnisse sind beeindruckend: Der Algorithmus erzeugt Videos bis zu 10,5-mal schneller als vergleichbare Systeme und benötigt dabei bis zu 55-mal weniger Speicher.
Eine clevere Filtermechanik entfernt bewegte Objekte aus dem Gedächtnis, um sich auf die strukturelle Konsistenz zu konzentrieren. In Vergleichstests übertraf Mirage das Konkurrenzmodell Spatia auf dem WorldScore-Benchmark deutlich.
Tsinghua: "Count Anything" zählt präziser als je zuvor
Einen Tag zuvor, am 13. Juni, präsentierten Forscher der Tsinghua-Universität "Count Anything". Das Modell zählt und beschriftet Objekte in verschiedensten Bildtypen – gesteuert durch einfache Textanweisungen.
Die Architektur basiert auf Metas SAM3 und kombiniert regionsbasierte mit pixelbasierten Zählmethoden. Trainiert wurde das System auf dem CLOC-Datensatz mit 220.000 Bildern und 15 Millionen markierten Objekten aus 619 Kategorien.
Die Fehlerquote? Etwa neun Objekte pro Kategorie. Das klingt viel – ist aber mehr als 50 Prozent besser als der nächstbeste Wettbewerber.
Diese einfachen ChatGPT-Befehle kennen die wenigsten – dabei erleichtern sie den Alltag enorm. Ein neuer Gratis-Report enthüllt die praktischsten Tricks für Einsteiger und hilft Ihnen, moderne KI-Tools ohne Vorkenntnisse effektiv anzuwenden. Hier den kostenlosen Ratgeber sichern und sofort starten
Neue Multimodal-Modelle für den eigenen Laptop
Die Spezialmodelle sind Teil eines größeren Trends: Hochleistungs-KI, die auf lokaler Hardware läuft. Erst Anfang Juni brachte Google DeepMind Gemma 4 12B heraus – ein offenes multimodales Modell unter Apache-2.0-Lizenz. Es läuft auf handelsüblichen Laptops mit 16 GB RAM und verarbeitet Texte, Bilder und Audio ohne separate Encoder.
Ebenfalls auf der CVPR 2026 vorgestellt: Multinex. Das Modell des University of Manchester verbessert Aufnahmen bei schwachem Licht. In Versionen von 0,7K bis 45K Parametern übertrifft es größere Modelle wie PairLIE und ZeroDCE bei der Detailwiederherstellung aus dunklem Filmmaterial – bei deutlich geringerem Rechenaufwand.
Infrastruktur: KI-Kosten fallen drastisch
Branchenanalysten rechnen damit, dass die Kosten für KI-Inferenz bis 2030 um über 90 Prozent sinken werden. Grund dafür sind neue Hardware-Architekturen. Anfang Juni stellte NVIDIA den RTX Spark Superchip vor: eine Kombination aus 20-Core-Grace-CPU und Blackwell-GPU mit 128 GB einheitlichem kohärentem Speicher.
Die Rechenleistung: bis zu einem Petaflop. Ausliefern will NVIDIA den Chip ab Herbst 2026 an Hersteller wie Dell, HP und Lenovo.
Quantenphysik: Bildgebung jenseits der Beugungsgrenze
Nicht nur in der KI gibt es Fortschritte. Ende Mai meldeten Forscher des japanischen Institute for Molecular Science einen Durchbruch in der Bildgebung. Mit einem einzelnen ultrakalten Rubidium-Atom in einer optischen Pinzette als Rastersonde bildeten sie Lichtintensität und Polarisation mit einer Auflösung unter 100 Nanometern ab.
Die Methode umgeht die Beugungsgrenze herkömmlicher Mikroskopie. Ihr Ziel: die Charakterisierung von Laserfeldern für Neutralatom-Quantencomputer.
