Lokale, KI-Spracherkennung

Lokale KI-Spracherkennung: Google und Microsoft starten Offline-Tools

05.06.2026 - 22:32:35 | boerse-global.de

Google und Microsoft präsentieren KI-Tools für lokale Spracherkennung ohne Cloud. Neue Modelle versprechen mehr Datenschutz und Tempo für Wissensarbeiter.

Google und Microsoft: Neue KI-Spracherkennung läuft komplett offline
Lokale - A glowing neural network brain superimposed on a laptop screen showing a voice waveform, with data streams around it. 05.06.2026 - Bild: über boerse-global.de

Die digitale Arbeitswelt erlebt einen grundlegenden Wandel: Google und Microsoft haben in dieser Woche neue KI-Tools vorgestellt, die Sprache direkt auf dem Gerät verarbeiten – ohne Cloud-Anbindung. Der Fokus liegt auf Datenschutz und Geschwindigkeit für Wissensarbeiter.

Google und Microsoft setzen auf lokale Spracherkennung

Am 3. Juni startete Google den AI Edge Gallery für macOS und veröffentlichte zeitgleich die Diktier-App AI Edge Eloquent. Das Besondere: Die Sprach-zu-Text-Verarbeitung läuft komplett lokal auf dem Rechner des Nutzers. Die App entfernt automatisch Füllwörter, korrigiert die Grammatik und passt sich individuellen Schreibstilen an. Nur einen Tag später folgte die Version für iPhone und iPad – ebenfalls offline nutzbar.

Anzeige

Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet: Ein kostenloser Ratgeber zeigt, wie Sie die KI sofort für Ihren Alltag nutzen können – ganz ohne Vorkenntnisse. Kostenlosen PDF-Report mit praktischen KI-Tricks herunterladen

Parallel dazu kündigte Microsoft auf der Build-2026-Konferenz am 4. Juni eine neue API für lokale Spracherkennung in Windows 11 an. Entwickler können damit Sprach-zu-Text-Funktionen integrieren, die direkt auf CPU, GPU oder NPU des Geräts laufen. Eine Internetverbindung ist nicht nötig. Die erste öffentliche Vorschau beschränkt sich zwar auf Englisch, doch Microsoft verspricht weitere Sprachen.

Leistungsstarke Modelle für den lokalen Betrieb

Die neue Technologie wird von effizienten KI-Modellen angetrieben. Google DeepMind präsentierte am 3. Juni Gemma 4 12B "Unified" – ein offenes Modell, das bereits auf Laptops mit 16 Gigabyte Arbeitsspeicher läuft. In der Eloquent-App zeigt es eine Qualitätssteigerung von 60 Prozent. Die Benchmarks sprechen für sich: 77,2 Prozent im MMLU Pro und 78,8 Prozent im GPQA Diamond bei einem Kontextfenster von 256.000 Tokens.

Microsoft zog am 4. Juni nach und stellte die MAI-Modellfamilie vor. MAI-Transcribe-1.5 soll fünfmal schneller sein als frühere Versionen und 43 Sprachen unterstützen. Hinzu kommen MAI-Voice-2 (15 Sprachen) und MAI-Thinking-1, ein Reasoning-Modell, das in internen Blindstudien die Konkurrenz übertroffen haben soll.

Anzeige

Damit der Umstieg auf die neuesten Systeme wie Windows 11 reibungslos klappt, bündelt dieser Gratis-Report alles Wichtige für einen sicheren Wechsel Ihrer Daten und Programme. Hier das Windows 11 Komplettpaket kostenlos sichern

Bis zu 90 Prozent Zeitersparnis für Wissensarbeiter

Die wirtschaftlichen Vorteile sind enorm. Das Berliner Unternehmen Explicare veröffentlichte am 4. Juni Daten, wonach KI-Transkription bis zu 90 Prozent der Zeit einspart, die für manuelle Dokumentation nötig wäre.

Ein Beispiel: Eine Stunde Audiomaterial benötigt manuell vier bis sechs Stunden Arbeit. KI erledigt das in Minuten. Bei einem Stundensatz von 60 Euro und zehn Stunden Audio pro Woche spart ein Profi rund 600 Euro durch Automatisierung. Moderne Dienste rechnen sekundengenau ab – ab 10,5 Cent pro Minute.

Wachsendes Ökosystem für Sprach-KI

Der Markt für Sprach-zu-Text-Anwendungen boomt. Mehrere Entwicklungen zeigen die Dynamik:

  • Risikokapital: Peak XV Partners verhandelt über eine Führungsrolle bei einer zehn Millionen Dollar schweren Investitionsrunde für Ringg AI, ein Startup aus Bangalore.
  • Mobile Apps: Die Whisper AI Voice to Text App von Matlub Yaz?l?m A.?. erreichte über 10.000 Downloads mit hohen Bewertungen. Joyolabs Dijital Hizmetler aktualisierte seine CraftNote AI Note Taker App mit speziellen Bots für Zoom, Teams und Google Meet.
  • Spezialhardware: IFLYTEK bereitet für Mitte Juni die Promotion des AINOTE 2 vor – einem Gerät speziell für Meeting-Transkription.
  • Logistik: Amazon rüstet sein europäisches Logistiknetz mit KI-gesteuerten Proteus-Robotern auf, die auf Sprachbefehle reagieren. Teil eines zehn Milliarden Euro schweren Investitionspakets.

Branchenberichte deuten zudem darauf hin, dass Apple Siri auf der kommenden WWDC 2026 zu einem leistungsfähigeren KI-Agenten ausbauen will. Die aktualisierte Assistentin könnte dann E-Mails, Nachrichten und Dateien durchsuchen sowie Bildschirminhalte erkennen – angetrieben von leistungsstarken Server-Chips.

So schätzen die Börsenprofis Aktien ein!

<b>So schätzen die Börsenprofis Aktien ein!</b>
Seit 2005 liefert der Börsenbrief trading-notes verlässliche Anlage-Empfehlungen – dreimal pro Woche, direkt ins Postfach. 100% kostenlos. 100% Expertenwissen. Trage einfach deine E-Mail Adresse ein und verpasse ab heute keine Top-Chance mehr. Jetzt abonnieren.
Für. Immer. Kostenlos.
de | wissenschaft | 69490130 |