Microsoft legt Ursachen für Azure-Ausfall offen

12.05.2026 - 03:56:06 | boerse-global.de

Ein Quorum-Verlust in der Steuerungsebene legte Azure-Dienste lahm. Microsoft setzt nun verstärkt auf KI zur Stabilisierung.

Microsoft legt Ursachen für Azure-Ausfall offen - Bild: über boerse-global.de

Der Cloud-Riese kämpft mit den Grenzen seiner eigenen Technologie. Ein schwerer Ausfall in der Region „East US" Ende April offenbarte ein grundlegendes Problem in der Steuerungsebene von Microsoft Azure. Nun will der Konzern nachbessern.

Der Vorfall begann am 24. April gegen 11:30 Uhr UTC. Kunden in der US-Ostküstenregion konnten plötzlich keine Cloud-Ressourcen mehr bereitstellen, skalieren oder aktualisieren. Besonders betroffen waren zentrale Dienste wie Azure Kubernetes Service (AKS), Azure App Service, Azure Databricks und Virtual Machine Scale Sets. Bestehende Arbeitslasten blieben für die meisten Nutzer zwar stabil, doch wer neue Ressourcen verwalten oder einsetzen wollte, erlebte stundenlange Fehlermeldungen und Zeitüberschreitungen.

Der Ausfall zentraler Cloud-Dienste zeigt, wie verwundbar die digitale Infrastruktur moderner Unternehmen ist. Ein kostenloses E-Book liefert fundierte Informationen zu aktuellen Cyberbedrohungen und zeigt, wie Sie Ihre Firma auch bei neuen technologischen Risiken proaktiv absichern. IT-Sicherheits-Trends und Schutzmaßnahmen jetzt kostenlos entdecken

Die Kettenreaktion in der Steuerungsebene

Die Ursache lag tiefer, als es auf den ersten Blick schien. Microsofts Untersuchungen identifizierten ein Problem in einer einzigen physischen Verfüigkeitszone, die intern als AZ-01 bezeichnet wird. Als die automatisierten Systeme versuchten, die Last auf andere Zonen zu verlagern, führte der erhöhte Druck zu ähnlichen Symptomen in den Zonen AZ-02 und AZ-03. Eine fatale Kettenreaktion setzte ein.

Entscheidend für die lange Ausfalldauer war ein vorübergehender Verlust des Quorums im internen PubSub-Dienst. Dieser Dienst ist für die Replikation und die Steuerungsebene über alle Verfügbarkeitszonen hinweg unverzichtbar. Normalerweise benötigt das System mindestens zwei gleichzeitig funktionierende Instanzen. Während der Behebungsphase gab es jedoch zwei Zeiträume, in denen diese Voraussetzung nicht erfüllt war. Der Dienst konnte sich nicht selbst heilen. Erst spät am Abend des 24. April war die volle Funktionsfähigkeit wiederhergestellt.

Eine Geschichte wiederkehrender Störungen

Der jüngste Ausfall reiht sich in eine Serie von Vorfällen ein, die die Belastbarkeit der Azure-Plattform immer wieder auf die Probe stellen. Im Oktober 2025 legte eine versehentliche Konfigurationsänderung im globalen Edge-Netzwerk von Azure die Dienste für Nutzer in den USA, Europa und Asien für über acht Stunden lahm. Betroffen waren damals Microsoft 365 und Microsoft Entra.

Noch dramatischer war der Juli 2024. Gleich zwei Großereignisse erschütterten die Cloud-Welt. Am 19. Juli führte ein fehlerhaftes Update der Cybersicherheitsfirma CrowdStrike zu einem globalen Desaster, das Millionen von Windows-basierten virtuellen Maschinen auf Azure zum Absturz brachte. Nur elf Tage später, am 30. Juli, legte ein DDoS-Angriff die Plattform für fast zehn Stunden lahm. Microsoft räumte später ein, dass ein Fehler in der Implementierung der eigenen Schutzmechanismen die Wirkung des Angriffs versehentlich verstärkt hatte. Die Branche blickt daher mit besonderer Spannung auf die geplanten technischen Briefings am 14. und 15. Mai.

Künstliche Intelligenz als Rettungsanker

Microsoft hat als Konsequenz aus diesen Vorfällen die Entwicklung fortschrittlicher Überwachungs- und Abwehrtechnologien beschleunigt. Im Zentrum der Strategie steht „Project Flash", eine Initiative, die Kunden eine präzisere Überwachung der Verfügbarkeit ihrer virtuellen Maschinen ermöglichen soll.

Gleichzeitig setzt der Konzern verstärkt auf Künstliche Intelligenz. Interne Plattformen wie Gandalf überwachen sichere Bereitstellungspraktiken. Ein weiteres System namens Narya sagt Host-Ausfälle vorher und mildert sie ab. Die internen Leistungsdaten zeigen: Narya hat die Unterbrechungen virtueller Maschinen im Durchschnitt um 26 Prozent reduziert – durch eine automatisierte Rückkopplungsschleife, die Abwehrstrategien in Echtzeit anpasst.

Während Microsoft auf KI zur Systemstabilität setzt, müssen Unternehmen die neuen rechtlichen Rahmenbedingungen für diese Technologie im Blick behalten. Dieser kostenlose Umsetzungsleitfaden zum EU AI Act hilft Ihrer IT-Abteilung, alle Fristen, Pflichten und Risikoklassen der neuen KI-Verordnung sicher zu verstehen. Kostenlosen Leitfaden zur EU-KI-Verordnung herunterladen

Was Kunden jetzt beachten sollten

Microsoft betreibt weltweit mehr als 60 Regionen und 300 Rechenzentren, verbunden durch ein Glasfasernetz von über 280.000 Kilometern. Dennoch zeigt der jüngste Vorfall: Auch die robustesten Cloud-Plattformen sind anfällig für regionale Ausfälle der Steuerungsebene.

Der Konzern empfiehlt Unternehmen daher weiterhin den Einsatz von Multi-Region-Architekturen für kritische Arbeitslasten. Mit dem Azure Chaos Studio können Entwickler gezielt Fehler simulieren – etwa Netzwerklatenz oder Speicherausfälle – um zu testen, wie ihre Anwendungen auf reale Störungen reagieren.

Bis Mitte 2026 hat Microsoft mehrere Infrastruktur-Upgrades angekündigt, darunter aktualisierte Validierungsprozesse für das Domain-Lebenszyklus-Management und eine erweiterte WAN-Kapazität. Die angekündigten technischen Briefings sollen nun Klarheit darüber schaffen, wie der Konzern ähnliche Quorum-bedingte Ausfälle in Zukunft verhindern will. Für viele Unternehmen dürfte dies die entscheidende Frage sein, bevor sie ihre kritischsten Systeme noch tiefer in die Cloud verlagern.

de | wissenschaft | 69308956 |