
Autorin: Sarah Kreuzmann
Product Owner Rimscout – auf LinkedIn vernetzen
Am 30. Juli 2024 erlebte die Cloud-Welt signifikante Störungen und Verzögerungen bei der Nutzung von Azure und Microsoft 365-Diensten. Viele Unternehmen weltweit waren von den Auswirkungen betroffen. Für Administratoren ist während eines solchen Ausfalls eine Frage entscheidend: Welche Dienste sind betroffen und wie wirkt sich das auf meine Anwender und den Betrieb aus?
In diesem Blogartikel erfahren Sie, wie Sie mithilfe von Rimscout Störungen erkennen und die Auswirkungen auf Anwender effizient beurteilen können.
Azure-Störung am 30. Juli: ein Überblick
Wie viele Störungen war auch der Azure-Ausfall vom 30. Juli die Folge eines Angriffs. In diesem Fall handelte es sich um einen massiven DDoS-Angriff auf zentrale Azure-Dienste wie Azure Front Door. Was normalerweise kein Problem für das Abwehrsystem darstellen sollte, führte jedoch durch eine fehlerhafte Netzwerkkonfiguration zu einer rasanten Überlastung des Netzwerks. Die Folge war eine Reihe an Störungen, die Anwender durch langsame Performance oder Nichtverfügbarkeit beim Zugriff auf Dienste bemerkten. Direkt betroffen waren unter anderem Azure App Services, Application Insights sowie das Azure-Portal selbst.
Als besonders problematisch erwies sich, dass auch ein Teil der Microsoft 365-Dienste betroffen war. Microsoft 365, nutzt Azure-Dienste wie Microsoft Entra ID (früher Active Directory) für die Verwaltung von Benutzeridentitäten und Authentifizierungen. Dadurch führte die Störung in Azure auch bei Microsoft 365 zu Problemen, die sich auf Dienste wie das Admin Center, Intune, Entra ID, Power BI und Power Platform auswirkten.
Bereits kurz nach Beginn der Störung, gegen 14:21 MESZ, informierte Microsoft die Administratoren über Probleme mit dem Zugriff auf Microsoft 365-Dienste. Allerdings war auch noch lange später nicht klar, welche Dienste und Nutzer denn nun von den Störungen im Detail betroffen waren. Zu allem Überfluss kursierten während des Ausfalls Falschmeldungen, dass beispielsweise auch Microsoft Teams betroffen sei. Nur mit diesen Informationen ist es für Administratoren nicht einfach herauszufinden, ob die Anwender im eigenen Unternehmen auch zu den Betroffenen zählen.
Client Monitoring: Ihr Werkzeug zur schnellen Ausfallbewertung
Wer im Falle solcher Störungen angemessen und schnell reagieren will, für den ist ein effektives Monitoring unerlässlich. Nur so kann die interne IT durch Überwachung der eigenen Infrastruktur und Anwender schnell feststellen, ob ungewöhnliche Verzögerungen oder Ausfälle vorliegen.
Bei Net at Work setzen wir dazu im Wesentlichen zwei Tools ein: PRTG und Rimscout. Beide haben unterschiedliche Anwendungsbereiche:
Natürlich wurden auch bei uns während der Störung Nachrichten in der internen Chatgruppe über den globalen Azure-Ausfall geteilt. Durch die gute Datenlage konnte unsere interne IT die Tragweite schnell einschätzen: Ihnen war die Störung nicht nur bekannt, sondern sie konnten bisher keine Auswirkungen auf unsere Mitarbeitenden und die wichtigen Dienste, wie Microsoft Teams feststellen.
Rimscout im Einsatz: Die Störung aus Anwendersicht
Doch welche Informationen lieferte das Monitoring während der Störung? Wie konnten wir uns sicher sein, dass unsere Anwender nicht betroffen waren?
Mit PRTG kann man zunächst feststellen, ob die eigenen Server und gehosteten Anwendungen in normalen Parametern laufen. Die geprüften Gegenstellen waren aus dem Serverraum nach wie vor „normal“ zu erreichen. Wenn es um Anwender geht, reicht dieser Blick aus dem Serverraum jedoch nicht aus. Aus diesem Grund haben wir bei Net at Work Rimscout Clients auf den Geräten all unserer Mitarbeitenden installiert. Dadurch können wir neben der Netzwerkperformance im Allgemeinen auch die Verbindungsqualität zu verschiedenen Diensten sowohl im Büro als auch im Homeoffice beurteilen. So werden bei uns vor allem Microsoft Teams, Outlook und Dynamics 365, dank entsprechend konfigurierten Tests, mit Rimscout überwacht.

Als gegen 14:20 Uhr die erste Meldung zu der Störung an Administratoren herausging, konnten wir durch die Daten im Rimscout Portal schnell beurteilen, ob von den Rimscout Clients unserer Anwender Probleme gemeldet wurden. Ein schneller Blick auf die Health-Übersicht zeigte, dass die Verbindungsqualität für die Mitarbeitenden nach wie vor im grünen Bereich lag. Dies blieb auch für den gesamten Zeitraum der Störung (ca. 13:45 – 16:30 Uhr) unverändert. Folglich meldete der Großteil der Clients, dass keine Verschlechterung der Performance verzeichnet wurde und die Microsoft-Dienste durchgehend erreichbar waren.

Neben einer ersten Übersicht erlaubt Rimscout auch einen detaillierten Blick auf einzelne Standorte. So zeigte die Standortübersicht für das Net at Work Office, dass lediglich vereinzelte Clients leichte Performance-Probleme mit Microsoft Teams und Dynamics meldeten. Wenn man jedoch, wie im Screenshot oben zu sehen, die Netzwerkumgebungsdaten nach diesen Problemen filtert, stellt man fest, dass die betroffenen Clients über VPN verbunden waren. Diese Probleme standen also nicht im Zusammenhang mit der Störung, sondern hatten ihre lokale Ursache in der VPN-Verbindung.
Rückblick auf den Microsoft 365-Ausfall im Januar 2023
Nicht bei jeder Störung der vergangenen Jahre blieben Dienste wie Microsoft Teams von den Auswirkungen verschont. So betraf die globale IT-Störung am 25. Januar 2023 die meisten Microsoft 365-Dienste. So waren Microsoft Teams sowie Outlook zwischenzeitlich gar nicht mehr erreichbar.
Als die ersten Mitarbeitenden von Verbindungsproblemen berichteten, zeigte Rimscout bereits Probleme mit der Verbindungsqualität. Die Daten legten schnell die Vermutung nahe, dass die einzelnen Probleme eine gemeinsame globale Ursache hatten, was sich letztendlich auch bewahrheitete. Ein Blick auf die damals gesammelten Latenzdaten zeigt die schrittweise Verschlechterung der Performance zur Microsoft Teams-Gegenstelle, bis der Dienst schließlich nicht mehr erreichbar war. Im Gegensatz dazu blieben die Latenzzeiten zu Microsoft Teams während der Störung im Juli „normal“.

Die durchschnittliche Latenzzeit zu Microsoft Teams am Standort Net at Work Office während des Microsoft Ausfalls am 25. Januar.

Die durchschnittliche Latenzzeit zu Microsoft Teams am Standort NaW Office während der Azure Störung am 30. Juli.
Azure Monitoring mit Rimscout
Da Azure-Dienste bei uns für die meisten Mitarbeitenden nicht zu den häufig genutzten Ressourcen zählen, werden sie bei Net at Work über Rimscout nicht überwacht. Doch das lässt sich schnell in Rimscout anpassen:

Durch das Anlegen entsprechender Tests in der Rimscout Testkonfiguration kann die Performance und Erreichbarkeit der verschiedensten Azure-Dienste überwacht werden. Um beispielsweise das Azure-Portal zu monitoren, kann man für die Gegenstelle https://portal.azure.com einen HTTP-Test anlegen. Lässt man diesen Test von den Rimscout Clients im eigenen Tenant ausführen, erhält man schnell einen Überblick darüber, wie gut die Verbindung zum Azure-Portal an allen Standorten der Mitarbeitenden ist.
Viel wichtiger ist jedoch, dass durch diese Tests festgestellt werden kann, ob sich die Leistung verschlechtert und wenn ja, ob es sich um einzelne Nutzer, einen Standort oder vielleicht um eine globale Störung handelt. Wenn Benutzer Probleme mit dem Dienst melden, kann schnell festgestellt werden, ob die Ursache im Netzwerk liegt und wenn ja, ob es sich um eine lokale Ursache handelt, wie z.B. eine schlechte Verbindung zum Provider.
Neben dem Azure-Portal können auch die anderen Azure-Dienste überwacht werden. Hier einige Beispiele mit den dazugehörigen Gegenstellen:
- Azure Storage: Überwachung der Verfügbarkeit und Performance von Speicherressourcen unter https://.blob.core.windows.net.
- Azure SQL Database: Überwachung der Datenbankverbindungen und -performance unter https://.database.windows.net.
- Azure Virtual Machines: Überwachung der Verfügbarkeit und Performance von virtuellen Maschinen unter https://.wvd.microsoft.com für Azure Virtual Desktop.
Diese umfassende Überwachung mit Rimscout stellt sicher, dass schnell auf Probleme reagiert werden kann und so die Auswirkungen auf die Endanwender minimiert werden.
Fazit
Die Überwachung von Diensten ist ein entscheidender Faktor, um globale IT-Störungen zu erkennen und schnell auf Ausfälle reagieren zu können. Monitoring-Tools wie Rimscout bieten eine effiziente Möglichkeit, die Performance und Erreichbarkeit aus Sicht der Nutzer zu überwachen und so die Auswirkungen auf die eigenen Nutzer schnell einschätzen zu können.
Auch wenn gerade kein globaler Ausfall vorliegt, kann Rimscout Ihnen einen Einblick in Ihr Netzwerk und mögliche Probleme Ihrer Nutzer geben. Schließlich liegt die Antwort auf ein Performance-Problem oft in der lokalen Konnektivität der Anwender und nicht in einem globalen Ausfall von Microsoft oder anderen Cloud-Anbietern.