Business Continuity Management mit ServiceNow
Ein praxisorientierter Ansatz anhand des CrowdStrike-Ausfalls vom 19. Juli 2024
Executive Summary
Dieses Whitepaper beschreibt einen ganzheitlichen Ansatz zur Etablierung eines Business Continuity Managements (BCM) mithilfe von ServiceNow-Produkten. Als praxisnahes Beispiel dient der CrowdStrike-Defekt, der am 19. Juli 2024 zu einem weltweiten IT-Ausfall führte. Durch den gezielten Einsatz verschiedener ServiceNow-Komponenten können Organisationen ihre Resilienz stärken, eine schnelle Wiederherstellung nach Störungen sicherstellen und den kontinuierlichen Geschäftsbetrieb gewährleisten.
BCM ist der Prozess zur Identifikation potenzieller Bedrohungen für eine Organisation und zur Entwicklung von Systemen zur Prävention und Wiederherstellung. Ziel ist es, sicherzustellen, dass kritische Geschäftsprozesse auch während und nach einer Krise aufrechterhalten werden.
Zentrale Ziele des BCM
Minimierung von Unterbrechungen
Sicherstellung, dass essenzielle Funktionen ohne wesentliche Störungen weiterlaufen.Reputationsschutz
Aufrechterhaltung des Kundenvertrauens und Schutz des Unternehmensimages.Rechtliche und regulatorische Konformität
Erfüllung gesetzlicher Anforderungen zur Betriebskontinuität.Finanzielle Stabilität
Reduktion finanzieller Schäden durch beschleunigte Wiederaufnahme des Betriebs.Mitarbeitersicherheit
Schutz des Personals durch klare Notfallprozesse und -kommunikation.
Einführung
Ein robustes BCM ist essenziell, um in Krisensituationen handlungsfähig zu bleiben. Der Vorfall rund um den CrowdStrike-Fehler verdeutlicht die Abhängigkeit moderner Organisationen von funktionierenden IT-Systemen. Dieses Dokument zeigt auf, wie ServiceNow-Produkte dabei unterstützen können, ein widerstandsfähiges BCM-Framework zu etablieren.
Der CrowdStrike-Vorfall – Ein Überblick
Am 19. Juli 2024 führte ein fehlerhaftes Software-Update von CrowdStrike zu weltweiten IT-Ausfällen, insbesondere bei Microsoft-Windows-Systemen. Betroffen waren unter anderem Fluggesellschaften, Gesundheitseinrichtungen und Banken. Die Folgen waren massive Betriebsunterbrechungen und wirtschaftliche Schäden.
(Quellen: CNBC, BBC, CNN)
ServiceNow-Produkte für ein effektives BCM
Folgende ServiceNow-Komponenten sind entscheidend für den Aufbau und Betrieb eines strukturierten Business Continuity Managements:
1. Business Continuity Management (BCM)
- Rolle: Verwaltung von Notfall- und Wiederanlaufplänen.
- Anwendung: Entwicklung, Pflege und kontinuierliche Aktualisierung von Notfallkonzepten. Die Pläne sind zentral verfügbar und ermöglichen bei Störungen eine rasche Aktivierung.
Download Factsheet
2. Incident Management
- Rolle: Verwaltung des gesamten Lebenszyklus von Incidents zur schnellen Wiederherstellung des Normalbetriebs.
- Anwendung: Einsatz des Incident Managements zur Erfassung, Kategorisierung und Priorisierung von Vorfällen im Zusammenhang mit dem CrowdStrike-Defekt. Koordinierung der Reaktionsteams zur effizienten Problemlösung und Reduzierung von Ausfallzeiten.
Major Incident Management
- Funktion: Spezialisierte Abläufe zur Bewältigung hochkritischer Störungen.
- Anwendung: Nutzung bei Vorfällen mit erheblichem Geschäftseinfluss. Aufbau von dedizierten Reaktionsteams, Durchführung priorisierter Kommunikation und Implementierung beschleunigter Eskalationsprozesse zur raschen Wiederherstellung der Services.
Incident Communications Management
- Funktion: Strukturierte Kommunikation bei geschäftskritischen Vorfällen.
- Anwendung: Erfassung aller betroffenen Nutzer, zentralisierte Kommunikationssteuerung und Sicherstellung einer schnellen Abstimmung zur Problemlösung.
On-Call Scheduling
- Funktion: Alarmierung der richtigen Teams zur richtigen Zeit.
- Anwendung: Einrichtung von Bereitschaftsplänen, Rotationen und Eskalationsrichtlinien zur Sicherstellung einer lückenlosen Support-Abdeckung – insbesondere bei Major Incidents.
(Quelle: ServiceNow)
3. Problem Management
- Rolle: Ermittlung der Ursachen von Incidents und Umsetzung präventiver Maßnahmen.
- Anwendung: Durchführung einer Root Cause Analysis des CrowdStrike-Vorfalls. Entwicklung und Umsetzung langfristiger Maßnahmen zur Vermeidung vergleichbarer Störungen, z. B. durch strengere Testprotokolle bei Software-Updates.
4. Change Management
- Rolle: Steuerung des Change-Lebenszyklus zur Minimierung betrieblicher Risiken.
- Anwendung: Kontrollierte Einführung der Fehlerbehebung für den CrowdStrike-Defekt. Sicherstellung, dass alle Änderungen vor der Implementierung umfassend getestet und genehmigt werden, um weitere Unterbrechungen zu vermeiden.
5. Configuration Management Database (CMDB)
- Rolle: Verwaltung einer vollständigen, aktuellen Übersicht aller IT-Assets und ihrer Abhängigkeiten.
- Anwendung: Nutzung der CMDB gemäß dem Common Service Data Model (CSDM) zur Identifikation aller durch den CrowdStrike-Vorfall betroffenen Komponenten. Sicherstellung einer vollständigen Wiederherstellung durch genaue Datenpflege.
CSDM – Common Service Data Model
Das CSDM liefert standardisierte Begriffe und Strukturen zur konsistenten Abbildung von Servicedaten. Es unterstützt Organisationen dabei, ihre Betriebsabläufe effizienter zu gestalten:
- Erhöhte Transparenz: Klare Sicht auf Serviceabhängigkeiten und -beziehungen.
- Bessere Entscheidungen: Nutzung verlässlicher Datenbasis in kritischen Situationen.
- Optimierter Betrieb: Strukturierte Datenmodelle verbessern IT-Prozesse und die Servicebereitstellung.
Durch die Integration dieser ServiceNow-Produkte können Organisationen ein robustes BCM-Framework aufbauen, das sie für verschiedenste Störungsszenarien vorbereitet und ihre Widerstandsfähigkeit nachhaltig stärkt.
Beispielhafte Störungen und zugeordnete ServiceNow-Produktrollen
Störung 1: Ausfall von Gesundheitssystemen
Szenario
Ein Gesundheitsdienstleister ist vom CrowdStrike-Defekt betroffen. Die Systeme fallen aus, was zu unterbrochener Patientenversorgung und stillstehenden Betriebsabläufen führt. Elektronische Gesundheitsakten (EHRs) sind nicht mehr zugänglich, was zu Behandlungsverzögerungen und erheblicher Belastung für Patienten und Personal führt.
Rolle und Anwendung von ServiceNow
Business Continuity Management (BCM)
Aktivierung:
Sofortige Aktivierung vordefinierter Notfallpläne für den Gesundheitssektor über ServiceNow BCM. Diese Pläne beinhalten u. a. Prozesse zur manuellen Dokumentation und alternative Kommunikationswege.Krisenkommunikation mit Everbridge-Integration:
ServiceNow BCM ist mit dem Everbridge Notifications Service integriert – einem marktführenden System für Krisenkommunikation. Über 25+ Kanäle wie E-Mail, SMS und Telefon können Benachrichtigungen schnell und gezielt an alle relevanten Personen gesendet werden.Koordination:
Sicherstellung, dass alle kritischen medizinischen Prozesse über Backup-Verfahren verfügen. BCM unterstützt die abteilungsübergreifende Koordination dieser Maßnahmen, um einen geordneten Notbetrieb zu ermöglichen.
ServiceNow-Anwendungen im Gesundheitswesen – Detaillierte Betrachtung
Incident Management
Erfassung und Priorisierung:
Nutzung von ServiceNow Incident Management zur sofortigen Erfassung gemeldeter Vorfälle. Priorisierung basierend auf Auswirkungen auf die Patientenversorgung – kritische, lebensbedrohliche Situationen werden zuerst adressiert.Nachverfolgung der Lösung:
Zuweisung der Incidents an zuständige IT-Teams mit laufender Statusüberwachung. Dashboards von ServiceNow ermöglichen eine Echtzeit-Transparenz über den Fortschritt und unterstützen das Management bei der effizienten Ressourcenverteilung.
Major Incident Management
Reaktion mit hoher Priorität:
Einrichtung eines dedizierten Krisenteams zur Bewältigung schwerwiegender Störungen im Gesundheitsbereich. Durchführung sofortiger Ad-hoc-Meetings auf Leitungsebene zur Strategiefindung und schnellen Einleitung von Wiederherstellungsmaßnahmen.Eskalationsverfahren:
Implementierung beschleunigter Eskalationsprozesse zur raschen Information und Einbindung des Top-Managements – für zeitkritische Entscheidungen unter maximaler Transparenz.
Problem Management
Ursachenanalyse:
Nutzung von ServiceNow Problem Management zur Durchführung einer detaillierten Root Cause Analysis hinsichtlich der Auswirkungen des CrowdStrike-Vorfalls auf medizinische Systeme. Dokumentation der Ergebnisse und Ableitung gezielter Maßnahmen zur nachhaltigen Risikominderung.Präventive Maßnahmen:
Einführung strengerer Protokolle für Software-Updates und Testumgebungen zur Vermeidung zukünftiger Zwischenfälle.
Change Management
Kontrollierte Umsetzung:
Planung und Durchführung einer kontrollierten Bereitstellung des Fixes für den CrowdStrike-Defekt. Einsatz von ServiceNow Change Management zur Terminierung in Betriebszeiten mit geringer Auslastung, um Auswirkungen auf die Patientenversorgung zu minimieren.Test und Freigabe:
Sicherstellung, dass alle Änderungen vor Rollout standardisiert getestet und genehmigt sind. Verwendung definierter Freigabeprozesse zur Absicherung der Betriebsstabilität.
CMDB mit CSDM
Asset-Tracking:
Einsatz der ServiceNow CMDB in Kombination mit dem Common Service Data Model (CSDM) zur umfassenden Erfassung aller betroffenen IT-Assets und deren Beziehungen im Gesundheitswesen. Diese präzise Dokumentation gewährleistet eine vollständige und strukturierte Wiederherstellung.Abhängigkeitsmanagement:
Identifikation und Abbildung systemübergreifender Abhängigkeiten, um sicherzustellen, dass Systeme in der richtigen Reihenfolge wiederhergestellt werden – zur Vermeidung weiterer Folgestörungen.
Störung 2: Ausfall von Banksystemen
Szenario
Die IT-Systeme einer Großbank fallen infolge des CrowdStrike-Defekts aus. Transaktionen werden gestoppt, Kundenzugriffe auf Online-Services blockiert und es entsteht weitreichende Verunsicherung. Der Ausfall betrifft Geldautomaten, E-Banking sowie interne Systeme – mit gravierenden finanziellen Verlusten und erheblichem Reputationsschaden.
Rolle und Anwendung von ServiceNow
Business Continuity Management (BCM)
Aktivierung:
Aktivierung vorab definierter Notfallpläne im Bankensektor über ServiceNow BCM. Diese Pläne umfassen u. a. die Umschaltung auf Backup-Rechenzentren, alternative Transaktionsverfahren und strukturierte Kundenkommunikation.Koordination:
Sicherstellung der Informierung und Koordination von Schlüsselpersonen zur Aufrechterhaltung geschäftskritischer Abläufe – z. B. Zahlungsverkehr und Kundenbetreuung.
Incident Management
Erfassung und Priorisierung:
Erfassung eingehender Störungen über ServiceNow Incident Management. Priorisierung jener Vorfälle, die hochvolumige Transaktionen oder große Kundengruppen betreffen, um kritische Services schnellstmöglich wiederherzustellen.Kommunikation:
Einsatz der Kommunikationsfunktionen von ServiceNow (E-Mail, SMS, Push-Benachrichtigungen), um alle internen und externen Stakeholder laufend über den Status und die voraussichtlichen Wiederherstellungszeiten zu informieren – zur aktiven Steuerung der Kundenerwartung.
Major Incident Management
Kritisches Reaktionsteam:
Bildung eines dedizierten Major Incident Response Teams zur Bewältigung des schwerwiegenden Systemausfalls. Durchführung sofortiger Analyse- und Koordinationssitzungen zur beschleunigten Lösungsfindung.Erweiterte Kommunikation:
Nutzung von Major Incident Management zur Steuerung der Eskalations- und Kommunikationsprozesse auf Management-Ebene. Sicherstellung, dass alle Schlüsselpersonen – einschließlich Geschäftsleitung – laufend informiert werden.
Problem Management
Ursachenanalyse:
Durchführung einer fundierten Root Cause Analysis mittels ServiceNow Problem Management zur Aufdeckung tieferliegender Ursachen im Zusammenhang mit dem CrowdStrike-Vorfall.Dokumentation und Berichterstattung:
Lückenlose Dokumentation des Analyse- und Lösungsprozesses. Erstellung strukturierter Reports zur Information von Stakeholdern und zur Erfüllung regulatorischer Berichtspflichten.
Change Management im Bankensektor
Kontrollierte Einführung:
Einsatz von ServiceNow Change Management zur schrittweisen, kontrollierten Einführung notwendiger Korrekturen. Änderungen werden gezielt außerhalb der Spitzenzeiten geplant, um operative Auswirkungen zu minimieren.Risikobewertung:
Durchführung detaillierter Risikoanalysen für jede geplante Änderung. Ziel ist es, sämtliche potenzielle Auswirkungen frühzeitig zu erkennen und vor der Umsetzung geeignete Gegenmaßnahmen zu definieren.
CMDB mit CSDM im Bankenumfeld
Asset- und Abhängigkeitsmodellierung:
Nutzung der ServiceNow CMDB in Verbindung mit dem Common Service Data Model (CSDM) zur detaillierten Erfassung aller IT-Assets im Bankensektor sowie ihrer systemischen Abhängigkeiten. Dadurch wird eine vollständige Identifikation aller vom Defekt betroffenen Komponenten ermöglicht.Auswirkungsanalyse:
Durchführung strukturierter Impact Analysen, um zu verstehen, wie sich der Ausfall eines Systems auf andere auswirkt. Diese Analysen bilden die Grundlage für eine effektive Wiederherstellungsstrategie, die alle vernetzten Systeme in der richtigen Reihenfolge berücksichtigt.
Fazit
Der CrowdStrike-Vorfall vom 19. Juli 2024 verdeutlicht die kritische Bedeutung eines effektiven Business Continuity Management Frameworks. Durch den gezielten Einsatz von ServiceNow-Produkten können Organisationen eine widerstandsfähige BCM-Strategie entwickeln, die schnelle Reaktionen, strukturierte Wiederherstellungen und langfristige Resilienz sicherstellt.
Die umfassende ServiceNow-Suite – bestehend aus Business Continuity Management, Incident Management, Problem Management, Change Management und der Configuration Management Database (CMDB) – ermöglicht einen integrierten und proaktiven Umgang mit IT-Störungen.
Die Implementierung dieser Lösungen adressiert nicht nur akute operative Herausforderungen, sondern stärkt auch die organisatorische Bereitschaft nachhaltig. Damit wird sichergestellt, dass Unternehmen auch bei unerwarteten Ereignissen handlungsfähig bleiben und ihre Geschäftsprozesse fortführen können.
Die Quelle der Bilder: Servicenow