Expertenbeitrag

 Stefan Marx

Stefan Marx

Director Product Management, Datadog

Systemstabilität Incident Management: Gemeinsam stark!

Autor / Redakteur: Stefan Marx / Sebastian Human

Ausfälle können für digitale Unternehmen verheerend sein. Wenn eine Anwendung nicht funktioniert oder IoT-Geräte nicht erreichbar sind, verlieren Unternehmen jede Minute Umsatz. Und in der modernen Welt der Hochgeschwindigkeits-Anwendungsentwicklung sind Ausfälle eine Frage des Wann, nicht des Ob.

Firmen zum Thema

Ausfallzeiten kosten Unternehmen wertvolle Ressourcen, ein durchdachtes Incident Management kann hier eingreifen.
Ausfallzeiten kosten Unternehmen wertvolle Ressourcen, ein durchdachtes Incident Management kann hier eingreifen.
(Bild: gemeinfrei / Pixabay )

Viele Unternehmen investieren jedoch nicht die nötige Zeit und Ressourcen, um sich auf diese Unvermeidlichkeit vorzubereiten, was zu panischer, unorganisierter und ineffektiver Reaktion auf Störungen führt. Die Etablierung von Best Practices und die Investition in die notwendigen Tools stellt nicht nur sicher, dass jeder Vorfall so schnell wie möglich behoben wird, sondern schafft auch die Möglichkeit, aus Vorfällen zu lernen und in Zukunft widerstandsfähiger zu sein.

Wie genau sieht also ein effizienter und effektiver Incident Management-Prozess aus? Welche Schritte müssen unternommen werden, wie sollten Teams zusammenarbeiten und welche Daten sollten zum Einsatz kommen?

Incident Management ist entscheidend, wenn auch oft umständlich

Entwicklerteams verlassen sich auf viele Tools und Datensätze, um auf Vorfälle – also die Incidents – zu reagieren, von Metriken über Protokolle bis hin zu Anwendungs-Traces, sowie Chat-, Messaging- und Video-Tools für die Kommunikation. Aber ein strukturierter Incident-Management-Prozess ist der Rahmen, der alles zusammenhält und Alarmierung, Zusammenarbeit und Dokumentation an einem Ort vereint.

Viele Teams bauen auf komplexe Prozesse und spezialisiertes Wissen weniger Experten, was es schwieriger macht, sich drauf zu einigen, was getan werden muss. Ein effektiver Workflow für das Incident Management sollte etabliert werden, wenn die Systeme reibungslos laufen. Dabei sollte klar sein, welche Informationen benötigt werden, wer für das Reaktionsmanagement verantwortlich ist und wie der Vorfall festgehalten werden kann, um daraus für die Zukunft lernen zu können. Dies erfordert zugängliche Daten, wohlverstandene Rollen und Verantwortlichkeiten sowie klar definierte Kommunikationskanäle – alles im Voraus geplant und dokumentiert – damit der Umgang mit dem Problem nicht mit der eigentlichen Lösung des Problems kollidiert.

Das Wie ist genauso wichtig, wie das Warum

Ein ausgelöster Alarm ist in der Regel der Beginn eines Incident-Management-Workflows. Daher müssen sich Teams Gedanken darüber machen, welche Daten für einen Alarm in Frage kommen. Aber das „Wer" und „Wann" ist genauso wichtig wie das „Was". Die Personen, die alarmiert werden, und der Zeitpunkt, zu dem diese Alarme ausgelöst werden, sind genauso wichtig wie der Inhalt des Alarms.

Der richtige Workflow als Reaktion auf einen Vorfall macht die Problembehebung so einfach wie möglich und stellt sicher, dass die richtigen Personen mit den richtigen Informationen alarmiert werden, damit sie auf der Grundlage eines gemeinsamen Informationspools zusammenarbeiten können. Dies bedeutet, dass der Alarm und die dazugehörigen Diagramme und Grafiken in kollaborativen Tools zugänglich gemacht werden und der Workflow, durch den der Alarm an die für die Bearbeitung zuständigen Personen gesendet wird, automatisiert wird.

Mit einheitlichen Workflows zu schnellerer Lösung

Sobald die richtigen Personen alarmiert sind und mit ihrem bevorzugten Messaging- und Kommunikationstool kommunizieren, benötigen sie auch Zugriff auf alle relevanten Daten – sowohl die aktuellen als auch auf die früherer Incidents sowie der Baseline im ungestörten Regelbetrieb. Teams brauchen die Möglichkeit, Vorfälle nach wichtigen Metadaten zu sortieren, eine chronologische Liste der Aktualisierungen anzuzeigen, die zu dem Problem beitragen, und relevante Kommentare, Kontext und Ergebnisse bereitzustellen. Mit einem bewährten Satz integrierter Tools, die alle notwendigen Daten an einem Ort zusammenführen, wird diese Art der Zusammenarbeit einfacher und fruchtbarer.

Aus der Vergangenheit lernen

Sobald ein Vorfall behoben ist, besteht der nächste Schritt darin, Maßnahmen zu ergreifen, um die Wahrscheinlichkeit zu verringern, dass das gleiche Problem erneut auftritt, und es einfach zu machen, dieses zu erkennen und zu beheben, falls es doch auftritt.

Aus diesem Grund sind Dokumentation und Postmortems so wichtig für das Incident Management. Wenn ein neuer Vorfall mit einem vergangenen Vorfall korreliert, kann man herausfinden, ob das Problem bereits bekannt ist. Zu einer ordnungsgemäßen Dokumentation gehören eine Liste von Folgeaufgaben zur Behebung akuter Probleme, feste Pläne zur Aktualisierung von Warnmeldungen, um die gewonnenen Erkenntnisse zu berücksichtigen, und ein detailliertes, öffentliches Postmortem-Dokument, damit jeder in einem Team – und innerhalb des Unternehmens – das Problem besser verstehen und ähnliche Probleme, die möglicherweise an anderer Stelle bestehen, identifizieren kann. Wenn ein ähnlicher Vorfall in der Zukunft auftritt, hat das Team auf diese Weise alle historischen Informationen, die es braucht, an einem Ort.

Luft für Neues

Ein Incident Management-Workflow, der die oben beschriebenen Prinzipien beherzigt, ist effektiver, effizienter und einfacher für Entwicklungsteams. Vor allem spart er Zeit, so dass sich die Teams auf die Entwicklung neuer Produkte und Funktionen konzentrieren können, anstatt sich um auftretende Probleme zu kümmern. Wer das, was bereits aufgebaut ist, nicht richtig pflegt und wartet, wird nicht in der Lage sein, Neues zu bauen. Ein effizientes Incident Management ist ein wichtiger Weg, um dies zu ermöglichen und Freiräume zu schaffen.

(ID:47329495)