Digitalisierung Gesunde IT-Systeme: Wie sich Fehler erkennen lassen
Um Probleme beim Technologieeinsatz zu vermeiden und damit die digitale Gesundheit im eigenen Unternehmen zu verbessern, kann ein multidisziplinärer Ansatz Unternehmen bei der Fehleridentifikation helfen.
Anbieter zum Thema

Mehr als jedes zweite Industrieunternehmen (52 Prozent) in Deutschland hat laut Unternehmensberatung Staufen in diesem Jahr Industrie-4.0-Initiativen in Einzelprojekten oder unternehmensübergreifend umgesetzt. Die Mehrheit verfolgte das Ziel, digitale Produktions-Prozesse und -Techniken (Smart Factory) einzuführen oder zu verbessern. In den kommenden drei bis fünf Jahren wollen Unternehmen in Deutschland vor allem weiter in Multi-Cloud-Umgebungen (37 Prozent) und IoT-Technologien (36 Prozent) im Rahmen ihrer IoT-Projekte investieren, so Dell.
Multidisziplinärer Ansatz zur Fehler-Erkennung und -Behebung
Dreh- und Angelpunkt von Smart-Factory-Konzepten sind naturgemäß vor allem digitale, durchgängige Prozesse und intelligente Technologien. Hierbei beteiligt sind Anwendungen, Maschinen, Netzwerke, Infrastrukturen, Rechenzentrums-Dienste und schließlich der Endnutzer. In einer vernetzten Industrieumgebung müssen all diese Komponenten fehlerfrei und meist sogar unter Berücksichtigung sehr geringer Latenzzeiten zusammenarbeiten können. Dennoch ist gerade bei vernetzten Komponenten in einer hochverteilten Umgebung die Störanfälligkeit hoch. Wie können (Industrie-) Unternehmen also die Gesundheit ihrer digitalen Dienste und Systeme sicherstellen?
Empfehlen lässt sich ein multidisziplinärer Ansatz, der alle beteiligten Komponenten überwacht und Fehler schnell identifizierbar macht. Hierbei sollten Industrieunternehmen im ersten Schritt die Funktionen ihrer jeweiligen digitalen Dienste zerlegen. Ein Dienst lässt sich in diesem Zusammenhang als eine technische Einheit verstehen. Dieser bündelt zusammenhängende Funktionen und stellt diese zum Beispiel einem Nutzer per Schnittstelle zur Verfügung.
Digitale Dienste identifizieren
Der digitale Dienst sollte nun also in seine einzelnen Funktionen, wie den allgemeinen Dienstzustand, beteiligte Anwendungen und Diensteabhängigkeiten (Mapping) zerlegt werden. Außerdem sind die Parameter Reaktionszeiten des Endbenutzers, Sessions, forensische Diagnose, System- und Konnektivitäts-Zustand sowie die IT-Security zu berücksichtigen.
Auf Basis all dieser Kriterien kann der allgemeine Gesundheitszustand des jeweiligen Dienstes gemessen, quantifiziert und ausgewertet werden. Fehlerpotentiale lassen sich so identifizieren und Probleme in der Regel schneller beheben.
1. Allgemeinen Gesundheitszustand eines digitalen Dienstes definieren
In diesem Schritt empfiehlt es sich, eine sogenannte Baseline zu etablieren. Diese hilft zu verstehen, wie sich ein Dienst im Laufe der Zeit verändert oder wie er unter außergewöhnlichen Belastungen reagiert, etwa bei Produktionsspitzen. Dabei kann auch untersucht werden, ob sich der Dienst flexibel erweitert, wenn beispielsweise Cloud-basierte Komponenten dazu geschaltet werden. Sobald eine Baseline festgelegt wurde, kann diese mögliche Anomalien, die zu einer Verschlechterung des Services führen, aufzeigen. Die Baseline soll also den Normalzustand eines Dienstes definieren und als Ausgangszustand dienen, um einen Bezugspunkt für spätere Vergleichsanalysen zu haben.
2. Anwendungsfehler erkennen
Anwendungen werden in Testumgebungen unter meist optimalen Bedingungen erstellt und geprüft. In einer Produktionsumgebung muss die eingesetzte Anwendung jedoch mit anderen Komponenten fehlerlos interagieren – und wird somit zu einem System aus mehreren Variablen. Unternehmen sollten daher prüfen, ob sie nach Anwendungsimplementierung noch die Möglichkeit haben, Anwendungsfehler zu detektieren, die für die Anwendung selbst, den Anwendungsentwickler oder den Endbenutzer möglicherweise nicht erkennbar sind. Fehler können sich auch erst später bemerkbar machen, etwa in Form erhöhter Response-Zeiten.
Oft können sich Fehler auch in der Kommunikation zwischen den Komponenten eines Dienstes verbergen. Aus Redundanzaspekten haben Dienste mehrere Komponenten, die wiederum vielfältige Abhängigkeiten aufweisen, um den Dienst auszuführen, Benutzer zu authentifizieren und Informationen zwischen den Komponenten des Dienstes zu verteilen.
3. Dienstabhängigkeiten zuordnen: Service Dependency Mapping
Ein digitaler Dienst kann sich im Laufe der Zeit verändern, wenn etwa neue Komponenten zugeschaltet oder zusätzliche Aufgaben von ihm übernommen werden. Damit der Überblick nicht verloren geht, sollten Unternehmen definieren: Was macht einen Dienst aus, wie kommuniziert dieser und wovon ist er abhängig? Diese Übersicht (Logic Map) ist besonders hilfreich, wenn etwa eine System- oder Plattformmigration ansteht.
4. Antwortverhalten des Systems bezogen auf Endnutzer messen
Digitale Dienste werden neben Maschinen auch von Endanwendern, etwa Mitarbeitern, genutzt. Hierbei ist es ein wesentlicher Faktor, das Antwortzeitverhalten von Anwendungen (Response Time) zu messen, um die User Experience hoch und Produktivitätseinbußen gering zu halten. Sind diese Reaktionszeiten zu lang, sollten entweder eine Kapazitätserweiterung oder Fehlerbehebungsmaßnahmen eingeleitet werden. Haben Unternehmen keinen Überblick über die angesprochenen Diensteabhängigkeiten, gestaltet sich die Fehlersuche nach langen Reaktionszeiten jedoch oft zeit- und kostenintensiv.
5. Sessions: bestehende Verbindungen prüfen
Bei einem Dienst mit mehreren Komponenten besteht jede Interaktion zwischen den Komponenten aus mehreren Sessions. Jede Sitzung sollte überwacht und per Session Health Score bewertet werden. So ist es einfacher, fehlgeschlagene Sitzungen zu detektieren. Diese führen oft zu höheren Response-Zeiten und können auf mögliche Ressourcen-Engpässe hinweisen.
6. Forensik-Tools frühzeitig etablieren
Gibt es Probleme mit Ineffizienzen im System, müssen Unternehmen forensische Maßnahmen ergreifen. Damit ist es möglich, tiefergehende Ursachenforschung zu betreiben, um etwa Verbindungsprobleme innerhalb und zwischen den Diensten aufzudecken. Liegen jedoch zum Zeitpunkt der Fehlermeldung zu wenig forensische Daten vor, muss oft abgewartet werden, bis das Problem erneut auftritt. Ebenso verkürzen erst zu diesem Zeitpunkt eilig eingerichtete Forensik-Systeme die Zeit für die Fehlerbehebung nicht.
7. Systemmonitoring einbinden
Oft haben Unternehmen ein Systemmonitoring eingerichtet. Doch wie knüpft dieses an die oben genannten Themen an. Unternehmen müssen sich die Frage stellen, ob sie alle erwähnten Parameter mit einem gemeinsamen Datensatz verknüpfen können – oder ob alle Datensätze isoliert gesammelt werden, ohne dass sie miteinander in Beziehung gesetzt werden können.
8. IT-Sicherheit
Mit zunehmender Bedrohungslage ist auch der Aspekt IT-Sicherheit unbedingt zu berücksichtigen. So ist laut IT-Sicherheitsbericht 2018, den das BSI im Oktober veröffentlich hat, die Gefährdungslage im Bereich Cybersecurity in den vergangenen Monaten abermals vielschichtiger geworden. Gerade Distributed-Denial-of-Service (DDoS) -Attacken sind gefährlich. Bei einer DDoS-Attacke werden Server, Web-Dienste, IT-Komponenten oder die IT-Infrastruktur solange mit Datenverkehr überlastet, bis diese nicht mehr verfügbar sind. Laut Sicherheitsbericht von NETSCOUT Arbor gab es 2017 in der DACH-Region knapp 197.000 derartiger Cyber-Attacken. Organisationen und Unternehmen mussten also umgerechnet 22 DDoS-Angriffe pro Stunde abwehren.
Vor allem die Zahl von Multivektor-Angriffen wird künftig zunehmen. Diese hochkomplexen Attacken richten sich gleichzeitig gegen die Verbindungsbandbreite, Applikationen, Infrastrukturen und Dienste. Somit ist es also möglich, per DDoS-Attacke digitale Dienste zu schädigen oder lahmzulegen. Unternehmen sollten daher prüfen, wie sie ihre vernetzten Dienste mit geeigneten Security-Tools vor Ausfall und Datenabfluss schützen können.
Fazit
Gerade in der Smart Factory, aber auch anderen IIoT-Szenarien, in dem die hochgradige Vernetzung im Mittelpunkt steht, muss die eingesetzte Technologie reibungslos funktionieren. Geht es beispielsweise um vernetzte Maschinen, die schnell und selbstständig Entscheidungen treffen müssen, kann eine fehlerhafte Dienstkomponente gravierende Konsequenzen nach sich ziehen. So kann der Informationsaustausch zwischen Maschinen und Produkten beeinträchtigt werden und nachgelagerte Prozesse oder gar Produktionsschritte komplett zum Erliegen kommen. Digitale Dienste müssen also vielfältige Aufgaben übernehmen, steuern und dabei höchsten Anforderungen Rechnung tragen. Ein geeigneter, multidisziplinärer Ansatz, um Fehler und Störquellen im Vorfeld zu identifizieren, ist für Unternehmen daher erfolgskritisch.