Suchen

Expertenbeitrag

Henrik Hasenkamp

Henrik Hasenkamp

CEO und Gründer, gridscale

KI für die Cloud

Wenn die Cloud selbst entscheidet

| Autor/ Redakteur: Henrik Hasenkamp / Sebastian Human

Für viele Unternehmen ist die Cloud bereits essentieller Bestandteil der täglichen Arbeit. Daher stellt sich die Frage: Wie lässt sich die Servicequalität in der Cloud erhöhen? Die Erfassung und Auswertung von Infrastruktur-Telemetrie-Daten und selbstlernende Algorithmen könnten eine Antwort sein.

Firmen zum Thema

Die digitale Transformation eröffnet neue Anwendungsmöglichkeiten für die intelligente Cloud
Die digitale Transformation eröffnet neue Anwendungsmöglichkeiten für die intelligente Cloud
(Bild: PIXABAY / CC0)

Die digitale Transformation bringt vor allem eines mit sich: jede Menge Daten. Die aktuellen Entwicklungen in den Bereichen Industrie 4.0 und Internet of Things zeigen schon jetzt beispielhaft, was mit Hilfe von Daten alles möglich ist. Sensoren an Maschinen und Geräten erfassen Temperaturen, Einsatzzeiten, Verschleiß und andere Zustandsdaten und senden diese an ein Daten-Analyse-System. Systematisch in Korrelationen gebracht, lassen sich damit ganze Produktionsumgebungen steuern und optimieren. Und nicht nur das: Wenn es gelingt, Algorithmen zu entwickeln, die aufgrund zuvor gelernter Zusammenhänge fundierte Entscheidungen treffen, sind unzählige Anwendungsszenarien denkbar.

Besonders das Konzept der Predictive Maintenance verspricht interessante Möglichkeiten: Hinter dem Ansatz verbirgt sich die Frage, wann genau der optimale Zeitpunkt ist, ein Bauteil zu warten oder zu erneuern. Die reaktive Wartung – also der Austausch eines Bauteils oder Geräts dann, wenn es kaputt ist – reizt zwar die maximale Lebensdauer aus, verursacht aber Unannehmlichkeiten im laufenden Betrieb. Es kann zum Produktionsstillstand kommen, schlimmstenfalls muss das defekte Teil erst angeschafft werden. In Geschäftsumgebungen, in denen Stillstand oder Ausfälle nicht hinnehmbar sind, wird in Intervallen gewartet. Je nach technischen Daten oder Erfahrungswerten wird die Wartung in regelmäßigen Abständen an die Prozesse angepasst. Der Vorteil: Auszutauschende Bauteile können rechtzeitig vorher bestellt und teure Stillstandzeiten vermieden werden. Doch die Geräte selbst sind zu diesem Zeitpunkt praktisch oft noch einsatzfähig. Hier setzt Predictive Maintenance an, um den optimalen Wartungszeitpunkt zu finden, der sich aufgrund von aktuellen Zustandsdaten berechnen lässt. Bestenfalls sollte ein Bauteil also dann getauscht werden, wenn es am Ende seiner Laufzeit angekommen, aber noch nicht kaputt ist.

Predictive Maintenance für Cloud-Infrastrukturen

Wie lässt sich dieses Konzept auf IT-Infrastrukturen in lokalen Rechenzentren oder sogar Cloud-Umgebungen übertragen? Besonders letztere wollen Flexibilität, Agilität und Hochverfügbarkeit bieten. Ein Predictive-Maintenance-Ansatz könnte das Management automatisieren und damit vereinfachen. Die Idee dahinter ist im Prinzip einfach: Jedes außergewöhnliche Ereignis – im Tenor der Maintenance sind hiermit Geräteausfälle, Überbelastungen oder externe Einwirkungen wie etwa Hacker-Angriffe gemeint – erzeugt charakteristische Daten. Zum Beispiel gehen einem Ransomware-Angriff ungewöhnliche Aktivitäten im Netzwerk voraus. Werden verschiedene Telemetrie-Daten der Hardware und der Umgebung in den richtigen Zusammenhang gebracht, sind solche Ereignisse vorhersagbar. Der Cloud-Anbieter kann dank eines datenbasierten, intelligenten Systems dann eine deutlich höhere Servicequalität anbieten: Wenn kritische Ereignisse schon vor dem Eintreten erkannt und entsprechende Maßnahmen eingeleitet werden, ist der Impact auf den Betrieb nur noch minimal oder sogar gar nicht mehr zu spüren.

Das System muss erst viel lernen

Die Daten sind da: So bringen die meisten Hardware Devices bereits Sensoren mit, mit denen sich zahlreiche Zustands- und Funktionsdaten erfassen lassen. Solche Telemetrie-Daten sind etwa die Temperaturen des Devices und der Umgebung, Latenzzeiten, Anzahl der Schreib- und Lesezugriffe, Logfiles und ähnliches. Ihre Erfassung ist das kleinere Problem. Vielmehr ist die Interpretation der Daten die Herausforderung: Nur weil die I/O-Rate sich kurzzeitig deutlich erhöht, muss dies noch lange kein Hacker-Angriff sein. Vielleicht verursacht ein regulärer Applikationstest völlig zu Recht diese Zusatzlast. Und nur weil die Temperatur der Devices ansteigt, steht nicht zwingend deren Ausfall bevor. Möglicherweise arbeitet nur die Klimaanlage im Serverraum nicht richtig.

Das bedeutet, das System muss zunächst lernen, was „normal“ im Sinne des Betriebes ist und was nicht. Denn diese Anomalien einfach vorab zu definieren, ergibt in der Praxis wenig Sinn – zu vielfältig sind die Möglichkeiten und Abhängigkeiten. Damit der Algorithmus lernen kann, müssen Features gesetzt werden. Das sind die Attribute, die in irgendeiner Weise Einfluss auf den Betrieb der Infrastruktur haben und auf die das Augenmerk gelegt werden soll. Tritt nun im laufenden Betrieb ein Problem auf, wird dieser Moment als wichtiges Ereignis markiert. Der Algorithmus lernt, welche Daten in welchem Zusammenhang etwas auslösen, was für den Betreiber von Bedeutung ist. Je mehr Features gesetzt und je mehr Ereignisse die Basis für die Dateninterpretation bilden, umso treffsicher sind die Vorhersagen des Algorithmus.

Was ein KI-Algorithmus in der Praxis leistet

Das Ziel ist es, dass der möglichst umfangreich angelernte Algorithmus intelligente Vorhersagen trifft und damit den Infrastruktur-Betrieb optimiert. So soll er etwa rechtzeitig den Ausfall einer Festplatte prognostizieren, einen Hacker-Angriff identifizieren, bevor großer Schaden angerichtet werden kann, oder rechtzeitig zusätzliche Ressourcen skalieren. Um dies abzudecken und die Servicequalität zu erhöhen, braucht der Cloud-Anbieter ein mehrstufiges System, welches nicht nur im konkreten Notfall warnt, sondern eben auch datenbasiert vorausschaut.

Die oberste Stufe eines solchen hierarchischen Modells deckt extreme Situationen ab, etwa wie bei einem herkömmlichen Monitoring: Sticht ein Wert aus den erfassten Daten so heraus, dass sofort eingegriffen werden muss? Wenn beispielsweise der Datenstrom von oder zu einer Datenbank abgebrochen ist, gibt es genügend Gründe zu der Annahme, dass hier ein Problem vorliegt. Gegenmaßnahmen sollten sofort und möglichst weitgehend automatisiert angestoßen werden.

Kern eines intelligenten Systems ist Hierarchiestufe 2. Auf der Basis der zuvor definierten Feature- und Werte-Korridore sowie der gelernten Zusammenhänge zwischen den Daten entwickelt sich ein System, welches vorausschauend arbeitet. Devices werden, kurz bevor sie kaputt gehen, in einem Zeitfenster gewartet oder getauscht , welches perfekt in den laufenden Betrieb eingetaktet ist. In diesem Ansatz der Predictive Maintenance steckt viel Optimierungspotential, eben genau weil die Abhängigkeiten untereinander und die gegenseitigen Beeinflussungen berücksichtigt werden.

Im Praxis-Einsatz beginnt sich darüber hinaus eine dritte Stufe zu entwickeln. Aufsetzend auf dem optimierten Betrieb der Cloud-Infrastruktur sind Cloud-Anbieter nun in der Lage proaktive Services aufzusetzen. So könnten zusätzlich benötigte Ressourcen beispielsweise genau dann automatisch skaliert werden, wenn sie benötigt werden und nicht erst dann, wenn ein Engpass bereits entstanden ist. Der Algorithmus kann dann berechnen, welche Umlagerung für welchen Workload in Frage kommt – unter Berücksichtigung von Risiken und Aufwand. Oder aber der Dienstleister kann hinsichtlich der Infrastruktur-Dimensionen beraten, wenn anhand der Telemetrie-Daten deutlich wird, dass Datenbank und Speicher dauerhaft an ihrer Leistungsgrenze arbeiten.

KI kann Cloud-Services unterstützen

Künstliche Intelligenz mag noch in den Kinderschuhen stecken. Doch schon jetzt eröffnen die Analyse und Interpretation von Daten neue Möglichkeiten, die, wenn sie mit einem lernenden Algorithmus überdacht werden, weit über das herkömmliche Monitoring hinausgehen. Schon jetzt gewinnt beispielsweise Predictive Maintenance in der Industrie stark an Bedeutung, weil es nachweislich Kosten spart und Ausfallzeiten minimiert. Cloud Computing lebt von dem Versprechen, flexibel und kostentransparent Ressourcen samt Maintenance zur Verfügung zu stellen. Selbstlernende Algorithmen verfeinern und optimieren dieses Konzept des Cloud Computing.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 45616592)

Über den Autor

Henrik Hasenkamp

Henrik Hasenkamp

CEO und Gründer, gridscale