Suchen

KI-basierte Analytics Groß denken statt klein scheitern: Datenanalyse demokratisieren

| Autor / Redakteur: Florian Dirnberger* / Sebastian Human

Maschinelles Lernen, als Teildisziplin künstlicher Intelligenz, und Data Science sind seit 2018 in der Unternehmenswelt angekommen. Will man aber tatsächlichen Nutzen aus dem technologischen Fortschritt ziehen, sollte man nicht zu zurückhaltend sein.

Firmen zum Thema

Die Kombination aus Methoden der künstlichen Intelligenz und einer strategisch durchdachten Datenanalyse spart Zeit und Geld.
Die Kombination aus Methoden der künstlichen Intelligenz und einer strategisch durchdachten Datenanalyse spart Zeit und Geld.
(Bild: gemeinfrei / Pixabay )

Das Bewusstsein und die Bereitschaft des Managements, bei diesem Thema auf die neuen Technologien zu bauen, ist deutlich erkennbar. Ganz klar, dazu führen nicht nur die immer konkreteren Anwendungsbeispiele, sondern vor allem die kontinuierlich sinkenden Preise für Rechenleistung und Speicherplatz.

Nun, da der Wille nach Veränderung klar erkennbar ist, geht es um die tatsächliche Realisierung. Schnell zeigt sich: Wer Daten im Unternehmen als Kapital nutzen möchte, muss Menschen und Anwendungen zusammenbringen. Und das nicht nur in kleinen Stil. Erfolgreiche Unternehmen haben den Datenprozess demokratisiert und in die Breite gebracht. Es geht nicht darum einen Prozess durch maschinelles Lernen zu optimieren, sondern hunderte oder tausende davon. Die Grundlage dafür schafft eine unternehmensweite Data Science Plattform.

Die Vorbereitung ist entscheidend

Die Anwendungen von Data Science in der Produktion sind vielfältig, ein beliebtes Beispiel liefert die vorausschauende Wartung von Fertigungsanlagen. Aber auch Logistik, Personaleinsatzplanung, Qualitätskontrolle und Produktionssteuerung lassen sich durch die gezielte Analyse bestehender Daten optimieren.

In der Praxis zeigt sich, wo nur einzelne Data Science Projekte ausgedeutet und realisiert werden, bleiben die Ergebnisse häufig hinter den Erwartungen zurück. Es fehlt schlicht an den grundlegenden Voraussetzungen, um die Daten in Unternehmen strategisch zu nutzen: Um schnell sichtbare Erfolge zu erzielen, müssen die Daten IT-seitig an einer zentralen Stelle verfügbar sein. Experten von Fachabteilungen müssen als Teil des Projektteams in klar definierten Rollen gemeinsam mit Data Scientists an den Projekten arbeiten. Gleichzeitig muss sichergestellt werden, dass die Daten vertrauenswürdig sind. Eine unternehmensweite Data Science Plattform schafft diese Voraussetzungen.

Bestandteile einer Data Science Plattform

Um alle Funktionen und Prozesse rund um Daten zentral steuern und überwachen zu können, vereint eine Data Science Plattform zunächst einmal unterschiedliche Softwarekomponenten, die alle über eine zentrale Oberfläche bedient werden. Führende Plattformen enthalten zum einen leistungsfähige Software zur Bereinigung und Aufbereitung der Daten, ebenso können Machine Learning Anwendungen direkt erstellt und angewendet werden. Über weitere Software-Funktionen lassen sich Daten detailliert auswerten und visualisieren. Schließlich wird über die Plattform auch die Verteilung der Data Science Lösungen vorgenommen, die dann anschließend auch darüber überwacht werden.

Ideal sind Plattformen, die neben integrierten Software-Tools Schnittstellen zu Open Source Technologien bieten. Denn ohne Frage tragen Open Source Technologien wesentlich zur Verbreitung von Data Science und maschinellem Lernen bei, gelten sie doch bei Data Scientists als state-of-the art und sind nicht wegzudenken aus diesem dynamischen Umfeld. In Hinblick auf die angespannte Lage auf dem Arbeitsmarkt für Data Scientists bieten Open Source Technologien große Vorteile, denn sie werden an vielen Universitäten genutzt und sind dementsprechend weit verbreitet. Neue Mitarbeiter können schnell produktiv arbeiten. Hier lohnt sich die Nutzung einer möglichst flexiblen Data Science Plattform, mit der sich Open Source Technologien auch weiterhin in die Projekte einbinden lassen.

Wo liegen die praktischen Vorteile

Im Alltag geht häufig viel Zeit bei der Suche nach Informationen verloren, Prozesse sind nicht klar definiert und so werden Aufgaben in unterschiedlichen Abteilungen doppelt erledigt. Individuelle Data Science Projekte kämpfen ebenfalls mit diesen Herausforderungen, funktionieren kleine Teams noch auf ad-hoc-Basis, benötigen AI-Projekte im größeren Stil reproduzierbare Prozesse und klare Regeln für die Zusammenarbeit. Dabei gilt es zum einen, die Zusammenarbeit auf eine solide Basis zu stellen und Verantwortlichkeiten zu definieren. Zum anderen erfordern Data Science oder AI Projekte eine funktionierende Data Governance mit klaren Arbeitsabläufen und Führungskräften, die deren Einhaltung gewährleisten. Im Rahmen einer Data Science Plattform lassen sich die Voraussetzungen schnell und einfach schaffen. Zuverlässigkeit, Verfügbarkeit und Sicherheit der Daten lassen sich damit gewährleisten.

Der Aufbau einer Data Analytics Plattform.
Der Aufbau einer Data Analytics Plattform.
(Bild: Dataiku)

Auch im Bereich des Monitorings zeigen sich die großen Vorteile einer Plattform: Der größte Unterschied zwischen der Entwicklung klassischer Software und KI-basierten Modellen ist die Wartung. Traditionelle Software wird einmal entwickelt und hin und wieder aktualisiert, aber grundsätzlich läuft sie. Machine Learning Modelle werden entwickelt, produktiv gestellt und dann kontinuierlich überwacht und hinsichtlich ihrer Performance optimiert. Selbst wenn die Performance zunächst gut erscheint, kann diese sich über die Zeit mit neuen Daten schnell ändern. Wird dieser Aspekt vernachlässigt, kann das – gerade bei wachsenden Einsatzfeldern - verheerende Auswirkungen auf die Data Science Anstrengungen haben.

Denkt man nun einen Schritt weiter in Richtung Automated Machine Learning oder Self Service Analytics, geht es auch darum, einmal geleistete Arbeit zu sichern. Innerhalb einer Data Science Plattform werden Prozesse dokumentiert und Algorithmen gespeichert. Sind Daten für ein Projekt aufbereitet worden, stehen diese anschließend für weitere direkt zur Verfügung. So lassen sich unnötige Arbeiten vermeiden und die Effizienz insgesamt steigern.

Der Erfolg der entwickelten Datenmodelle zeigt sich erst, wenn diese auch in den operationalen Betrieb gehen. Ohne ein passende Programmierschnittstelle (API), die eine einfache Verteilung der Modelle ermöglicht, müssen die Datenmodelle zunächst von IT-Experten neu programmiert werden. Dieser Schritt kostet wertvolle Zeit und stellt eine große Hürde dar. Über ein integriertes Werkzeug wird dieser Bruch verhindert und die Datenteams arbeiten direkt weiter an ihren Projekten.

Data Science-Plattformen in der Praxis

Die beschriebenen Anforderungen und grundlegenden Funktionen gelten allgemein für Data Science Plattformen. Darüber hinaus unterscheiden sich die Lösungen hinsichtlich Ihrer Funktionalität. Die Dataiku Platform soll beispielsweise Unternehmen auf dem Weg von Data Analytics zur unternehmensweiten KI begleitet. Hier steht die Demokratisierung von Data Science und Machine Learning an erster Stelle und so funktioniert die Plattform als Katalysator für datengetriebene Unternehmen: Sie bereitet den Boden für eine strukturierte Zusammenarbeit zwischen Datenexperten und Anwendern, liefert eine Bibliothek mit Best Practices und bietet zahlreichen Menschen innerhalb einer Organisation Zugang zu Data Science Projekten. So setzt beispielsweise GE Aviation Self-Service Analytics auf Basis der Plattform und erstellte seit der Einführung im März 2017 mehr als 2.000 Datenprodukte in Form wiederkehrender Analysen, die in Dashboards dargestellt werden.

* Florian Dirnberger arbeitet als VP Sales DACH-Region bei Dataiku.

(ID:46680116)