Suchen

Exklusiv-Interview Den Daten-Tsunami bändigen und gewinnbringend nutzen

| Redakteur: Jürgen Schreier

Im Jahr 2019 gingen in Deutschland rund 18 Millionen Maschinen, Sensoren und Autos zusätzlich ins Netz. Die Datenflut, die sie produzieren, ist gigantisch und schwillt ständig an. Doch wie generiert man aus diesen vielen Daten Mehrwerte? Darüber sprachen wir mit dem Münchner Data Scientist Andreas Hübner.

Firmen zum Thema

Das Datenaufkommen im IIoT nimmt rapide zu. Diese Datenflut gilt es zu speichern, aufzubreiten und zu analysieren, sollen daraus Mehrwerte entstehen.
Das Datenaufkommen im IIoT nimmt rapide zu. Diese Datenflut gilt es zu speichern, aufzubreiten und zu analysieren, sollen daraus Mehrwerte entstehen.
(Bild: gemeinfrei / Unsplash )

Allein in Deutschland gingen 2019 rund 18 Millionen Maschinen, Sensoren und Autos zusätzlich ins Netz. Weltweit sollen aktuell mehr als 20 Milliarden IoT-Geräte online sein. All diese Devices produzieren Daten – oft unstrukturierte. Diese wollen gespeichert und letztlich genutzt werden. Wie geht man unter „rein“ technologischen Gesichtspunkten mit einer solchen Datenflut im Unternehmen um?

Hübner: Die meisten Daten weisen eine Struktur auf – vielleicht abgesehen von Freitexten. Selbst Bilder haben eine Datenstruktur, mit der man sehr gut arbeiten kann. Was Sensorik angeht: Dabei wird durch die Abtastrate regelmäßig ein Signal produziert, das ebenfalls strukturiert ist. Die Herausforderung besteht in der Masse an Daten, die zunächst irgendwo anlanden. Man muss die Möglichkeit geben, eine Landing Zone zu haben, wenn sie nicht verloren gehen sollen. Ein weiterer technologischer Aspekt ist das Katalogisieren der Daten. Der Begriff „Data Catalog“ ist bereits recht verbreitet. Metadaten, also die datenbeschreibenden Informationen, müssen festgehalten werden. Die Werkzeuge hierfür sind in den vergangenen Jahren gereift. Dadurch können Daten in Empfang genommen, beschrieben und katalogisiert werden. Von da an geht es dann im nächsten Schritt weiter zur Verfeinerung der Daten.

Andreas Hübner ist Managing Data Scientist bei der Data & KI Beratung Alexander Thamm GmbH. Er ist seit 2013 im Unternehmen und berät Kunden sämtlicher Branchen dabei, Daten zu sammeln, aufzubereiten und zu analysieren, um daraus Mehrwerte zu generieren.
Andreas Hübner ist Managing Data Scientist bei der Data & KI Beratung Alexander Thamm GmbH. Er ist seit 2013 im Unternehmen und berät Kunden sämtlicher Branchen dabei, Daten zu sammeln, aufzubereiten und zu analysieren, um daraus Mehrwerte zu generieren.
(Bild: Alexander Thamm GmbH )

Zwei Begriffe hört man in diesem Zusammenhang immer wieder - „Data Lake“ und „Data-Warehouse“. Was unterscheidet diese beiden Konzepte?

Hübner: Der Begriff „Data Warehouse“ ist schon ein bisschen älter. Er stammt aus der relationalen Welt, auf die verbreitete ERP-Systeme wie zum Beispiel SAP setzen. Data Warehouses setzen traditionell auf eine stark tabellarisch strukturierte Form der Daten, verbunden mit dem Anspruch, so eine hohe Datenqualität und Belastbarkeit zu haben. Das Ziel von einem Data Warehouse ist, einen Single Point of Truth für das Reporting und Controlling zu erzeugen. Wenn man sich in Unternehmen ansieht, in welchen Release-Zyklen die Reporting-Abteilungen arbeiten, wird man feststellen, dass das zum Teil sehr lange dauert. Ich habe kürzlich mit einem Kollegen gesprochen, der bei einem Energieunternehmen im CDO-Bereich arbeitet. Er erzählte, dass die Data Warehouses im Unternehmen Release-Zyklen von fünf bis sechs Wochen für neue Datenfelder hätten. Wenn man agile Datenprojekte durchführen möchte, ist das ein zu langer Zeitraum.

Im Gegensatz dazu ist der Data-Lake ein „Auffangbecken", in dem nach Daten „gefischt“ wird. Der Data-Lake wurde entwickelt, als man erkannte, dass immer mehr Daten unterschiedlich anlandeten. Gleichzeitig gab es aber noch keine Ideen, wie man die Daten verarbeiten kann, damit sie direkt in hoher Qualität und Struktur vorliegen. Wir beobachten, dass in Data-Lakes erst einmal viele, viele Daten hineingepumpt werden. Das kann im ungünstigsten Fall dazu führen, dass der Data Lake zu einem Datensumpf verkommt, unübersichtlich und wertlos wird. Ein Vorteil des Data Lake besteht darin, dass die reinen Datenspeicherungskosten geringer sind als beim Data Warehouse. Wählt man beim internationalen Marktführer in Sachen Cloud-Dienste einen Service, mit dem man beliebige Daten und Dateien speichern und abrufen kann, kostet dieser circa zwei Cent pro Gigabyte. Bei einer relationalen Datenbank startet man bei zehn Cent pro Gigabyte. Das sind erhebliche Unterschiede, die sich rasch bemerkbar machen, wenn sich Datenmengen akkumulieren. Ein weiterer positiver Aspekt des Data-Lake, neben den günstigeren Kosten, ist, dass er zu einer Datendemokratisierung im Unternehmen beiträgt. In vielen Unternehmen wird versucht, Datensilos aufzubrechen und die Inhalte im Data-Lake zusammenzufassen, um mehr Menschen im Unternehmen an den gesammelten Daten teilhaben zu lassen.

Bei der Frage nach Data Lake oder Data Warehouse sollte man aber bedenken, dass es kein Entweder-Oder gibt. Setzt man die Technologien richtig gemeinsam ein, bieten sie kombiniert einen höheren Mehrwert als jeweils einzeln.

Ultimate Data and AI Guide: Leitfaden durch den Buzzword-Dschungel

Alexander Thamm, Michael Gramlich und Dr. Alexander Borek erklären in ihrem „Ultimate Data and AI Guide“ einfach und praxisnah grundlegendes Verständnis für Daten, künstliche Intelligenz und datenbasierte Technologien.

Im März 2020 findet Google für die Suchbegriffe „Artificial Intelligence“, „Machine Learning“ und „Data“ jeweils 700 Millionen, 2,5 Milliarden und 12,7 Milliarden Treffer. Informationen zu diesen Schlagwörtern sind also vorhanden, doch nicht jeder weiß, was wirklich hinter diesen Buzzwords steckt.

Alexander Thamm, Geschäftsführer der Data Science Beratung Alexander Thamm GmbH, bringt gemeinsam mit dem Data Scientist Michael Gramlich und Dr. Alexander Borek, dem Global Head of Data, Analytics und AI bei der Volkswagen Financial Services AG, jetzt Licht ins Dunkel. Die drei Datenspezialisten haben im März ihr Buch „The Ultimate Data and AI Guide“ veröffentlicht. Der Praxis-Leitfaden ist ab sofort – ausschließlich in englischer Sprache – für 24,99 Euro auf Amazon erhältlich. Die Kindle-Version gibt es für 9,99 Euro.

Je mehr Daten man hat, umso größer wird jedoch die Wahrscheinlichkeit, dass Daten veraltet, unvollständig oder anderweitig „falsch“ sind - was dann wiederum zu verfälschten Analyseergebnissen führen kann. Wie lässt die „Qualität“ einlaufender bzw. vorhandener Daten beurteilen und wie das Qualitätsproblem generell lösen?

Hübner: Es gibt eine Reihe grundlegender Datenqualitäts-Metriken. Und zwar Vollständigkeit, Konsistenz und zeitliche Relevanz. Als Beispiel: Konformität, also die korrekte Formatierung eines Datums, in dem man den Datentypus überprüft: Ist das ein korrekt formatiertes Datum? Ist das ein korrekt formatierter Geldbetrag? Kann ein Ort, der eingegeben wird, geocodiert werden oder findet man den Ort in einer entsprechenden Nachschlagetabelle? Im konkreten Fall muss man zusätzliche Metriken einführen, um den individuellen Bedarf desjenigen, der die Datenqualität beurteilt, abzubilden. Spätestens bei der semantischen Beurteilung der Datenqualität wird das unumgänglich sein. Ein Beispiel: Der zuständige Ingenieur beschreibt die Umstände eines Maschinenschadens als Freitext. Hier lässt sich nicht mehr ohne Weiteres vollautomatisiert zu prüfen, ob es sich um eine Beschreibung mit hoher Datenqualität handelt. Dafür können komplexe Logiken und Maschinen-Learning-Modelle helfen, solche Informationen zumindest grundsätzlich zu plausibilisieren.

Schlechte Datenqualität kann verschiedene Gründe haben, was unterschiedliche Herangehensweisen erfordert. Man kann grob unterteilen zwischen Daten, die von Maschinen erzeugt werden und Daten, die von Menschen erzeugt werden. Die Herausforderung bei Daten, die von Maschinen erzeugt werden, resultieren z.B. daraus, dass Sensorik ausfällt oder degeneriert, dass Sensoren verschmutzt sind und man ungewollte oder unbekannte Seiteneffekte hat. Geben Menschen Daten ein, dann verleitet oft ein unergonomisches Prozess-Design dazu, sich Abkürzungen zu suchen. Zum Beispiel werden Felder, die nicht ausgefüllt werden müssen, übersprungen, selbst wenn die Information dem Bearbeiter vorliegt. Hier muss man sich individuelle Lösungen überlegen. Nehmen wir einmal an, es beurteilt jemand die Art oder den Grund eines Schadens. Gibt es dann neben Auswahlfeldern wie Brandschaden oder Wasserschaden noch die Auswahl „Leer“, und würde der Beurteilende „Leer“ auswählen, so bliebe für denjenigen, der sich später mit der Datenqualität befasst, unklar, ob der Beurteilende das Feld absichtlich leer gelassen hat oder ob er den Grund nicht kennt.

„Daten sind das neue Öl" – diese These wird geradezu gebetsmühlenartig wiederholt. Doch Öl ist erst dann wirklich wertvoll, wenn es veredelt wurde. Schätzungen gehen davon aus, dass derzeit nur etwa ein Prozent der in Data Lakes oder Data Warehouses vorhandenen Daten tatsächlich für Analysen herangezogen werden. Warum ist dieser Prozentsatz so gering?

Hübner: Als Data Scientist könnte ich jetzt antworten: Wenn man sich ansieht, in welchen Dimensionen Daten entstehen und wie viele Individuen und Organisationseinheiten damit betraut sind, Daten zu analysieren, wird man feststellen, dass es schlichtweg einen Überhang an Daten gibt, verglichen mit den Kapazitäten diese nutzbringend zu verwenden. Das ist die rein datengetriebene Antwort. Es ist natürlich so, dass, um Daten sinnvoll verwenden zu können, ein Datensatz allein nicht ausreicht. Um mit Daten echte Mehrwerte zu schaffen, müssen sie mit anderen Daten verknüpft werden. Das ist nur ein Aspekt. Ein zweiter ist, dass es noch zu wenige Leute in Deutschland gibt, die sich aktiv mit den Business Cases, die datenbasiert möglich wären, befassen. Wenn man sich die letzte Dekade anschaut, dann war vieles von dem, was im Bereich Analytics, passiert ist, davon getrieben, herauszufinden was technisch möglich ist. Viele Unternehmen haben mit Daten gearbeitet, um zu zeigen, was geht. Nur ist das, was möglich ist, nicht notwendigerweise auch immer das, was den einen Business Case stützt. Und so reduziert sich dann manchmal der Anteil der Daten, die wirklich genutzt wurden.

Die Aufbereitung der Daten wird heute zumeist beim Data Scientist bzw. in der betreffenden Abteilung gesehen. Diesem bleibe dadurch aber weniger Zeit für die Analyse, kritisiert Bill Schmarzo von Hitachi Vantara. Er sieht einen Ausweg in sogenannten DataOps, d.h. in der Automatisierung von Datenerhebung, -verwaltung und –pflege. Ein gangbarer Weg?

Hübner: Das Thema „DataOps“ ist definitiv etwas, das an Relevanz gewinnt. Nicht umsonst haben wir das auch explizit in unsere Data-Journey mit aufgenommen, die mit der Entwicklung einer Data Strategy beginnt. Im DataLab werden Anwendungsfälle und Business Cases entwickelt, in der Data Factory zum fertigen Produkt industrialisiert. Das marktfähige, ausgerollte und produktiv genutzte Data Product wird in den nächsten Schritten im Rahmen von DataOps weiterentwickelt, betrieben und gewartet.

Reifere Datenanalysesoftware wird durch Automatisierung die Data Scientists entlasten. Es ist aber mitnichten so, dass sie dadurch davon befreit werden, die Geschäftsprozesse zu verstehen und zu begleiten. Wir bemerken eine deutlichere Fokussierung darauf, die Anwendungsfälle in den Betrieb zu überführen. Damit wandelt sich das Anforderungsprofil vieler Data Scientists von der Exploration von Möglichkeiten zu einer nachhaltigen Implementierung von Lösungen.

Auch wenn de facto in vielen Unternehmen der Data Lake eher einem Datensumpf ähnelt, hat sich interessanterweise das Bild des „data driven“-Unternehmens zu einem Hype entwickelt. Data driven zu sein, ist "hip". Wie erklärt sich dieses Paradoxon? Und wann ist ein Unternehmen wirklich data driven?

Hübner: Data-driven ist ein Begriff, der uns regelmäßig immer wieder begegnet. Für mich fängt das Thema „Data driven“ bei einem gewissen Mindset an, einer Einstellung an, die sich durch die Mitarbeiterschaft eines Unternehmens zieht. Das bedeutet: Die Mitarbeiter – und zwar alle – müssen die Potentiale von Daten, Datenanalysen, Datenprodukten oder KI-Anwendungen in ihrem Geschäftsbereich erkennen können. Das geht einher mit einem gewissen Ausbildungs- und Veränderungsbedarf. Wir haben das für verschiedene DAX-Konzerne über die letzten Jahre aktiv mitbegleitet, haben auf dem "C-Level" Weiterbildung und Enablement betrieben. Aber wir haben mit unseren Kunden große Gesamtprogramme gestaltet, über welche weltweit zehntausende Mitarbeiter erreicht wurden. Das ist aber nur der erste Schritt. Ja, das Mindset ist das, womit man anfangen muss.

Wie schwierig ist es und wie lange dauert es eine solche "förderliche Unternehmenskultur" zu schaffen?

Hübner: Die Frage wie lange das dauert, kann ich nicht beantworten. Selbst bei uns ist diese Thematik noch "on going". Fest steht jedoch: Es handelt sich um ein massives Change-Thema, das zusätzlich zu all den anderen Themen, die Unternehmen und die Menschen in den Unternehmen derzeit beschäftigen, noch on top kommt. Es geht sehr stark um Aufklärung und darum, ein angemessenes "Erwartungsmanagement" zu betreiben. Ich habe erlebt, dass sehr, sehr viel Marketing nach außen und nach innen gemacht wurde und die Mitarbeiter dann den Glauben an das Change-Projekt verloren haben, weil die Erwartungen einfach zu hoch gesteckt waren.

Datengetriebene Unternehmen bräuchten zwingend eine Datenstrategie, heißt es. Wie sieht eine solche Datenstrategie aus und was beinhaltet sie?

Hübner: Ja, datengetriebene Unternehmen brauchen eine Datenstrategie. Unsere Herangehensweise an das Thema „Datenstrategie“ ist sehr mit der Data Journey verbunden, die wir als System über die letzten Jahre herausgearbeitet haben. Drei Punkte der Data Journey hatte ich vorhin schon genannt: Data Labs, Data Factory und DataOps. Und vorne dran steht für uns die Datenstrategie. Warum? Weil wir festgestellt haben, dass wir das, was wir erreichen wollen, nur dann erreichen können, wenn wir wertstiftende Use Cases mit unseren Kunden umsetzen. Dafür aber braucht es Rahmenbedingungen. Wir gehen das so an, dass wir mit unseren Kunden den Reifegrad in den Dimensionen Prozesse, Ressourcen, Data Governance, Daten-Infrastruktur und Organisation bestimmen und definieren, wie man diese weiterentwickelt.

Keine Datenstrategie ohne Data Governance. Was ist Data Governance und wie wird Datenmanagement im Unternehmen konkret umgesetzt, wer ist dafür zuständig?

Hübner: Data Governance beschreibt die Festlegung, wer was mit Daten machen darf, welche Ansprüche beispielsweise an die Daten-Dokumentation und Datenqualität sowie die Datensicherheit gestellt werden und wie diese umgesetzt werden. Diese Funktion sollte unserer Meinung nach zentral in einem Unternehmen organisiert und aufgehängt sein, zum Beispiel um das Problem der Daten-Silos, was nach wie vor ein großes Thema in den Unternehmen ist, wirkungsvoll zu behandeln. In diesem Kontext gibt es dann verschiedene Rollen. Eine Rolle, die sehr wichtig ist, ist die des Data Owner. Der Data Owner ist für eine bestimmte Teilmenge der Daten im Unternehmen fachlich verantwortlich. Er definiert im Rahmen der unternehmensweiten Data Governance, wie die Datenqualitätsstandards aussehen und welche Kennzahlen und Rahmenbedingungen im Kontext dieser Daten zu berücksichtigen sind. Diese Data Owner helfen dabei, Daten zu demokratisieren, also wirklich in die Breite zu bringen.

Analytics ist für viele natürlich auch eine Know-how- und Kapazitätsfrage – vor allem für kleine und mittlere Unternehmen. Auf den meisten „großen" IoT-Plattformen gibt es diverse Analyse-Apps bzw. Analytics-Tools. Muss man da wirklich (noch) eigene Data-Science-Kapazitäten aufbauen und vorhalten? Denn mit diesen Tools lassen sich Auswertungen mit einem Mausklick generieren.

Hübner: Ich glaube, bis wir flächendeckend bei der Auswertung per Klick sind, wird es noch ein bisschen dauern. Vieles von dem, was ein Data Scientist heute "händisch" macht, wird in Zukunft automatisiert und seine Arbeit damit effizienter werden. Das heißt, man braucht im Unternehmen künftig weniger Data Scientists, aber dafür sehr gute. Denn diese Data Scientists müssen neben der methodischen und technologischen Kompetenz auch über Business-Kompetenz verfügen. Nur dann können sie den Apps oder Tools die richtigen Fragen stellen und erkennen, welche Art von Daten dafür benötigt werden. Sie müssen die Daten beschaffen und so aufbereiten, dass diese Tools damit arbeiten können. Und dann sind die Ergebnisse, die diese Tools liefern, wiederum zu interpretieren. Dafür muss man natürlich auch die Domain-Experten mit an Bord nehmen, die über den fachlichen Hintergrund verfügen. Die Automatisierung dieser Plattformen macht die Arbeit schneller und einfacher. Sie ersetzt aber nicht die Personen, die einen guten Mix mitbringen aus Methode, Technologie und Domain. Und das ist etwas, was für mich einen Data Scientist ausmacht. Daneben spielen natürlich klassische build-or-buy Entscheidungen eine wichtige Rolle, in denen IP (intellectual property) und Vendor-lock-in Aspekte zu berücksichtigen sind.

Mit Analytics lassen sich verschiedene Ziele verfolgen: So kann man die Prozesse im Unternehmen eigenen datenbasiert verbessern. Man kann aber auch neue datenbasierte Geschäftsmodelle entwickeln. „Die allzu verhaltene Nutzung von Daten bei der Entwicklung neuer Geschäftsmodelle ist kein technisches und kein organisatorisches Problem, sondern schlichtweg ein deutsches", ist Peter Küssner von Cubeware überzeugt. Steile These! Tut sich der deutsche Unternehmer wirklich so schwer bei der Generierung neuer, datengetriebener Geschäftsmodelle?

Hübner: Bei der Frage muss ich wirklich schmunzeln. Zum einen denke ich, kommt es auf die Rahmenbedingungen an. Und diese sind in Deutschland nicht immer optimal für neue, datengetriebene Geschäftsmodelle. Die Regulierung - zum Beispiel die DSGVO – setzt klare Grenzen. Wir sind aber davon überzeugt, dass der europäische Weg mit klaren ethischen Leitplanken der richtige und nachhaltige ist. Die Erfahrung, die wir gemacht haben, ist: Wenn sich die Unternehmen eine gute „Begleitung" suchen, dann schaffen sie es auch, neue Geschäftsmodelle zu entwickeln. Wenn man jedoch versucht, alles im stillen Kämmerlein auszutüfteln, tut man sich schwer. Der Austausch mit dem Rest der Welt – mit Beratern oder anderen Unternehmen – ist an dieser Stelle eminent wichtig. Und zwar nicht nur der Austausch im „nahen“ Spielfeld. Vielmehr sollte man sich auch über branchenübergreifende Geschäftsmodelle Gedanken machen. So könnte es durchaus zielführend sein, wenn ein Maschinenbauer z.B. mit einem Vertreter der Versicherungsbranche ins Gespräch kommt. Wenn man sich als Unternehmen solche Partner sucht und bereit ist, über den eigenen Tellerrand hinauszuschauen, dann kann es mit den neuen, datengetrieben Business Models klappen. Für ein typisch deutsches Problem wie Peter Küssner halte ich das nicht.

Im Maschinen- und Anlagenbau hat man Condition Monitoring und Predictive Maintenance als neue Business Models „entdeckt“ und immer mehr Unternehmen bieten diese Services an. Gibt es aus Sicht eines Datenexperten noch weitere datenbasierte Services, die sich im Industriebereich monetarisieren lassen?

Hübner: Selbstverständlich. Logistik, Demand Forecasting, aber auch Konstruktion und das Testen sind im Industriebereich durchaus Themen, an denen wir arbeiten. Ob sich das jeweils als „Produkt" monetarisieren lässt oder man damit eher interne Rationalisierungspotenzial hebt, muss man sehen.

Denkt man Big Data, ist natürlich KI nicht weit. Technologisch und wirtschaftlich gebe es keine Hindernisse, um KI sofort (!) in Unternehmen zu nutzen, meint man beim eco-Verband. Ist das so?

Hübner: Zum einen passiert das schon. Wenn man beispielsweise Anwendungen wie Excel 365 anschaut, so steckt dahinter bereits viel künstliche Intelligenz, ohne dass der Nutzer dies merkt. Zum anderen ist es Teil unseres Geschäftes, Unternehmen den zu Zugang zu KI zu eröffnen und KI auch anzuwenden. Wir sind dabei sehr erfolgreich. Allerdings macht man es sich zu einfach, wenn man denkt, man müsse lediglich ein Modell nehmen und irgendwelche Daten hineinwerfen, um zu mehrwertstiftenden Erkenntnissen zu kommen. Ich hoffe, dass diese Denkweise von einer realistischeren Sicht auf künstliche Intelligenz abgelöst wird. Im Bereich KI betreiben wir viel Aufklärungsarbeit. Wir sind Mitglied in der German Data Science Society, wo das Thema aktiv bearbeitet wird. Wir beschäftigen uns auch damit, wie man künstliche Intelligenz für die Menschen erklärbar, greifbar und interpretierbar macht. Über den KI-Bundesverband, den wir mitgegründet haben, sorgen wir zudem dafür, dass das Thema Künstliche Intelligenz nicht nur als Buzzword im Raum steht, sondern dass sich der „normale" Mensch mehr darunter vorstellen kann als einen Roboter, der als Terminator wütet.

Auf den meisten IIoT-Plattformen finden sich – neben den schon erwähnten Analysewerkzeugen - auch diverse Machine-Learning-Tools. Sie haben selbst einen ML & AI-Baukasten im Angebot mit fertigen Algorithmen für R, Python und TensorFlow. Was kann man damit machen?

Hübner: Wir sind keine Software-Company, sondern eine Data- und AI-Beratung, Wir entwickeln die Lösungen für unsere Kunden stets auf einer individuellen Ebene. Wir engagieren uns im Open-Source-Bereich, was das Thema „Machine-Learning-Infrastruktur“ angeht. Und wir haben natürlich auch die eine oder andere Komponente, die aus unseren Projekten stammt und die wir gelegentlich wiederverwenden. Bereiche, in denen wir herausragende Kompetenzen haben, zum Beispiel im Forecasting und Signal-Processing, werden wir zukünftig gezielt mit selbst entwickelten Produkten unterstützen. Doch anders als bei Plattformbetreibern wie AWS findet man bei uns bisher keine generischen Tools.

Auch der Einsatz von KI steht und fällt mit dem Datenmaterial über das man verfügt, und dessen Qualität. Schließlich müssen Algorithmen trainiert werden. Oft aber verhindern aber monopolistische Marktstrukturen die Datengewinnung bzw. -nutzung. Die „Datenstrategie“ der Bundesregierung soll die Datenbereitstellung verbessern und Datenzugang sichern. Ist dieser Ansatz der richtige?

Hübner: Der Ansatz ist sicher gut. Was man aber nicht vergessen sollte: Daten sind auch Intellectual Property, also geistiges Eigentum, und damit natürlich wertvoll für ein Unternehmen. Ein Unternehmen wird sich also gut überlegen müssen, ob es Daten auch jenseits der Unternehmensgrenzen demokratisiert. Genauso wie es sich überlegen muss, ob es Konstruktions- oder Businesspläne veröffentlichen möchte. Der zweite Aspekt ist in meinen Augen das Thema „Data Security“, was das Thema Datenschutz und das Thema Verschlüsselung angeht. Und da ist man tendenziell vorsichtiger als pro-aktiv innovativ. Das Thema Data Security hat schon so manche Initiative gestoppt, weil der Security Officer auf die Einhaltung der Richtlinien pocht. Wenn sich eine deutsche Datenstrategie so in die Legislative niederschlägt, dass dies zu mehr Rechtssicherheit beiträgt, dann ist es sicher eine gute Lösung.

Ein Konzept, für mehr „Datengerechtigkeit“ unter Wahrung der Datensouveränität zu schaffen, sind die International Data Spaces. Damit soll sicherer Datenraum geschaffen werden, der Unternehmen verschiedener Branchen und aller Größen die souveräne Bewirtschaftung ihrer Datengüter ermöglicht. Was sagt der Data Scientist dazu?

Hübner: Super, sehr wünschenswert. Wir haben Kunden durch alle Branchen, darunter DAX-Konzerne und Mittelständler. Da sehen wir natürlich immer wieder Möglichkeiten, mit Daten mehr zu machen, wenn sich diese Daten zwischen Unternehmen verbinden ließen. Wenn es Plattformen gibt, über die das auf sichere Weise und obendrein schnell möglich ist, ist das zu begrüßen. Vor allem wenn die „Time-to-Market“ eine hohe Relevanz besitzt, sind solche Lösungen absolut wünschenswert. Wir beobachten, dass sich immer mehr Unternehmen in diese Richtung öffnen, vor allem Unternehmen der Öffentlichen Hand. Ein gutes Beispiel dafür ist das Datenportal der Deutschen Bahn AG. Vereinzelt legen auch lokale Verkehrsverbünde ihre Daten offen. Und auch das Thema „Crowd Sourcing" geht ein Stück weit in diese Richtung. Unternehmen machen Projekte öffentlich, um so Menschen zu gewinnen, die Lösungen dafür anbieten können

Herr Hübner, wir danken Ihnen für das Gespräch.

Über die Alexander Thamm GmbH

Die Alexander Thamm GmbH ist eine Data-Science-Beratung. Das in München ansässige Unternehmen wurde 2012 vom Eigentümer Alexander Thamm gegründet und ist rein auf Analytics und Big Data spezialisiert. Die Data-Science-Beratung hilft ihren Kunden Wettbewerbsvorteile und Mehrwerte durch Analytics zu generieren. Dabei profitieren diese von effizienteren Prozessen und besseren Entscheidungen durch die Nutzung von Big Data. Die Data-Science-Projekte ermöglichen innovative Produkte und neue Geschäftsmodelle.

Die Wirksamkeit der Ideen von Alexander Thamm GmbH wurde in mehr als 50 Proof of Concepts unter Beweis gestellt. Außerdem hat man bereits über 600 Data- und AI-Projekte erfolgreich realisiert. Zu den Kunden gehören BMW, VW, Vodafone, Vorwerk, E.ON, aber auch mittelständische Unternehmen.

Die Data-Science-Beratung beschäftigt Mitarbeiter aus den Bereichen Statistik, Mathematik, Maschinenbau, Betriebs- und Volkswirtschaft sowie Informatik und verfügt deshalb über Expertise zur Lösungsfindung durch statistische Prognosen, Datenmodellierung und interaktive Visualisierung.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 46348825)