Suchen

Data Science

IoT-Basics: Die Technologie-Basis von Big Data

Seite: 5/5

Firma zum Thema

Data Lakes machen das klassische Data Warehouse Big-Data-fähig

Lange bevor Big Data zum Trendthema wurde, waren Data Warehousing und Data Mining das Mittel der Wahl, um unternehmensweit Daten aus verschiedensten Systemen zusammenzuführen und darauf Auswertungen zu machen. Ein Data Warehouse bietet eine integrierte Sicht der Daten, um darauf Analysen auszuführen. Die Daten werden typischerweise im Batchbetrieb zeit-oder ereignisgesteuert aus den verschiedensten Datenquellen kopiert und dann miteinander verknüpft.

Auf diesen Daten werden dann Aggregationen von betrieblichen Kennzahlen und Analysen mittels Data Mining ausgeführt. Data Mining basiert dabei auf ähnlichen statistischen Verfahren und mathematischen Modellen wie Machine Learning. Bei sehr großen und sich oft ändernden Datenmengen stießen diese Systeme in der Vergangenheit jedoch an ihre Grenzen, was letztendlich zu den bereits beschriebenen neuen technologischen Lösungen geführt hat. Für viele Anwendungsfälle, bei denen das Datenvolumen nicht zu groß oder die geforderte Aktualität nicht zu zeitnah ist, reichen diese klassischen Data-Warehouse-Ansätze aber vollkommen aus, und wo dies nicht der Fall ist, kann auch die Kombination mit zusätzlichen Data Lakes weiterhelfen.

Data Lakes sind riesige Datenspeicher für Unternehmensdaten, in denen strukturierte, unstrukturierte und semi-strukturierte Daten gleichzeitig abgelegt werden können, ohne dass zunächst klar wäre, was genau mit den Daten angefangen werden soll. Hadoop und HDFS sind gängige Technologien, um solche Data Lakes zu implementieren. Durch die geschickte Kombination von Data Lakes mit den Data-Warehouse-Konzepten kann die Effizienz solcher Lösungen gesteigert werden. Nur noch die für die bekannten Auswertungsmechanismen und Anwendungen benötigten Daten kommen in das teurere, aber robustere Data Warehouse. Die anderen noch unerschlossenen Rohdaten verbleiben im günstigen Massenspeicher des Data Lake, bis sich dafür eine Verwendung ergibt.

Dipl.-Inform. (FH) Klaus Hübschle studierte Informatik an der Fachhochschule Furtwangen und startete noch während des Studiums als Softwareentwickler bei der M&M Software GmbH. In seiner beruflichen Laufbahn hat er seitdem im Unternehmen leitende Rollen in zahlreichen Beratungs- und Softwareentwicklungsprojekten in verschiedensten Bereichen der Automatisierungstechnik ausgeübt. Als geschäftsführender Gesellschafter im Bereich Technik treibt er heute die Ausrichtung des Unternehmens auf die neuen Herausforderungen von Industrie 4.0 und Digitalisierung mit an und setzt Schwerpunkte mit den Themen Cloud-Computing, Big Data, Internet of Things und Assistenzsysteme.

Fachbuch „Industrie 4.0: Potenziale erkennen und umsetzen“ Dieser Beitrag stammt aus den dem Fachbuch „Industrie 4.0: Potenziale erkennen und umsetzen“ von Thomas Schulz (Hrsg.) Das Buch bietet dem Professional einen praxisorientierten und umfassenden Einblick in die Digitalisierung der Fertigung und der Produktion. Das Buch „Industrie 4.0“ kann hier versandkostenfrei oder als eBook bestellt werden.

Literatur/Quellen

[1] Leitfaden: Big-Data-Technologien – Wissen für Entscheider. Berlin: Bitkom e.V., 2014. https://www.bitkom.org/noindex/Publikationen/2014/Leitfaden/Big-Data-Technologien-Wissen-fuer-Entscheider/140228-Big-Data-Technologien-Wissen-fuer-Entscheider.pdf (abgerufen am 09.05.2017).

[2] DEAN, JEFFREY; GHEMAWAT, SANJAY: MapReduce: Simplified Data Processing on Large Clusters. Mountain View: Google Inc., 2004.https://static.googleusercontent.com/media/research.google.com/de//archive/mapreduce-osdi04.pdf (abgerufen am 09.05.2017).

[3] Welcome to Apache Hadoop! Delaware: Apache Software Foundation, 2017. http://hadoop.apache.org (abgerufen am 09.05.2017).

[4] Hortonworks Data Platform (HDP). Santa Clara: Hortonworks Inc. 2017. https://de.hortonworks.com/products/data-center/hdp (abgerufen am 09.05.2017).

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45181763)