Suchen

Künstliche Intelligenz

IoT-Basics: Machine Learning in der Smart Factory

Seite: 2/6

Die Hinzunahme von Merkmal B wird in einem Streudiagramm (engl.: scatter plot) in Bild 5 gezeigt. Darin können Zonen und Grenzen für gut und schlecht identifiziert werden. Die Zone für gut ist grün hinterlegt, die für schlecht rot. Durch die Hinzunahme von Merkmal B ist es erstmals möglich, schlecht zu klassifizieren, wenn der Wert für A zwischen x und y sowie der Wert für B zwischen u und v liegt. Dennoch ist eine eindeutige Klassifikation zwischen gut und schlecht nicht für alle Datenpunkte mit den Merkmalen A und B möglich. Diese Datenpunkte sind im Streudiagramm grau hinterlegt.

Die erneute Hinzunahme weiterer Merkmale ist notwendig. In der Realität variiert die Anzahl der Merkmale stark in Abhängigkeit von der Datenqualität und der jeweiligen Aufgabe zwischen wenigen bis hunderten oder sogar tausenden Merkmalen. Hierfür können alle zur Verfügung stehenden Daten herangezogen werden, die mit dem Endprodukt in Verbindung stehen. Dies können z.B. die Werkstoffzusammensetzungen, die Werkstoffeigenschaften und die erfassten Prozessdaten aus vorherigen Produktionsschritten sein.

In Bild 6 ist eine exemplarische Datenbasis mit mehreren Merkmalen und den dazugehörigen Ergebnissen (Spalte «Gut?») mit gut und schlecht aufgeführt. Diese Datenbasis wird als Trainingsdaten bezeichnet, mit denen der Klassifikationsalgorithmus ein Modell für eine genauere Klassifikation lernt. Die Merkmale «A, B, C, …» sind die unabhängigen Variablen, und das Ergebnis Gut? ist die abhängige Zielvariable. Im maschinellen Lernen (Machine Learning) wird das Lernen von Modellen auf Grundlage von vorhandenem Wissen – das Wissen über das Endergebnis (Gut?) – als «Überwachtes Lernen» (engl. supervised learning) bezeichnet.

Entscheidungsbäume im Machine Learning

Es existiert eine große Menge von generischen Lernalgorithmen, die für verschiedene Klassifikationsaufgaben im Machine Learning unterschiedlich gut geeignet sind. Dazu zählen u.a. Entscheidungsbäume, Support Vector Machines, Neuronale Netze und Deep Learning. Wegen seiner Anschaulichkeit wird als nächstes Beispiel zur Klassifikation ein Entscheidungsbaum gewählt.

Ein Entscheidungsbaum stellt eine Lösung eines Entscheidungsproblems unter Berücksichtigung einer oder mehrerer Merkmale dar. Der Entscheidungsbaum besteht aus einem oder mehreren Knoten, in denen eine Entscheidung getroffen wird. Darüber hinaus besteht der Entscheidungsbaum aus mindestens zwei Blättern, die das Resultat einer Entscheidung repräsentieren. Kanten verknüpfen die Knoten und Blätter und stellen somit den Entscheidungsweg dar. Zur Verdeutlichung ist in Bild 7 ein Entscheidungsbaum mit nur einem Knoten abgebildet. In diesem Knoten wird entschieden, ob der Wert a1 für Merkmal A größer als der Wert y ist (Bild 7). Ist dies der Fall, wird die Kante mit Ja verfolgt, und der Entscheidungsweg endet an dem Blatt mit dem Wert gut, andernfalls bei dem mit dem Wert schlecht. Der Startknoten in einem Entscheidungsbaum wird auch als Wurzelknoten bezeichnet. (Bild 8)

Wie bereits festgestellt, ist die Klassifikation mit einem einzigen Merkmal nicht eindeutig genug. Die Genauigkeit (engl.: accuracy) könnte z.B. bei lediglich 55 % liegen, was nicht annähernd akzeptabel für einen produktiven Einsatz ist. Eine Genauigkeit von 50 % entspricht der Genauigkeit eines Klassifikators, der die Klasse rät. Die Hinzunahme weiterer Merkmale erhöht die Genauigkeit der Klassifikation und vergrößert den Entscheidungsbaum sowohl in der Tiefe als auch in der Breite – der Entscheidungsbaum wird komplexer, aber auch genauer auf den Trainingsdaten.

Dieses Prinzip wird beim Machine Learning so lange rekursiv wiederholt, bis der Entscheidungsbaum eine Genauigkeit von nahezu 100 % auf den Trainingsdaten erreicht. Datenwissenschaftlerinnen und -wissenschaftler nennen diesen Prozess das Trainieren von Modellen. Das Modell wird auf Basis der Trainingsdaten so lange trainiert, bis eine Genauigkeit von nahezu 100 % erreicht ist.Gleichzeitig besteht das Problem der Überanpassung (engl.: overfitting). Dies bedeutet, dass das Modell i.d.R. alle Daten aus dem Trainingsdatensatz korrekt nach gut und schlecht klassifiziert. Der Entscheidungsbaum ist dabei derart komplex geworden, dass für jede Beobachtung ein eigener Knoten entstanden ist. Primäres Ziel des Modelltrainings ist es, die den Daten zugrunde liegenden Muster auf Basis der Trainingsdaten zu lernen. Überanpassung wird in der Praxis durch eine Kontrolle der Modellkomplexität vermieden (Regularisierung).

Weiterführende Inhalte zu "Machine Learning"

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45204206)