Suchen

Grundlagen

IoT-Basics: Machine Learning in der Smart Factory

Seite: 3/6

Firma zum Thema

Für einen produktiven Einsatz sollte das Modell mit Daten validiert werden, die nicht Bestandteil der Trainingsdaten sind. In der Modellvalidierung werden Testdaten genutzt, deren Ergebnisse bekannt sind. Anschließend werden die Testdaten mit dem neuen Klassifikationsmodell getestet und mit den realen Ergebnissen verglichen (Bild 9).

Modellvalidierung: Ergebnisse richtig interpretieren

Bei der Modellvalidierung ist es nicht ausreichend, alleine die Genauigkeit zu betrachten. Eine Genauigkeit von 97 % erscheint auf den ersten Blick ein sehr gutes Resultat zu sein. Je nach zugrunde liegendem Vorgang kann dies jedoch ebenso gut sehr schlecht sein. Eine detaillierte Interpretation der Ergebnisse der Modellvalidierung ist unabdingbar, um bessere Aussagen über die Klassifikationsgüte treffen zu können. Hierfür werden vier neue Kategorien für die Bewertung der Klassifikationsgüte eingeführt:

  • Richtig positiv (engl.: true positives): Das Endprodukt entspricht den Qualitätsansprüchen, und das Klassifikationsmodell hat dies korrekt mit gut klassifiziert.
  • Richtig negativ (engl.: true negatives): Das Endprodukt entspricht nicht den Qualitätsansprüchen, und das Klassifikationsmodell hat dies korrekt mit schlecht klassifiziert.
  • Falsch positiv (engl.: false positives): Das Endprodukt entspricht nicht den Qualitätsansprüchen, aber das Klassifikationsmodell hat dies fälschlich mit gut klassifiziert.
  • Falsch negativ (engl.: false negatives): Das Endprodukt entspricht den Qualitätsansprüchen, aber das Klassifikationsmodell hat dies fälschlich mit schlecht klassifiziert.

Die vier Bewertungskategorien ermöglichen eine bessere Einsicht in die Klassifikationsgüte, um zu bestimmen, wie genau ein Klassifikationsmodell arbeitet. Diese vier Bewertungskategorien werden übersichtlich in einer Konfusionsmatrix (engl.: confusion matrix) in Bild 10 dargestellt. Die Konfusionsmatrix besteht aus den Spalten gut und schlecht, die das Klassifikationsmodell vorhersagt. Die Zeilen repräsentieren die tatsächlichen Werte für gut und schlecht, die in den Testdaten vorhanden sind. Die Zellen «richtig positiv» (RP) und «richtig negativ» (RN) geben die Anzahl der richtig vorhergesagten Gut- und Schlecht-Werte an. Die Zellen «falsch positiv» (FP) und «falsch negativ» (FN) geben die Anzahl der falsch vorhergesagten Gut- und Schlecht-Werte an.

Bildergalerie

Bildergalerie mit 18 Bildern

Werden RP und FN miteinander summiert, so ergibt die Summe die Anzahl der tatsächlich verfügbaren Gut-Werte in dem Testdatensatz. Gleiches gilt für FP und RN, und die Summe entspricht der Anzahl der Schlecht-Werte im Testdatensatz. Werden die Spalten summiert, so gibt die Summe von RP und FP die Anzahl der Gut-Werte, die das Klassifikationsmodell vorhergesagt hat, und die Summe von FNund RN die Anzahl der Schlecht-Werte, die ebenfalls von dem Klassifikationsmodell vorhergesagt wurden.

Mit Konfusionmatrizen arbeiten

In Bild 11 ist die Konfusionsmatrix für einen Testdatensatz mit 10 000 Einträgen (Anzahl insgesamt, total) abgebildet. Davon sind 6000 Einträge als gut gekennzeichnet und 4000 als schlecht. In der ersten Zeile sind alle 6000 (tatsächliche Anzahl gut) Einträge, die mit gut gekennzeichnet sind. Davon hat das Klassifikationsmodell 5500 korrekt mit gut klassifiziert (richtig positiv) und 500 fälschlich mit schlecht (falsch negativ). In der zweiten Zeile sind alle 4000 Einträge (tatsächliche Anzahl schlecht), die mit schlecht gekennzeichnet sind. Davon hat das Klassifikationsmodell 112 fälschlich mit gut klassifiziert (falsch positiv) und 3888 korrekt mit schlecht (richtig negativ). Auf Basis der Konfusionsmatrix können weitere Kennzahlen berechnet werden, die eine bessere

Beurteilung über die Klassifikationsgüte erlauben.

  • Treffergenauigkeit (engl.: accuracy): Wie oft lag die Klassifikation insgesamt richtig? (RP+RN) / total = (5500+3888) / 10000 = 0,9388 = 93,88 %
  • Klassifikationsfehler (engl.: misclassification rate): Wie oft lag die Klassifikation insgesamt falsch? (FP+FN) / total = (112+500) / 10000= = 0,0612 = 6,1 2%
  • Richtig-Positiv-Rate (engl.: true positive rate): Wie oft lag die Klassifikation richtig, wenn es tatsächlich gut war? RP / (RP+FN) = 5500 / (5500+500) = 0,9166 = 91,7 %
  • Falsch-Negativ-Rate (engl.: false negative rate): Wie oft lag die Klassifikation falsch, wenn es tatsächlich gut war? FN / (RP+FN) = 500 / (5500+500) = 0,0833 = 8,3 %
  • Richtig-Negativ-Rate (engl.: true negative rate): Wie oft lag die Klassifikation richtig, wenn es tatsächlich schlecht war? RN / (FP+RN) = 3888 / (112+3888) = 0,972 = 97,2 %
  • Falsch-Positiv-Rate (engl.: false positive rate): Wie oft lag die Klassifikation falsch, wenn es tatsächlich schlecht war? FP / (FP+RN) = 112 / (112+3888) = 0,028 = 2,8 %
  • Positiver Vorhersagewert (engl.: positive predictive value): Wenn die Klassifikation gut vorhersagte, wie oft lag die Klassifikation damit richtig? RP / (RP+FP) = 5500 / (5500+112) = 0,98 = 98 %
  • Negativer Vorhersagewert (engl.: negative predictive value): Wenn die Klassifikation schlecht vorhersagte, wie oft lag die Klassifikation damit richtig? RN / (FN+RN) = 3888 / (500+3888) = 0,89 = 89 %

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 45204206)