Suchen

Dieser Beitrag ist im Rahmen des Themenspecials "Industrie 4.0" erschienen.

sponsored by

Künstliche Intelligenz Datenanforderungen für KI-Einsatz in der Fertigung

| Autor / Redakteur: Joris Stork* / Ines Stotz

Kern der Algorithmen für Künstliche Intelligenz (KI) ist die Fähigkeit, komplexe Muster aus einer Datenprobe zu lernen. Wer KI in Betracht zieht, sollte dabei die Datenanforderungen von Beginn an verstehen.

Firmen zum Thema

KI ist in der Lage, ein Modell des Prozesses automatisch zu lernen – vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.
KI ist in der Lage, ein Modell des Prozesses automatisch zu lernen – vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.
(Bild: Data Prophet)

Im Fertigungskontext kann ein Beispiel für ein Muster die Art und Weise sein, in der sich ein in diesen Daten enthaltener Parametersatz, der sich auf einen Prozess in einer Fabrik bezieht, gemeinsam ändert. Der Algorithmus lernt die Muster, indem ihm viele Beispiele der fraglichen Parameterwerte gezeigt werden – typischerweise zwischen einigen Tausend und mehreren Millionen. Dieses Datenbeispiel ist eine Darstellung der Geschichte des Fabrikprozesses.

Wenn nun in der Probe ein Trend dahingehend besteht, dass beispielsweise jede Erhöhung der Prozesstemperatur um 1 °C mit einer Verkürzung der Prozesszeit um 10 s einhergeht, lernt die KI diesen offensichtlichen Zusammenhang zwischen die Temperatur- und Zeitparameter. Auf diese Weise lernt die KI effektiv ein Modell des Prozesses. Dies geschieht automatisch, vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.

Was sind die richtigen Daten für KI?

Was sind die „richtigen“ Daten für eine KI- (bzw. engl. Artificial Intelligence – AI-)fähige Prozessoptimierung? Die allgemeine Antwort ist: Der Datensatz, der ausreicht, um zu beschreiben, wie sich Änderungen an den Parametern eines Prozesses auf die Qualität auswirken.

Der Großteil der Prozessdaten kann im Allgemeinen als Tabelle oder als Sammlung von Tabellen mit Spalten (Parametern) und Zeilen (Produktionsbeispiele, die beispielsweise eine Produktionscharge pro Zeile darstellen) dargestellt werden. Um als Repräsentation eines Prozesses oder genauer der Historie eines Prozesses von Bedeutung zu sein, müssen diesen Tabellen einige erläuternde Informationen beigefügt werden.

Die wichtigsten Informationen

Zunächst sollte man sich die Arten der erforderlichen erläuternden Informationen ansehen, bevor man die Datenanforderungen in Bezug auf diese tabellarischen Spalten und Zeilen erläutert.

Die wichtigsten Informationen, die das Data Science-Team benötigt, sind:

  • Eine sehr genaue Beschreibung des physischen Prozesses.
  • Eine Beschreibung des Produktionsflusses durch den ganzen Prozess (normalerweise in Form eines Prozess-Flussdiagramms), inklusive der zeitlichen Abhängigkeiten und Verzögerungen zwischen den einzelnen Schritten.
  • Eine Beschreibung darüber wie die Datentabelle(n) mit dem Prozess zusammenhängen.

Einige dieser Beschreibungen können der verfügbaren technischen Dokumentation entnommen werden. In den meisten Fällen können jedoch die erforderlichen Erkenntnisse gewonnen werden, indem die Datentabellen mit Spezialisten aus der Fabrik oder der Prozessausrüstung durchgegangen werden.

Die Datenspalten müssen zunächst eine Darstellung des Qualitätsergebnisses enthalten. Es ist wichtig zu beachten, dass die Daten möglicherweise keine vollständige Darstellung der Qualitätsmessung in der Fabrik enthalten. Diese Lücken in den Daten sind häufig (z. B. Stichproben): In einigen Fällen können die verfügbaren Daten ausreichen, um dramatische Ergebnisse zu erzielen, wie in der folgenden Parameteroptimierung gezeigt.

Steuerbare und nicht steuerbare Prozessparameter

Der zweite Satz erforderlicher Datenspalten betrifft Prozessparameter. Diese lassen sich in zwei Typen unterteilen: steuerbare und nicht steuerbare Parameter.

  • Kontrollierbare Parameter sind die Hebel, die dem Werksbetreiber zur Verfügung stehen, um den Prozess zu verändern und damit die Qualität zu verbessern. Im Allgemeinen können dies steuerbare Aspekte der Prozesschemie, der Temperatur und der Zeit sein.
  • Nicht steuerbare Parameter stellen Eingaben in den Prozess dar, die vom Anlagenbediener nicht von Tag zu Tag gesteuert werden können, z. B. die Umgebungstemperatur, die Identität der Maschine (im Fall eines parallelen Prozesses) oder Eigenschaften des Eingabematerials.

Diese Parameterspalten sollten zusammen die Faktoren darstellen, die den größten Einfluss auf die Qualität haben.

Alle Datenpunkte im AI-Modell verfügbar machen

Aufgrund der Fähigkeit von AI-Modellen, komplexe Interaktionen in einer großen Anzahl von Variablen zu lernen, wird einem Hersteller empfohlen, alle verfügbaren Datenpunkte rund um den Prozess für die Aufnahme in das AI-Modell verfügbar zu machen. Die Kosten für die Aufnahme zusätzlicher Variablen sind gering.

Ein guter KI-Spezialist wird die erforderlichen statistischen Techniken anwenden, um zu bestimmen, ob die Variable in das endgültige Modell aufgenommen werden soll. Variablen, die zunächst als marginal betrachtet werden könnten, können zu einem KI-Modell beitragen, das Effekte und Interaktionen in dem Prozess nutzt, von denen die Spezialisten zuvor nichts gewusst hatten, was möglicherweise zu einem verbesserten Optimierungsergebnis führt.

Zeilenweise Datenanforderung

Wenden wir uns nun den zeilenweisen Datenanforderungen zu. Die allgemeine Regel lautet hier, dass die Daten repräsentativ für den Prozess und insbesondere für die Interaktionen sein müssen, die sich in Zukunft wahrscheinlich auf die Qualität auswirken werden.

Ein grundlegender Aspekt hierbei ist die Frage: Wie viele Zeilen, d. h. Produktionsbeispiele, ergeben einen ausreichenden Trainingssatz?

Die Antwort hängt von der Komplexität des Prozesses ab. Die Stichprobe muss diese Komplexität hinreichend abbilden. Im Herstellungskontext reicht die Untergrenze typischerweise von einigen hundert bis zu mehreren tausend historischen Beispielen. Das Trainieren eines Modells mit mehr Daten als unbedingt erforderlich erhöht jedoch in der Regel das Vertrauen und den Detaillierungsgrad des Modells, was wiederum das Optimierungsergebnis wahrscheinlich weiter verbessern wird.

Eine ausreichende Anzahl historischer Beispiele allein garantiert noch keine repräsentative Stichprobe. Die historischen Beispiele sollten auch zeitlich repräsentativ sein. Der Datensatz sollte ausreichend aktuell sein, um die wahrscheinlichen Betriebsbedingungen – wie Maschinenverschleiß – zum Zeitpunkt der Optimierung darzustellen.

In vielen Fällen sollten die Daten auch einen oder mehrere ausreichende Dauerbetriebszeiträume darstellen, da die KI auf diese Weise lernen kann, welche Betriebsbereiche aufrechterhalten werden können und wie sich die Auswirkungen eines Teils des Prozesses im Laufe der Zeit auf andere ausbreiten.

Konsistenz und kontinuierliche Datenverfügbarkeit

Damit kommen wir zur letzten Kennzahlenanforderung, nämlich Konsistenz und ständige Verfügbarkeit. Um das AI-Modell mit den Betriebsbedingungen in der Produktionslinie auf dem neuesten Stand zu halten, müssen neue Daten für die regelmäßige Umschulung des Modells verfügbar sein. Dies erfordert wiederum eine gewisse Integration in die Datenquelle. Im schlimmsten Fall kann dies einen kontinuierlichen Digitalisierungsprozess bedeuten, wenn das Aufzeichnungssystem offline ist, oder einen manuellen Export von Tabellendaten durch Fabriktechniker. Diese Ansätze sind relativ arbeitsintensiv und können Inkonsistenzen unterliegen.

Ein idealer Aufbau würde aus einem Live-Datenstrom vom Datenbus des Herstellers in einen dauerhaften Speicher bestehen, der für die Versorgung der AI-Trainings-Pipeline vorgesehen ist. Für einige Hersteller ist eine Mischung von Ansätzen angemessen, um mehrere Anlagen zu versorgen.

Die kontinuierliche Verfügbarkeit der Daten geht Hand in Hand mit der Forderung nach Datenkonsistenz. Dies lässt sich am besten an einem negativen Beispiel veranschaulichen, in dem eine Fabrik die Darstellung von Variablen in Datenexporten zeitweise ändert, z. B. ob ein Indikator mit drei Zuständen als Zahl {1, 2, 3} oder als Zeichenfolge {'rot', 'orange', 'grün'} dargestellt wird. Falls unentdeckt können solche Änderungen das Optimierungsmodell unbemerkt beschädigen und möglicherweise die Prozessqualität beeinträchtigen.

Die Digitalisierung und Automatisierung der Prozessdateninfrastruktur und der Datenexporte trägt wesentlich zur Behebung dieser Probleme bei. Unabhängig von der Dateninfrastruktur der Fabrik sollte eine gute KI-Datenaufnahme-Pipeline jedoch eine robuste Datenvalidierungsschicht aufweisen, um sicherzustellen, dass Inkonsistenzen gekennzeichnet und behoben werden.

Buchtipp

Das Fachbuch Data Analytics bietet nicht nur einen guten Überblick zu den in Produktion und Logistik anwendbaren Data Mining Algorithmen, sondern liefert auch konkrete Use Cases, die mit diesen Algorithmen erfolgreich umgesetzt werden können.

* Joris Stork, Senior Data Scientist, Data Prophet

(ID:46407682)