Analyse und Modellierung
Wie Daten sprechen lernen
Für jedes Unternehmen kann durch die Anwendung von Big Data-Technologien ein Nutzen erzielt werden. Hierzu gilt es die Daten beispielsweise aus der Produktion, die meist schon vorliegen, zu erfassen, zu analysieren und Modelle zu erzeugen, die zur Analyse der betrachteten technischen Produktionsprozesse und deren Verbesserung genutzt werden können. In der Novemberausgabe 2016 der IT&Production zeigte ein Fachbeitrag, wie die Datensätze zur Analyse aufzubereiten sind. In diesem zweiten Teil werden die Analyse und die Modellierung beschrieben.
Liegen kausalrichtige Datensätze vor, kann die eigentliche Analyse durchgeführt werden. Zur Analyse gibt es eine ganze Reihe statistischer Methoden, die Korrelationen auffinden und diese in Form von Modellen für die Optimierung des Prozesses nutzbar machen können. Der einfachste Weg zum Auffinden von Ursachen und Wirkungen in einem Prozess sind Korrelationsanalysen. Es empfiehlt sich in jedem Falle als ersten Schritt immer die Anwendung dieser Verfahren, um eine Orientierung zu erhalten, welche Variablen wichtig für einen Prozess sind und welche nicht. Die Korrelationsverfahren sind für die Beurteilung unbekannter Zusammenhänge sehr wichtig, sollten jedoch immer mit vorhandenem A-priori-Wissen über Prozesszusammenhänge kombiniert werden. Dieses Prozesswissen ist bei der Nutzung solcher Methoden wichtig, um sie mit Erfolg verwenden zu können. Zudem ist auch zu beachten, dass eine Korrelation keine Kausalität sein muss, jedoch auf eine solche hinweisen kann. Auch diese Beurteilung erfordert fundamentales Prozesswissen.
Korrelationen ermitteln
Im einfachsten Falle sind Korrelationen deutlich und linear; im komplexesten Falle sind sie nichtlinear und mehrdimensional. Die folgenden Methoden sind die typischen Verfahren zur Ermittlung von Korrelationen und gehen von sehr einfachen Verfahren bis zu den komplexesten Verfahren, die erst in den letzten Jahren entwickelt wurden. In einem zweidimensionalen Koordinatensystem werden die Daten entsprechend zweier, in der Regel stetig verteilter zu korrelierender Merkmale aufgetragen (Bild oben). Dieser Diagrammtyp ist nicht gut für die Darstellung von diskreten Daten geeignet, da die sich ergebende Überlagerung der Punkte die Interpretation erschwert. Durch farbliche Codierung oder Symbole kann eine weitere Dimension in das Diagramm eingebracht werden. Das ist dann in der Regel ein diskretes Merkmal, zum Beispiel der Lieferant eines Rohstoffs. Das menschliche Auge erkennt in solchen Diagrammen sehr schnell auch nichtlineare Zusammenhänge, die bei der linearen Korrelationsanalyse nicht erkannt werden. In der Datenanalyse entlang einer gesamten Produktionskette tritt immer wieder der Fall auf, dass man sehr viele Variablen hat und die Zahl der Fälle vergleichsweise gering ist.
Die Diskriminanzanalyse
In diesem Stadium der Analyse ist eine Vorauswahl der signifikanten Variablen mithilfe einer Diskriminanzanalyse sinnvoll. Hierzu ist die Einteilung der Zielgröße in verschiedene Klassen notwendig. Oftmals bietet sich die Einteilung in oder außerhalb der Spezifikation an. Hierbei ist bei gut geführten Prozessen darauf zu achten, dass beide Gruppen für die Analyse ausreichend viele Fälle aufweisen. Selbst gewählte Einteilungen wie 'gut', 'sehr gut', 'schlecht' legen die Basis für eine erfolgreiche Analyse. Die Diskriminenzanalyse sucht nach einer Linearkombination von Variablen, die eine möglichst gute Trennung der Gruppen erlauben. Darstellen lassen sich die Trennungen mithilfe von kategorisierten Streudiagrammen, bei denen die einzelnen Fälle farblich sichtbar werden, und mithilfe von Parallelkoordinaten. Auch Entscheidungsbäume mit den automatisch gewählten Variablen helfen beim Prozessverständnis und bei der weiteren Analyse. Ebenso können hier Assoziations- und Abweichungsanalyse-Methoden helfen, um wichtige Einflussgrößen zu analysieren, und Zusammenhänge in charakteristischen Subgruppen zu identifizieren. Im Bild auf der rechten Seite wurde eine Analyse eines dreistufigen Produktionsprozesses mit mehr als 100 Prozessparametern untersucht. Die Diskriminanzanalyse ergab eine signifikante Trennung von 'sehr guten' und 'guten' Anwendungstests von einer Gruppe eher 'schlechter' Anwendungstest. Aufbauend auf diesen Erkenntnissen konnte dann der Prozess weiter analysiert werden und ähnliche Variablen für die Beschreibung des Ergebnisses des Anwendungstests gefunden werden. Zur einfachen ersten Visualisierung der Zusammenhänge zwischen mehreren Variablen in Prozessen kann es hilfreich sein, die Datensätze in einem Parallelkoordinatensystem zu visualisieren. Insbesondere, wenn es einfache Zusammenhänge gibt und wenige Datensätze gegeben sind, kann diese Analysemethode sehr schnell hilfreich sein. Ebenso gibt sie eine erste Orientierung über Zusammenhänge. Durch Färbung (Schichtung) verschiedener Produkttypen, Ausbeuten oder Betriebszustände lassen sich sofort einfache Zusammenhänge erkennen, die in Betriebsanweisungen umgesetzt werden können. Entscheidungsbäume sind eine Methode zur formalen Darstellung von Entscheidungsproblemen und Regeln zu deren Lösung. Werden sie aus Datensätzen automatisch generiert, können sie Daten in formale Entscheidungen umwandeln und diese verdeutlichen.
Knoten und logische Regeln
Ein Entscheidungsbaum hat immer einen Wurzelknoten und einen bis mehrere innere Knoten sowie mindestens zwei Blätter. Jeder Knoten repräsentiert eine logische Regel und jedes Blatt steht für eine Antwort auf das Entscheidungsproblem. Entscheidungsbäume sind die logische Folge einer Prozessanalyse mit Parallelkoordinaten, in dem sie daraus logische Entscheidungsdiagramme generieren. Daraus folgt, dass diese Algorithmen nur dann erfolgreich eingesetzt werden, wenn die Resultate der Prozessanalyse mit Parallelkoordinaten eindeutig ausfallen. Die Komplexität der Regeln ist bei Entscheidungsbäumen unbeschränkt. Bei binären Entscheidungsbäumen kann jede Regel nur einen von zwei Werte annehmen. Alle Entscheidungsbäume lassen sich immer in binäre Entscheidungsbäume überführen. Entscheidungsbäume können entweder von Experten manuell erstellt oder mithilfe von Techniken des maschinellen Lernens automatisch aus Beispieldatensätzen generiert werden. Für diese Induktion gibt es mehrere konkurrierende Algorithmen. Stark miteinander korrelierende Eingangsvariablen können redundante Informationen enthalten, das heißt eine der beiden Variablen wäre dann zweckmäßigerweise von der weiteren Datenanalyse auszunehmen. Im Extremfall - bei exakter Übereinstimmung - ist schließlich gar nicht erkennbar, welche der beiden variablen Ursache für eine gemachte Beobachtung ist und eine gemeinsame Analyse damit zwecklos ist. Sollen stark korrelierende Eingangsmerkmale untersucht werden, kann die Korrelation durch Berechnungen wie das Verhältnis oder die Differenz der Variablen aufgehoben und die Datenanalyse so erleichtert werden. Das statistische Maß der Korrelation ist nicht eindeutig interpretierbar, weil es linear und eindimensional ist und somit nur einen sehr begrenzten Einblick in tatsächliche Zusammenhänge ermöglicht, die ja zum Beispiel nichtlinear sein können. Es gibt aber gute erste Hinweise auf bestehende Zusammenhänge. Gibt es eine hohe Korrelation zwischen Ein- und Ausgängen, ist es eventuell sinnvoll, die Differenz zwischen der Zielgröße und dem Vielfachen der Einflussgröße zu modellieren. Mittels der Assoziationsanalyse kann das gemeinsame häufige Vorkommen kategorialer oder binärer Variablen untersucht werden. Dazu eignen sich grundsätzlich einfache Verfahren wie Assoziationsregeln, die ausgehend von einer Kombination von binären (beschreibenden) Variablen eine Kombination von Zielvariablen mit einem vorgegeben Mindestsupport und einer gewissen Konfidenz vorhersagen. Dabei ist die Konfidenz durch den relativen Anteil der Zielvariablen in der Subgruppe der Datenmenge gegeben, der Mindestsupport durch deren Größe, die durch die beschreibenden Variablen definiert wird. Im Vergleich zu Assoziationsregeln ist die Subgruppenentdeckung eine mächtigere Methode, um auch mit analogen Variablen, also kontinuierlichen Messgrößen umgehen zu können. Bei der Subgruppenentdeckung geht es darum, möglichst interessante Subgruppen hinsichtlich eines bestimmten Zielkonzepts zu identifizieren, beispielsweise für eine analoge Messgröße Ausschussrate als Zielvariable. Grundsätzlich wird meist auf möglichst große Subgruppen mit einer möglichst hohen Abweichung dieser Zielvariablen im Vergleich zur Gesamtdatenmenge abgezielt. Im binären Fall wird der Anteil der Zielvariablen in der Subgruppe betrachtet, die durch die beschreibenden Variablen (zum Beispiel Parameter Druck und Temperatur) gegeben ist. Diese Beschreibung kann als Kondition einer Regel aufgefasst werden, die Konklusion der Regel als das Zielkonzept.
Komplexe Zusammenhänge
Die Interessantheit wird durch eine Qualitätsfunktion definiert. Bei analogen Zielgrößen kann hier einfach der Durchschnitt über die Datenmenge der Subgruppe gebildet werden, um möglichst auffällige Subgruppen zu identifizieren. Assoziations- und Abweichungsanalyse kann damit als eine Technik zur initialen Untersuchung komplexerer Zusammenhänge dienen. Diese werden als leicht interpretierbare Regeln präsentiert. Im Vergleich zu Entscheidungsbäumen werden diskriminierende Regeln für ein Zielkonzept bestimmt, die lokal für sich stehen, und auch losgelöst von den anderen Regeln betrachtet werden können. Damit liegt der Vorteil der Subgruppenentdeckung auch darin, komplexe Probleme einer übersichtlichen Menge von Subgruppen abzubilden, die verständlich sind, um Prozesskenntnis generieren. Subgruppenentdeckung lässt sich beispielsweise auch als statistischer Plausibilitätsfilter nutzen, um lokale Abweichungen zu entdecken. Eine wichtige Anwendung in technischen Produktionsprozessen ist beispielsweise auch die Fehleranalyse, in der Einflussgrößen für Zielvariablen wie Ausschuss- oder Reparaturrate mittels Subgruppenentdeckung analysiert werden. Die Hauptkomponentenanalyse (PCA) ist ein mathematisches Verfahren der multivariaten Statistik, bei dem vieldimensionale Daten in einem gedachten Koordinatensystem so gedreht werden, dass für jede Achse eine möglichst hohe Varianz erreicht wird. Nach dieser Rotation entsprechen die Achsen nicht mehr bestimmten physikalischen Größen, sondern jeweils einer Linearkombination mehrerer Variablen. Die Linearkombinationen mit der höchsten Varianz werden als Hauptkomponenten bezeichnet.
Variablen reduzieren
Durch die PCA kann die Zahl von Variablen reduziert werden, weil eine geringe Anzahl von Komponenten meist ausreicht, um die vieldimensionalen Daten mit ihrer gesamten Varianz abzubilden. Das Ergebnis einer PCA ist nicht immer klar interpretierbar. Wenn physikalisch ähnliche oder miteinander zusammenhängende Größen zu einer Hauptkomponente beitragen, kann man diese mit einem sprechenden Namen bezeichnen (zum Beispiel 'Größe', wenn die variablen Länge, Breite und Höhe eines Werkstücks am meisten zu einer Komponente beitragen). Kann eine solche Bezeichnung nicht gefunden werden, bleibt die Komponente abstrakt und die Interpretation sowohl der PCA an sich, als auch eventuell nachfolgender Datenanalysen ist erschwert. Mutual Information (auch Transinformation, Synentropie oder gegenseitige Information) ist eine Größe aus der Informationstheorie, die im Zusammenhang von Big-Data-Projekten angibt, wie viel Information eine (Eingangs-)Variable über eine andere (Ausgangs-) Variable enthält. Sie ist maximal, wenn eine der Variablen sich aus der jeweils anderen berechnen lässt. Sie ist minimal, wenn die untersuchten Variablen statistisch unabhängig sind. Bei einer Mutual-Information-Analyse wird zunächst die wichtigste Eingangsvariable für die Zielgröße ermittelt, das heißt die Variable mit dem größten Informationsgehalt über die Zielgröße. Für das dann noch fehlende Maß an Information wird wiederum die wichtigste Eingangsvariable gesucht und so weiter, bis ein möglichst großer Anteil der notwendigen Information vorliegt, um die Zielgröße zu bestimmen. Auf diese Weise werden die wichtigsten Variablen für die weitere Datenanalyse ermittelt. Der Begriff Entropie aus der shannonschen Theorie ist eine Maßzahl für die Informationsdichte oder den Informationsgehalt von zu untersuchenden Datenreihen. Die Informationsdichte berechnet sich aus der Wahrscheinlichkeitsverteilung. Eine maximale Entropie zeichnet sich durch eine gleichmäßige Verteilung einer Datenfolge über den Wertebereich aus. Die Daten sind maximal chaotisch und zufällig, da sie sich über den ganzen Werteraum verteilen und sich nicht auf einen Datenpunkt konzentrieren. Datenfolgen mit einer maximalen Entropie lassen sich nicht verdichten oder komprimieren, da zur Datenverdichtung immer Redundanzen notwendig sind. Die Entropieanalyse ermittelt im ersten Schritt den Informationsgehalt einer einzelnen Datenspalte. Dieser ist am geringsten, wenn die Datenspalte eine Konstante enthält, und maximal, wenn die Daten gleichverteilt sind. Mit einer Entropieanalyse können irrelevante Variablen identifiziert und entfernt werden.
Verbundentropie
Im zweiten Schritt kann mit diesem Verfahren die sogenannte Verbundentropie berechnet werden, die einem nicht linearen Korrelationsmaß ähnelt. Die Verbundentropie H(x,y) zweier Größen x und y definiert den Erwartungswert der (abhängigen) Informationsgehalte beider Vektorräume x und y. Durch die Verwendung der bedingten Entropie in der Verbundentropie ermöglicht die Verbundentropie eine Aussage über die Abhängigkeit von x und y. In der Praxis berechnet sich die Verbundentropie über die Wahrscheinlichkeit des Auftretens eines Musters in x mit dem eines anderen Musters vom y. Somit stellt die Verbundentropie eine völlig neue Größe dar, die von der Wahrscheinlichkeitstheorie nicht geliefert wird. Das Problem ist, dass die Verbundentropie einheitenlos ist und die Größenordnung sehr stark von den Wertebereichen der untersuchten Variablen abhängt. Ein Lösungsansatz besteht darin, dass die größte Verbundentropie auf 1 normiert wird und die kleinste auf 0. Dann kann die relative Verbundentropie ähnlich ausgewertet werden wie ein Korrelationskoeffizient. Die Verbundentropie wirkt auf den ersten Blick wie ein nichtlinearer Korrelationskoeffizient, berücksichtigt aber die zusätzliche Tatsache, dass die Güte einer Korrelation auch von anderen Größen abhängen kann.
Modellierungsverfahren
Datengetriebene Modellierungsverfahren dienen der Erstellung von Modellen, die funktionelle Zusammenhänge aus Datensätzen erzeugen. Aus einer Zeitreihe der voneinander abhängigen Größen x und y wird also beispielsweise eine Funktion y = f(x) abgeleitet. In der Six-Sigma-Terminologie wird diese Funktion als Transferfunktion bezeichnet. Ist eine solche Funktion verfügbar, kann diese untersucht werden und als Modell eines technischen Verfahrens verwendet werden. Die Modellierungsverfahren unterscheiden sich vor allem in folgenden Punkten voneinander und sind dem Problem angepasst auszuwählen:
- • Linearität oder Nicht-Linearität
- • Anzahl der Koeffizienten
- • Dimensionalität
- • Verteilung der Information in Funktionsknoten versus einheitliche Funktionen
- • Möglichkeit der geschlossenen Lösbarkeit und Differenzierbarkeit
- • Anzahl der Datensätze, die zur Erstellung einer Funktion notwendig sind
- • Verfahren zur Anpassung der Funktion an die Datensätze
Dabei gilt: Der einfachste Ansatz mit hinreichender Genauigkeit ist der beste Ansatz. Der verbleibende Fehler einer Modellbildung auf Basis von Datensätzen wird 'Residuen' genannt und lässt Aussagen über die Genauigkeit von Datensätzen zu. Der Mittelwert der Residuen liefert ein wichtiges Beurteilungskriterium der Güte der Funktion und ihrer Anpassung an die Datensätze. Einzelne Residuen geben eine Information über die Messgenauigkeit und das Rauschen in den Messwerten. Wenn die Daten einen systematischen Fehler aufweisen, wird natürlich auch die Funktion verfälscht.
Für jedes Unternehmen kann durch die Anwendung von Big Data-Technologien ein Nutzen erzielt werden. Hierzu gilt es die Daten beispielsweise aus der Produktion, die meist schon vorliegen, zu erfassen, zu analysieren und Modelle zu erzeugen, die zur Analyse der betrachteten technischen Produktionsprozesse und deren Verbesserung genutzt werden können. In der Novemberausgabe 2016 der IT&Production zeigte ein Fachbeitrag, wie die Datensätze zur Analyse aufzubereiten sind. In diesem zweiten Teil werden die Analyse und die Modellierung beschrieben.
Liegen kausalrichtige Datensätze vor, kann die eigentliche Analyse durchgeführt werden. Zur Analyse gibt es eine ganze Reihe statistischer Methoden, die Korrelationen auffinden und diese in Form von Modellen für die Optimierung des Prozesses nutzbar machen können. Der einfachste Weg zum Auffinden von Ursachen und Wirkungen in einem Prozess sind Korrelationsanalysen. Es empfiehlt sich in jedem Falle als ersten Schritt immer die Anwendung dieser Verfahren, um eine Orientierung zu erhalten, welche Variablen wichtig für einen Prozess sind und welche nicht. Die Korrelationsverfahren sind für die Beurteilung unbekannter Zusammenhänge sehr wichtig, sollten jedoch immer mit vorhandenem A-priori-Wissen über Prozesszusammenhänge kombiniert werden. Dieses Prozesswissen ist bei der Nutzung solcher Methoden wichtig, um sie mit Erfolg verwenden zu können. Zudem ist auch zu beachten, dass eine Korrelation keine Kausalität sein muss, jedoch auf eine solche hinweisen kann. Auch diese Beurteilung erfordert fundamentales Prozesswissen.
VDI Verein Deutscher Ingenieure e.V.
Dieser Artikel erschien in IT&Production Februar 2017 - 06.02.17.Für weitere Artikel besuchen Sie www.it-production.com