SAP HANA Predictive Analysis Library & SAP Analytics Cloud (Teil 8)

Mit der im letzten Blogbeitrag vorgestellten Methode der Random Decision Trees der SAP HANA Predictive Analysis Library (PAL) können nicht nur Kreditrisiken, sondern prinzipiell auch zahlreiche weitere Sachverhalte modelliert und prognostiziert werden.

Dies gilt etwa auch in Bezug auf Kursrisiken, gesundheitliche Risiken, Katastrophenereignisse und Themen wie die Prognose von Betrugsfällen oder Materialschwächen. Im Kontext von Maschinenanlagen kann die letztgenannte Thematik als Teil technischer „Ausfallrisiken“ betrachtet werden, wobei mit diesen hier auf den unerwünschten Produktionsstopp durch den Ausfall von Maschinen(-bauteilen) verwiesen sei. Weitere Anwendungsgebiete sind darüber hinaus beispielsweise auch allgemein ohne unmittelbaren Risikobezug in Form von Marketing- oder HR-Prognosen bekannt.

Zur Betonung der generalistischen Nutzbarkeit der Methodik werden an dieser Stelle, auf den betrieblichen Alltag bezogen, die auszugsweisen Ergebnisse eines Predictive Maintenance-Beispiels betrachtet. Die konkrete Aufgabe bestand darin, für 2‘000 Maschinen anhand von erklärenden Variablen, wie etwa der ausgesetzten Prozesstemperatur, einen möglichen Ausfall vorherzusagen. Hierzu wurde das oben genannte und bereits zuvor vorgestellte Verfahren eingesetzt. Nun wird daher – nach einem kurzen isolierten Überblick zur vorhersagebezogenen Datenverarbeitung – auf eine mögliche Nutzung der Resultate eingegangen. Insgesamt wurde für die Generierung der Prognosen ein sehr einfaches, aber durchaus relevantes Beispiel vorbereitet. Dieses basiert auf der Nutzung der folgenden Komponenten:

Abbildung 1: Eigene Darstellung

Die aus dieser Struktur gewonnenen Ergebnisse werden in einer erweiterten SAP Analytics Cloud Story konsumiert, wie in der nachfolgenden Grafik zu erkennen. Neben dem vorhergesagten Ausfall aller angezeigten Maschinen wird auch die sogenannte Konfidenz der Prognose ersichtlich, die, vereinfacht ausgedrückt, modellbezogen bei insgesamt maximal eindeutiger Zuordnung einer Klassifikation – wie beispielsweise „Ausfall“ oder „Kein Ausfall“ – den Wert eins annimmt. Eine solche Vorhersage ist jedoch in aller Regel nicht immer perfekt, vielmehr unterliegt sie meist einem gewissen Einfluss, der nicht durch das Modell erklärt werden kann. Reale Werte können also abweichen.

Abbildung 2: Eigene Darstellung

Neben allen weiteren Möglichkeiten der Informationsaufbereitung und -visualisierung können sich zusätzliche Vorteile durch ein einheitliches Berichtsformat ergeben, das etwa direkt den Export als PDF-Datei oder die automatische Erstellung von Präsentationen begünstigt. Dies gilt auch hinsichtlich der geplanten und wiederkehrenden Veröffentlichung einer SAP Analytics Cloud Story per E-Mail-Option. In diesem Zusammenhang sollte jedoch gewährleistet sein, dass alle relevanten Daten auch Platz auf der Auswertung finden. Das in der Abbildung örtlich markierte Zentrum liegt zu Demonstrationszwecken übrigens auf dem „geografischen Mittelpunkt“ der Schweiz.

Zusammenfassend lässt sich festhalten: Stehen in der SAP HANA-Datenbank entsprechende Eingangsdaten, beispielsweise von Sensor-Schnittstellen, zur Verfügung, so ist ein nahtloses prädiktives Berichtswesen durch den kombinierten Einsatz der SAP Analytics Cloud und der SAP HANA-Technologie mittels einer oft schlanken Architektur möglich.

Somit werden zwei generell besonders wichtige Anliegen des modernen Risikomanagements unterstützt: die möglichst vorausschauende und performante Datenanalyse sowie die zielgerichtete Aufbereitung der Ergebnisse im Sinne des Transfers der zentralen Aussagen der erlangten Erkenntnisse. Abschliessend könnte die oben skizzierte Auswertung automatisch im Tagestakt per E-Mail an die verantwortlichen Shop Floor-Empfänger geschickt werden. Eine weitere sich aus diesen Informationen ergebende Fragestellung wäre zudem die optimale Route zur Wartung der Maschinen in Verbindung mit den genauen Ursachen und dem damit verbundenen Materialbedarf.

Methodisch betrachtet, können durch die weiteren abgedeckten Gebiete der PAL darüber hinaus insbesondere auch Risiken gruppiert werden. So ist es per Clusterbildung möglich, aus einer Datenmenge jene Gruppen zu erkennen und zusammenzufassen, die statistische Gemeinsamkeiten hinsichtlich ihrer Risikoeigenschaften aufweisen. Ferner ist dank verschiedener Funktionalitäten ebenfalls die Modellierung und Vorhersage von Datenpunkten im weiteren Sinne der Regression, wie auch die Zeitreihenanalyse beziehungsweise -prognose möglich. Zur Vorbereitung der jeweiligen Datengrundlage stehen vorweg zudem weitere Prozeduren bereit. Aber auch zahlreiche Komponenten der verbleibenden sechs Prozedur-Klassen der PAL können insbesondere das Analysieren, Aggregieren und Bewerten von Risiken direkt oder indirekt erleichtern.

Trotz aller Vereinfachungen eignet sich die Mehrheit der mit der Predictive Analysis Library verfügbaren Methoden vor allem für die sorgsame Implementierung durch den Data Science-Spezialisten. Jedoch bietet die SAP HANA-Technologie mit der im nächsten Blogbeitrag vorgestellten Automated Predictive Library zusätzliche Funktionalitäten, die durch einen höheren Grad an Automatisierung prädiktive Auswertungen ermöglichen. Wenn Sie mehr zu den hier vorgestellten Inhalten oder verwandten Themen wissen möchten, stehe ich Ihnen jederzeit gerne zur Verfügung.

Jared Hirschner, SAP Data Scientist, NTT DATA Business Solutions
E-Mail: [email protected]

Ist hiervon etwas für Sie besonders interessant oder haben sich Fragen aufgetan?

Dann nehmen Sie gern Kontakt mit uns auf!

JETZT KONTAKTIEREN