Blogreihe: Data Science mit SAP
Jared Hirschner | Juni 20, 2024 | 7 min

HANA Machine Learning

In den letzten Blogbeiträgen haben wir Prognoseszenarien und anderweitig bereitgestellte Vorhersageverfahren der SAP Analytics Cloud behandelt, wie etwa die lineare Regression, die exponentielle Glättung und die automatische Prognose. Zudem haben wir die möglichen Anwendungen der Programmiersprache R betrachtet.

In diesem Beitrag werden überblicksartig die vielfältigen Möglichkeiten der SAP HANA-Technologie in Bezug auf maschinelles Lernen (ML) vorgestellt. Zentral sind hierbei die Predictive Analysis Library (PAL) sowie die Automated Predictive Library (APL).

Überblick

Seit langem ermöglicht die SAP HANA-Technologie eine performante Datenverarbeitung in zahlreichen Unternehmen. Trotz der hohen Verbreitung ist jedoch oftmals nicht bekannt, welch vielfältigen Kapazitäten mit ihr für die prädiktive Datenanalyse und damit z. B. auch für das Risikomanagement verfügbar sind. Auf diese Möglichkeiten verweist die folgende Abbildung, die wesentliche Komponenten im Kontext von maschinellem Lernen (ML) darstellt. So finden sich serverseitig eingebettete Bibliotheken wie auch Möglichkeiten zur Integration verbreiteter Machine Learning-Technologien. Client-seitig werden zudem APIs zur Ansprache der verschiedenen Funktionalitäten angeboten. Hier gelangen Sie zur SAP HANA Machine Learning Overview.

Von diesen Elementen werden in diesem Blog einige besonders relevante vorgestellt. Trotz der umfangreichen Abbildung fällt schon jetzt auf: R erscheint mehrfach. Weiterhin ist zudem die Anbindung externer Server möglich. Hierzu gehören insbesondere auch R-Server. Besonders hervorzuheben ist ferner die Möglichkeit, das TensorFlow-Framework auf einem externen Server einzubeziehen. Dieses wurde von Google entwickelt und ermöglicht beziehungsweise fördert rechenintensive Operationen, insbesondere im Zusammenhang mit neuronalen Netzen.

Nachdem R nunmehr schon umfangreich behandelt wurde, liegt der Fokus von jetzt an primär auf der Programmiersprache Python, die ähnlich wie R eine dominierende Data Science-Rolle einnimmt. Mit ihr kann ebenfalls auf die sogenannte Predictive Analysis Library (PAL) der SAP HANA zugegriffen werden. Diese Bibliothek zielt auf 10 unterschiedliche Aufgabenklassen: Clustering, Classification, Regression, Association, Time Series, Preprocessing, Statistics, Social Network Analysis, Recommender System und Miscellaneous. Innerhalb dieser Gruppen sind wiederum verschiedene Funktionen enthalten. Insgesamt ergibt sich hierdurch eine breite Auswahl an Verfahren, die nicht zuletzt für die Beschreibung und Vorhersage von Risiken eingesetzt werden können.

Beispielhaft wird an dieser Stelle die Methode der Random Decision Trees aus der Gruppe der Klassifikationsverfahren vorgestellt. Diese kann unter anderem für die Kategorisierung von Kreditrisiken eingesetzt werden. Aber zunächst einmal soll die Frage geklärt werden: Was ist die Grundidee dieser Methode?

Wie der Name vermuten lässt, finden Entscheidungsbäume Anwendung. Diese bestehen, vereinfacht ausgedrückt, aus Entscheidungslogiken bzw. Entscheidungsknoten und den daraus resultierenden Blättern. So könnte eine erste Aufgabe darin bestehen, anhand des Immobilieneigentums (Knoten) eines Kreditnehmers auf dessen Risikoklasse (resultierendes Blatt) zu schliessen. Hat dieser beispielsweise ein eigenes Haus, so sei er der Risikoklasse A zugeordnet, die mit einem geringeren Ausfallrisiko als die verbleibende B-Kategorie verbunden ist. Grafisch kann dies wie folgt dargestellt werden:

In dem verwendeten Modell finden jedoch in aller Regel wesentlich grössere Entscheidungsbäume Verwendung, die aus zahlreichen derartigen Verzweigungen bestehen. Die gewachsenen Bäume können ebenfalls mit weiteren kombiniert werden, um stabilere Prognosen zu erhalten. Denn auch verzerrte Vorhersagen stellen ein Risiko dar. Das Prinzip findet sich in einfacher Form auch im Alltag. So erkundigen sich Konsumenten mitunter bei mehreren sozialen Kontakten, statt nur bei einer Person nach einem Produkt, bevor sie dieses erwerben. Hierdurch kann ein ausgewogeneres Bild erlangt werden. Eine einzelne Meinung könnte demgegenüber besonders extrem sein. Abstimmungen folgen typischerweise ähnlichen Bemühungen. Übertragen auf den vorliegenden Kontext wird ein stabileres Vorhersageergebnis erlangt, da verschiedene Entscheidungsbäume kombiniert werden. So entscheidet bei kategorialen Daten die Mehrheit der Bäume über die endgültige Klassifikation.

Sinnvoll wird dieses Vorgehen jedoch erst durch weitere Komponenten, die schon zuvor die Bedingungen für stabilere Ergebnisse schaffen. So werden einerseits zufällig Beobachtungen gezogen und dem Modell zum Training zur Verfügung stellt. Zusätzlich werden die zur Erklärung betrachteten Merkmale unter Zufallseinfluss ausgewählt. Hierdurch kann also beispielsweise einmal die Höhe des Einkommens unter allen verfügbaren erklärenden Variablen selektiert werden, während in einem anderen einstufigen Baum, der auf den gleichen Daten basiert, die Anzahl der Zahlungsausfälle zur Klassifikation herangezogen wird. Dies sorgt zusammen mit der zufälligen Auswahl der Trainingsdaten dafür, dass Bäume nicht immer gleich erzeugt werden. Andernfalls wäre eine abschliessende Kombination der Entscheidungsbäume nicht zielführend, da auch gewichtet nur die immer gleiche Baumstruktur betrachtet wird.

Predictive Analysis Library (PAL)

Mit der im letzten Blogbeitrag vorgestellten Methode der Random Decision Trees der SAP HANA Predictive Analysis Library (PAL) können nicht nur Kreditrisiken, sondern prinzipiell auch zahlreiche weitere Sachverhalte modelliert und prognostiziert werden. Dies gilt etwa auch in Bezug auf Kursrisiken, gesundheitliche Risiken, Katastrophenereignisse und Themen wie die Erkennung von Betrugsfällen oder Materialschwächen. Im Kontext von Maschinenanlagen kann die letztgenannte Thematik als Teil technischer «Ausfallrisiken» betrachtet werden, wobei mit diesen hier gerade auf den unerwünschten Produktionsstopp durch den Ausfall von Maschinen(-Bauteilen) verwiesen sei. Weitere allgemeine Anwendungsgebiete sind darüber hinaus auch in Form von Marketing- oder HR-Analysen bekannt.

Predictive Maintenance

Zur Betonung der generalistischen Nutzbarkeit der PAL-Methodiken werden an dieser Stelle die auszugsweisen Ergebnisse eines Predictive Maintenance-Beispiels betrachtet. Hierbei bestand die konkrete Aufgabe darin, für 2‘000 Maschinen anhand von erklärenden Variablen, wie etwa der ausgesetzten Prozesstemperatur, einen möglichen technischen Ausfall vorherzusagen. Hierzu wurde das oben genannte und bereits zuvor vorgestellte Verfahren der Random Decision Trees eingesetzt. Nun wird daher – nach einem kurzen isolierten Überblick zur vorhersagebezogenen Datenverarbeitung – auf eine mögliche Nutzung der Resultate eingegangen. Insgesamt wurde für die Generierung von Prognosen eine sehr einfache, aber durchaus relevante Beispielarchitektur herangezogen. Diese basiert auf der Nutzung der folgenden Komponenten:

Die aus dieser Struktur gewonnenen Ergebnisse werden in einer erweiterten SAP Analytics Cloud Story konsumiert, wie in der nachfolgenden Grafik zu erkennen ist. Neben dem vorhergesagten Ausfall aller angezeigten Maschinen wird auch die sogenannte Konfidenz der Prognose ersichtlich, die, vereinfacht ausgedrückt, über alle Bäume hinweg bei insgesamt maximal eindeutiger Zuordnung einer Klassifikation – wie beispielsweise «Ausfall» oder «Kein Ausfall» – den Wert eins annimmt. Eine solche Vorhersage ist jedoch selbst bei einem Wert von eins in aller Regel nicht perfekt, vielmehr unterliegt sie einem gewissen Einfluss, der nicht durch das Modell erklärt werden kann. Reale Werte können also letztendlich abweichen.

Neben allen weiteren Aspekten der SAC-gestützten Informationsaufbereitung und -visualisierung können sich für unsere Zwecke zusätzliche Vorteile durch ein einheitliches Berichtsformat ergeben, das etwa direkt den Export als PDF-Datei oder die automatische Erstellung von Präsentationen ermöglicht. Dies gilt auch hinsichtlich der geplanten und wiederkehrenden Veröffentlichung einer SAP Analytics Cloud Story per E-Mail. In diesem Zusammenhang sollte jedoch gewährleistet sein, dass alle relevanten Daten auch Platz auf der Auswertungsseite finden. Das in der Abbildung örtlich markierte Zentrum liegt zu Demonstrationszwecken lediglich auf dem «geografischen Mittelpunkt» der Schweiz.

Zusammenfassend lässt sich festhalten: Stehen in der SAP HANA-Datenbank entsprechende Eingangsdaten, beispielsweise von Sensor-Schnittstellen, zur Verfügung, so ist ein nahtloses prädiktives Berichtswesen durch den kombinierten Einsatz der SAP Analytics Cloud und der SAP HANA-Technologie mittels einer oft schlanken Architektur möglich.

Somit werden zwei besonders wichtige Anliegen des modernen Risikomanagements unterstützt: die möglichst vorausschauende und performante Datenanalyse sowie die zielgerichtete Aufbereitung der Ergebnisse im Sinne des effektiven Transfers der erlangten Erkenntnisse. Abschliessend könnte die oben skizzierte Auswertung automatisch im Tagestakt per E-Mail an die verantwortlichen Shop Floor-Empfänger geschickt werden. Eine weitere, sich aus diesen Informationen ergebende Fragestellung wäre zudem die optimale Route zur Wartung der Maschinen in Verbindung mit den genauen Ursachen und dem damit verbundenen Materialbedarf.

Methodisch betrachtet können durch die weiteren Kapazitäten der PAL darüber hinaus insbesondere auch Risiken gruppiert werden. So ist es per Clusterbildung möglich, aus einer Datenmenge jene Gruppen zu erkennen und zusammenzufassen, die statistische Gemeinsamkeiten hinsichtlich ihrer Risikoeigenschaften aufweisen. Ferner ist dank verschiedener Funktionalitäten ebenfalls die Modellierung und Vorhersage von Datenpunkten im weiteren Sinne der Regression möglich, wie auch die Zeitreihenanalyse beziehungsweise -prognose. Zur Vorbereitung der jeweiligen Datengrundlage stehen vorweg zudem weitere Prozeduren bereit. Aber auch zahlreiche Komponenten der verbleibenden sechs PAL-Prozedurklassen können einen Mehrwert für Fragestellungen des maschinellen Lernens liefern.

Kunden-Clustering

Die schon kurz erwähnte Clusteranalyse findet auch ausserhalb des Risikomanagements Anwendung. So können in einem anderen Fall Kundendaten zu Marketingzwecken in Bezug auf vorhandene Strukturen und Gemeinsamkeiten hin untersucht werden. Konkret ist es beispielsweise denkbar, anhand verschiedener Charakteristiken wie dem monetären Wert von Bestellungen, der Kaufhäufigkeit und der Zeit seit der letzten Transaktion typisches Kundengruppenverhalten ganzer Gruppen zu erkennen. Dieses ist in einem nächsten Schritt zu diskutieren, bevor Massnahmen für spezifisch gestaltete Kundenkampagnen abgeleitet werden. In dem an dieser Stelle vorgestellten Fall wird anhand der drei erwähnten Charakteristiken mittels des Verfahrens der k-Means per SAP HANA Machine Learning (PAL) eine Gruppenbildung vorgenommen. Diese erfolgt durch die Zusammenfassung von Punktewolken um zentral liegende Punkte herum unter Berücksichtigung der jeweiligen Abstände. Es ergeben sich hier insgesamt drei Kundengruppen, die jeweils farblich abgegrenzt in der folgenden Abbildung erkenntlich sind:

So könnten die blauen Punkte (hohe Bestellwerte, regelmässige sowie kürzliche Käufe) als Ausdruck eines Stammkundenverhaltens interpretiert und weiterführend genutzt werden. Eine solche Zuordnung einzelner Kunden ist beispielsweise in CRM-Lösungen für Ansprachen verwertbar, die besonders auf eine Kundengruppe ausgerichtet sind. Anhand der obigen interaktiven dreidimensional bewegbaren R-Grafik zeigt sich schliesslich wiederrum, wie gut sich die SAP Analytics Cloud in Kombination mit der SAP HANA-Technologie nutzen lässt. So fand die rechenintensive Vorverarbeitung der Daten beziehungsweise die statistische Modellbildung im Backend statt, während die flexible und interaktive R-Visualisierung vom Frontend der SAP Analytics Cloud getragen wird. Die Datenspeicherung erfolgte auf einer Instanz der SAP Datasphere.

Fazit: PAL

Trotz aller Vereinfachungen eignet sich die Mehrheit der mit der Predictive Analysis Library verfügbaren Methoden vor allem für die sorgsame Implementierung durch den Data Science-Spezialisten. Jedoch bietet die SAP HANA-Technologie mit der im nächsten Abschnitt vorgestellten Automated Predictive Library zusätzliche Funktionalitäten, die durch einen höheren Grad an Automatisierung prädiktive Auswertungen ermöglichen.

Ihre Anforderungen in einer zukunftssicherem ERP Branchenlösung abgebildet

Automated Predictive Library (APL)

Anhand der vorgestellten Beispiele zur Predictive Analysis Library zeigte sich: Zwar sind die mit dieser Bibliothek verbundenen Chancen umfangreich, jedoch bedarf es zu ihrem Einsatz zugleich eines sehr spezifischen Fachwissens. Geringere Hürden werden durch die Automated Predictive Library (APL) geschaffen, die zahlreiche, automatisierte Funktionalitäten gekapselt zur Verfügung stellt. So sind prädiktive Services verfügbar, mit denen etwa Clustering-, Zeitreihen-, Statsbuilder- oder aber Regressions- sowie Klassifikations-Modelle erstellt werden können.

Insgesamt werden durch die APL drei Bereiche abgedeckt:

Predictive Model Services
In dieser Kategorie sind Funktionalitäten rund um prädiktive Modelle enthalten.

Predictive Business Services
Hier werden einfachere prädiktive Dienste auf höherer Ebene angeboten. Es sind besonders wenige Eingaben erforderlich.

Technical Services
Zur Verfügung steht innerhalb dieser Kategorie die Abfrage nicht-prädiktiver, technischer Informationen.

In dem Kontext der prädiktiven Datenanalyse ist der APL-Einsatz gerade hinsichtlich der Predictive Model Services (PMS) interessant. Denn ganze Aufgabenpfade können mit der Bibliothek bewältigt werden. Beginnend mit der initialen Erstellung eines Modells über das zugehörige Training bis hin zu seiner Anwendung und dem Testing werden zahlreiche Funktionalitäten bereitgestellt. Diese sind gerade auch zur Validierung erster (Proof of Concept-) Überlegungen einsetzbar. Einige Bezeichnungen zugehöriger, vordefinierter PMS-Funktionen, die bezüglich des Zustands eines prädiktiven Modells einwirken beziehungsweise angewandt werden können, sind der folgenden Abbildung zu entnehmen. Vorteilig ist dabei, dass die Namen sprechend und damit verständlich gewählt sind. Hierdurch ergibt sich ein Überblick zu zentralen Funktionalitäten, der in der Abbildung dargestellt wird.

Predictive Business Services sind in der Regel einfach strukturiert. So muss meist lediglich die Datengrundlage in Verbindung mit Konfigurationsparametern bereitgestellt werden. Nach Aufruf der jeweiligen Prozedur erhält der Nutzer dann bereits Ergebnisse, ohne dass weitere Schritte nötig wären. Ein anschauliches Beispiel zur Anwendung der APL im Dienste der Vorhersage möglicher Fälle von Autoversicherungsbetrug finden Sie hier. Ein Auszug der zum Training herangezogenen Datengrundlage ist zudem in der Abbildung ersichtlich.

Um auf Basis dieser vergangenheitsbezogenen Informationen Vorhersagen zu generieren, werden lediglich die mit den Ziffern 1 und 2 in der Abbildung markierten APL-Funktionen eingesetzt.

Es ergeben sich hieraus Vorhersagen zu Anträgen, die auf mögliche Betrugsfälle («Fraudulent Claims») hin analysiert werden:

Fazit: APL

Zusammengefasst können verschiedene prädiktive Aufgaben an die APL delegiert werden, die ansonsten ausführlicher definiert und umgesetzt werden müssten. Allerdings ist dennoch zu prüfen, ob mit alternativen Verfahren ein überlegenes Ergebnis erzielt werden kann. Dies ist im Sinne einer Kosten-Nutzen-Analyse sicherlich auch unter dem Gesichtspunkt der Wartung zu entscheiden. Während die PAL primär den SAP Data Scientist anspricht, dürfte die APL eher für einen breiteren Anwenderkreis relevant sein. Trotz aller Erleichterungen ist oft dennoch eine Beratung hinsichtlich der Chancen und Limitationen der APL und ihrer Alternativen ratsam.

Ausblick

Der vorerst letzte Blogbeitrag dieser Reihe fasst die wichtigsten Erkenntnisse der Blogreihe zusammen.

Blogreihe: Data Science mit SAP

Jared Hirschner

Ich helfe Ihnen gerne weiter

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten? Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Jared Hirschner

Expert Consultant / Data Scientist

Lesen Sie die Blogbeiträge unserer Expert:innen

Blogreihe: Data Science mit SAP