SAP HANA: Advanced Analytics und Machine Learning (Teil 7)

Seit langem ermöglicht die SAP HANA-Technologie eine performante Datenverarbeitung in zahlreichen Unternehmen. Trotz der hohen Verbreitung ist jedoch oftmals nicht bekannt, welch vielfältigen Kapazitäten mit ihr für die prädiktive Datenanalyse und damit besonders auch für das Risikomanagement verfügbar sind.

Auf diese Möglichkeiten verweist die folgende Abbildung, die zentrale Komponenten im Kontext von maschinellem Lernen (ML) darstellt. So finden sich serverseitig eingebettete Bibliotheken wie auch Möglichkeiten zur Integration verbreiteter Machine Learning-Technologien. Client-seitig werden zudem APIs zur Entwicklung von Modellen angeboten (siehe dazu SAP HANA Machine Learning Overview).

Abbildung 1: SAP HANA Machine Learning Overview, Quelle: SAP (2021)

Einige ausgesuchte Elemente der Grafik werden in den kommenden Blogbeiträgen vorgestellt. Trotz der umfangreichen Darstellung fällt schon jetzt auf: R erscheint mehrfach. Bei der Einordnung dieser Programmiersprache und ihrer Möglichkeiten hilft der vorherige Blogbeitrag. Weiter ist die Anbindung externer Server möglich. Hierzu gehören insbesondere auch R-Server. Besonders hervorzuheben ist ferner die Möglichkeit, das TensorFlow-Framework auf einem externen Server einzubeziehen. Dieses wurde von Google entwickelt und fördert rechenintensive Berechnungen, insbesondere im Zusammenhang mit neuronalen Netzen.

Nachdem R schon vorbereitend behandelt wurde, liegt der Fokus von jetzt an auf der Programmiersprache Python, die ähnlich wie R eine dominierende Rolle in der Data Science spielt. Darüber hinaus bedient diese jedoch auch weitere, wesentlich allgemeinere Einsatzszenarien. Mit ihr kann auf die sogenannte Predictive Analysis Library (PAL) zugegriffen werden. Diese Bibliothek zielt auf 10 unterschiedliche Aufgabenklassen: Clustering, Classification, Regression, Association, Time Series, Preprocessing, Statistics, Social Network Analysis, Recommender System und Miscellaneous. Innerhalb dieser Gruppen sind wiederum verschiedene Funktionen enthalten. Insgesamt ergibt sich hierdurch eine breite Auswahl an Verfahren, die nicht zuletzt für die Beschreibung und Vorhersage von Risiken eingesetzt werden können.

Beispielhaft wird an dieser Stelle die Methode der Random Decision Trees aus der Gruppe der Klassifikationsverfahren vorgestellt. Diese kann beispielsweise für die Einordnung von Kreditrisiken eingesetzt werden. Aber was ist die Grundidee der Methode?

Wie der Name vermuten lässt, finden Entscheidungsbäume Anwendung. Diese bestehen in einfachen Worten ausgedrückt aus Entscheidungslogiken beziehungsweise Entscheidungsknoten und aus ihnen resultierenden Blättern. So könnte eine erste Aufgabe darin bestehen, anhand des Immobilieneigentums eines Kreditnehmers auf dessen Risikoklasse zu schliessen. Hat dieser beispielsweise ein eigenes Haus, sei er der Risikoklasse A zugeordnet, die mit einem geringeren Ausfallrisiko als die verbleibende B-Kategorie verbunden ist. Grafisch kann dies wie folgt dargestellt werden:

Abbildung 2: Einfacher Entscheidungsbaum, Quelle: Eigene Darstellung

In dem letztlich verwendeten Modell finden jedoch in aller Regel wesentlich grössere Entscheidungsbäume Verwendung, die aus zahlreichen derartigen Verzweigungen bestehen. Die gewachsenen Bäume wiederum können ebenfalls kombiniert werden, um stabilere Prognosen zu erhalten. Denn auch verzerrte Vorhersagen stellen ein Risiko dar. Das Prinzip findet sich in einfacher Form auch im Alltag. So erkundigen sich Konsumenten beispielsweise mitunter bei mehreren sozialen Kontakten statt nur bei einer Person nach einem Produkt, bevor sie dieses erwerben. Hierdurch kann ein ausgewogeneres Bild erlangt werden. Eine einzelne Meinung könnte demgegenüber besonders extrem sein. Abstimmungen folgen typischerweise ähnlichen Bemühungen. Übertragen auf den vorliegenden Kontext wird ein stabileres Vorhersageergebnis erlangt, da verschiedene Entscheidungsbäume kombiniert werden. So entscheidet bei kategorialen Daten die Mehrheit der Bäume über die schliessliche Klassifikation.

Sinnvoll wird dieses Vorgehen jedoch erst durch weitere Komponenten, die schon zuvor für stabilere Ergebnisse sorgen sollen. So werden einerseits zufällig Beobachtungen gezogen und dem Modell zum Training zur Verfügung stellt. Zusätzlich werden die zur Erklärung betrachteten Merkmale unter Zufallseinfluss ausgewählt. Hierdurch kann also beispielsweise die Höhe des Einkommens unter allen verfügbaren erklärenden Variablen selektiert werden, während in einem anderen einstufigen Baum, der auf gleichen Daten basiert, die Anzahl der Zahlungsausfälle zur Klassifikation herangezogen wird. Dies sorgt zusammen mit der zufälligen Auswahl der Trainingsdaten dafür, dass Bäume nicht immer gleich erzeugt werden. Andernfalls müsste man sie nicht kombinieren, da auch gewichtet die immer gleiche Baumstruktur betrachtet wird.

Anhand des vorgestellten Modells wurde beispielhaft gezeigt, dass mit der SAP HANA-Technologie Verfahren zur fortgeschrittenen Datenanalyse zur Verfügung stehen, die sich teilweise auch für den Einsatz im Risikomanagement eignen. Die so gegebenen Möglichkeiten bieten mitunter grosses Potenzial für den produktiven Einsatz und sind bislang dennoch oft unerkannt. Falls Sie Fragen oder Anregungen zu diesem Thema haben, freuen wir uns über Ihre Kontaktaufnahme.

Jared Hirschner, SAP Data Scientist, NTT DATA Business Solutions
E-Mail: [email protected]

Ist hiervon etwas für Sie besonders interessant oder haben sich Fragen aufgetan?

Dann nehmen Sie gern Kontakt mit uns auf!

JETZT KONTAKTIEREN