Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

SAP HANA: Advanced Analytics und Machine Learning (Teil 7)

Seit langem ermöglicht die SAP HANA-Technologie eine performante Datenverarbeitung in zahlreichen Unternehmen. Trotz der hohen Verbreitung ist jedoch oftmals nicht bekannt, welch vielfältigen Kapazitäten mit ihr für die prädiktive Datenanalyse und damit besonders auch für das Risikomanagement verfügbar sind.

Jared Hirschner | Mai 12, 2021

Auf diese Möglichkeiten verweist die folgende Abbildung, die zentrale Komponenten im Kontext von maschinellem Lernen (ML) darstellt. So finden sich serverseitig eingebettete Bibliotheken wie auch Möglichkeiten zur Integration verbreiteter Machine Learning-Technologien. Client-seitig werden zudem APIs zur Entwicklung von Modellen angeboten (siehe dazu SAP HANA Machine Learning Overview).

Abbildung 1: SAP HANA Machine Learning Overview, Quelle: SAP (2021)

Abbildung 1: SAP HANA Machine Learning Overview, Quelle: SAP (2021)

Einige ausgesuchte Elemente der Grafik werden in den kommenden Blogbeiträgen vorgestellt. Trotz der umfangreichen Darstellung fällt schon jetzt auf: R erscheint mehrfach. Bei der Einordnung dieser Programmiersprache und ihrer Möglichkeiten hilft der vorherige Blogbeitrag. Weiter ist die Anbindung externer Server möglich. Hierzu gehören insbesondere auch R-Server. Besonders hervorzuheben ist ferner die Möglichkeit, das TensorFlow-Framework auf einem externen Server einzubeziehen. Dieses wurde von Google entwickelt und fördert rechenintensive Berechnungen, insbesondere im Zusammenhang mit neuronalen Netzen.

Nachdem R schon vorbereitend behandelt wurde, liegt der Fokus von jetzt an auf der Programmiersprache Python, die ähnlich wie R eine dominierende Rolle in der Data Science spielt. Darüber hinaus bedient diese jedoch auch weitere, wesentlich allgemeinere Einsatzszenarien. Mit ihr kann auf die sogenannte Predictive Analysis Library (PAL) zugegriffen werden. Diese Bibliothek zielt auf 10 unterschiedliche Aufgabenklassen: Clustering, Classification, Regression, Association, Time Series, Preprocessing, Statistics, Social Network Analysis, Recommender System und Miscellaneous. Innerhalb dieser Gruppen sind wiederum verschiedene Funktionen enthalten. Insgesamt ergibt sich hierdurch eine breite Auswahl an Verfahren, die nicht zuletzt für die Beschreibung und Vorhersage von Risiken eingesetzt werden können.

Beispielhaft wird an dieser Stelle die Methode der Random Decision Trees aus der Gruppe der Klassifikationsverfahren vorgestellt. Diese kann beispielsweise für die Einordnung von Kreditrisiken eingesetzt werden. Aber was ist die Grundidee der Methode?

Wie der Name vermuten lässt, finden Entscheidungsbäume Anwendung. Diese bestehen in einfachen Worten ausgedrückt aus Entscheidungslogiken beziehungsweise Entscheidungsknoten und aus ihnen resultierenden Blättern. So könnte eine erste Aufgabe darin bestehen, anhand des Immobilieneigentums eines Kreditnehmers auf dessen Risikoklasse zu schliessen. Hat dieser beispielsweise ein eigenes Haus, sei er der Risikoklasse A zugeordnet, die mit einem geringeren Ausfallrisiko als die verbleibende B-Kategorie verbunden ist. Grafisch kann dies wie folgt dargestellt werden:

Abbildung 2: Einfacher Entscheidungsbaum, Quelle: Eigene Darstellung

In dem letztlich verwendeten Modell finden jedoch in aller Regel wesentlich grössere Entscheidungsbäume Verwendung, die aus zahlreichen derartigen Verzweigungen bestehen. Die gewachsenen Bäume wiederum können ebenfalls kombiniert werden, um stabilere Prognosen zu erhalten. Denn auch verzerrte Vorhersagen stellen ein Risiko dar. Das Prinzip findet sich in einfacher Form auch im Alltag. So erkundigen sich Konsumenten beispielsweise mitunter bei mehreren sozialen Kontakten statt nur bei einer Person nach einem Produkt, bevor sie dieses erwerben. Hierdurch kann ein ausgewogeneres Bild erlangt werden. Eine einzelne Meinung könnte demgegenüber besonders extrem sein. Abstimmungen folgen typischerweise ähnlichen Bemühungen. Übertragen auf den vorliegenden Kontext wird ein stabileres Vorhersageergebnis erlangt, da verschiedene Entscheidungsbäume kombiniert werden. So entscheidet bei kategorialen Daten die Mehrheit der Bäume über die schliessliche Klassifikation.

Sinnvoll wird dieses Vorgehen jedoch erst durch weitere Komponenten, die schon zuvor für stabilere Ergebnisse sorgen sollen. So werden einerseits zufällig Beobachtungen gezogen und dem Modell zum Training zur Verfügung stellt. Zusätzlich werden die zur Erklärung betrachteten Merkmale unter Zufallseinfluss ausgewählt. Hierdurch kann also beispielsweise die Höhe des Einkommens unter allen verfügbaren erklärenden Variablen selektiert werden, während in einem anderen einstufigen Baum, der auf gleichen Daten basiert, die Anzahl der Zahlungsausfälle zur Klassifikation herangezogen wird. Dies sorgt zusammen mit der zufälligen Auswahl der Trainingsdaten dafür, dass Bäume nicht immer gleich erzeugt werden. Andernfalls müsste man sie nicht kombinieren, da auch gewichtet die immer gleiche Baumstruktur betrachtet wird.

Anhand des vorgestellten Modells wurde beispielhaft gezeigt, dass mit der SAP HANA-Technologie Verfahren zur fortgeschrittenen Datenanalyse zur Verfügung stehen, die sich teilweise auch für den Einsatz im Risikomanagement eignen. Die so gegebenen Möglichkeiten bieten mitunter grosses Potenzial für den produktiven Einsatz und sind bislang dennoch oft unerkannt. Falls Sie Fragen oder Anregungen zu diesem Thema haben, freuen wir uns über Ihre Kontaktaufnahme.

Jared Hirschner, SAP Data Scientist, NTT DATA Business Solutions
E-Mail: [email protected]

Ist hiervon etwas für Sie besonders interessant oder haben sich Fragen aufgetan?

Dann nehmen Sie gern Kontakt mit uns auf!

JETZT KONTAKTIEREN

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 1 / 10

Risiken managen mit SAP Analytics Cloud und SAP HANA (Teil 1)

Jared Hirschner
April 1, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 2 / 10

Zeitreihenprognose leicht gemacht – das Prognoseszenario der SAP Analytics Cloud (Teil 2)

Jared Hirschner
April 8, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 3 / 10

SAP Analytics Cloud – Lineare Regression (Teil 3)

Jared Hirschner
April 15, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 4 / 10

SAP Analytics Cloud – Exponentielle Glättung (Teil 4)

Jared Hirschner
April 22, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 5 / 10

SAP Analytics Cloud – Automatische Prognose (Teil 5)

Jared Hirschner
April 29, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 6 / 10

SAP Analytics Cloud – Potenzial heben mit der Programmiersprache R (Teil 6)

Jared Hirschner
Mai 6, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 7 / 10

SAP HANA: Advanced Analytics und Machine Learning (Teil 7)

Jared Hirschner
Mai 12, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 8 / 10

SAP HANA Predictive Analysis Library und SAP Analytics Cloud im präventiven Einsatz (Teil 8)

Jared Hirschner
Mai 20, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 9 / 10

SAP HANA Automated Predictive Library und Versicherungsbetrug (Teil 9)

Jared Hirschner
Mai 27, 2021

Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA

Teil 10 / 10

Ein Rück- und Ausblick (Teil 10)

Jared Hirschner
Juni 3, 2021