Seit langem ermöglicht die SAP HANA-Technologie eine performante Datenverarbeitung in zahlreichen Unternehmen. Trotz der hohen Verbreitung ist jedoch oftmals nicht bekannt, welch vielfältigen Kapazitäten mit ihr für die prädiktive Datenanalyse und damit z. B. auch für das Risikomanagement verfügbar sind. Auf diese Möglichkeiten verweist die folgende Abbildung, die wesentliche Komponenten im Kontext von maschinellem Lernen (ML) darstellt. So finden sich serverseitig eingebettete Bibliotheken wie auch Möglichkeiten zur Integration verbreiteter Machine Learning-Technologien. Client-seitig werden zudem APIs zur Ansprache der verschiedenen Funktionalitäten angeboten. Hier gelangen Sie zur SAP HANA Machine Learning Overview.

Von diesen Elementen werden in diesem Blog einige besonders relevante vorgestellt. Trotz der umfangreichen Abbildung fällt schon jetzt auf: R erscheint mehrfach. Weiterhin ist zudem die Anbindung externer Server möglich. Hierzu gehören insbesondere auch R-Server. Besonders hervorzuheben ist ferner die Möglichkeit, das TensorFlow-Framework auf einem externen Server einzubeziehen. Dieses wurde von Google entwickelt und ermöglicht beziehungsweise fördert rechenintensive Operationen, insbesondere im Zusammenhang mit neuronalen Netzen.
Nachdem R nunmehr schon umfangreich behandelt wurde, liegt der Fokus von jetzt an primär auf der Programmiersprache Python, die ähnlich wie R eine dominierende Data Science-Rolle einnimmt. Mit ihr kann ebenfalls auf die sogenannte Predictive Analysis Library (PAL) der SAP HANA zugegriffen werden. Diese Bibliothek zielt auf 10 unterschiedliche Aufgabenklassen: Clustering, Classification, Regression, Association, Time Series, Preprocessing, Statistics, Social Network Analysis, Recommender System und Miscellaneous. Innerhalb dieser Gruppen sind wiederum verschiedene Funktionen enthalten. Insgesamt ergibt sich hierdurch eine breite Auswahl an Verfahren, die nicht zuletzt für die Beschreibung und Vorhersage von Risiken eingesetzt werden können.
Beispielhaft wird an dieser Stelle die Methode der Random Decision Trees aus der Gruppe der Klassifikationsverfahren vorgestellt. Diese kann unter anderem für die Kategorisierung von Kreditrisiken eingesetzt werden. Aber zunächst einmal soll die Frage geklärt werden: Was ist die Grundidee dieser Methode?
Wie der Name vermuten lässt, finden Entscheidungsbäume Anwendung. Diese bestehen, vereinfacht ausgedrückt, aus Entscheidungslogiken bzw. Entscheidungsknoten und den daraus resultierenden Blättern. So könnte eine erste Aufgabe darin bestehen, anhand des Immobilieneigentums (Knoten) eines Kreditnehmers auf dessen Risikoklasse (resultierendes Blatt) zu schliessen. Hat dieser beispielsweise ein eigenes Haus, so sei er der Risikoklasse A zugeordnet, die mit einem geringeren Ausfallrisiko als die verbleibende B-Kategorie verbunden ist. Grafisch kann dies wie folgt dargestellt werden:

In dem verwendeten Modell finden jedoch in aller Regel wesentlich grössere Entscheidungsbäume Verwendung, die aus zahlreichen derartigen Verzweigungen bestehen. Die gewachsenen Bäume können ebenfalls mit weiteren kombiniert werden, um stabilere Prognosen zu erhalten. Denn auch verzerrte Vorhersagen stellen ein Risiko dar. Das Prinzip findet sich in einfacher Form auch im Alltag. So erkundigen sich Konsumenten mitunter bei mehreren sozialen Kontakten, statt nur bei einer Person nach einem Produkt, bevor sie dieses erwerben. Hierdurch kann ein ausgewogeneres Bild erlangt werden. Eine einzelne Meinung könnte demgegenüber besonders extrem sein. Abstimmungen folgen typischerweise ähnlichen Bemühungen. Übertragen auf den vorliegenden Kontext wird ein stabileres Vorhersageergebnis erlangt, da verschiedene Entscheidungsbäume kombiniert werden. So entscheidet bei kategorialen Daten die Mehrheit der Bäume über die endgültige Klassifikation.
Sinnvoll wird dieses Vorgehen jedoch erst durch weitere Komponenten, die schon zuvor die Bedingungen für stabilere Ergebnisse schaffen. So werden einerseits zufällig Beobachtungen gezogen und dem Modell zum Training zur Verfügung stellt. Zusätzlich werden die zur Erklärung betrachteten Merkmale unter Zufallseinfluss ausgewählt. Hierdurch kann also beispielsweise einmal die Höhe des Einkommens unter allen verfügbaren erklärenden Variablen selektiert werden, während in einem anderen einstufigen Baum, der auf den gleichen Daten basiert, die Anzahl der Zahlungsausfälle zur Klassifikation herangezogen wird. Dies sorgt zusammen mit der zufälligen Auswahl der Trainingsdaten dafür, dass Bäume nicht immer gleich erzeugt werden. Andernfalls wäre eine abschliessende Kombination der Entscheidungsbäume nicht zielführend, da auch gewichtet nur die immer gleiche Baumstruktur betrachtet wird.