Blogreihe: Risiken managen mit SAP Analytics Cloud und SAP HANA
Jared Hirschner | Mai 6, 2021

SAP Analytics Cloud – Einsatz der Programmiersprache R (Teil 6)

In unseren letzten Beiträgen haben wir Prognosezenarien und anderweitig bereitgestellte Vorhersageverfahren der SAP Analytics Cloud vorgestellt, wie etwa die lineare Regression, die exponentielle Glättung oder die automatische Prognose.

Die SAP Analytics Cloud (SAC) eröffnet aber nicht nur mit ihren Prognoseszenarien und den sonstigen Vorhersageverfahren statistische Chancen, sondern gerade auch durch die eingebettete Programmiersprache R. Dies gilt sowohl hinsichtlich komplexerer grafischer Darstellungen als auch im Hinblick auf die Verwendung von fortgeschrittenen Modellen zur Vorhersage von beispielsweise Risikokennzahlen.

Bevor spezifische Aspekte der Programmiersprache R hervorgehoben werden, sollen wesentliche Begriffe umrissen werden, mit Hilfe derer sich drei typische Aufgaben der Data Science gruppieren lassen:

  • Regression: Bei diesem als Klasse aufgefassten Begriff steht die Erklärung einer Zielgrösse im Fokus, die sich als Zahlenwert ausdrücken lässt. Denken Sie beispielsweise an die 0.42 als Vertreter der reellen Zahlen, der eine Aktienrendite ausdrücken kann. Bezüglich dieser wäre sodann der Versuch denkbar, diese zu erklärende Variable durch Merkmale wie den Zins zu modellieren.
  • Zeitreihenprognose: Mit den Schweizer Fallzahlen des Coronavirus ist unseren Lesern bereits ein Beispiel für die Aufgabenstellung bekannt, den Verlauf einer Zielgrösse über die Zeit zu erklären.
  • Klassifikation: Hierbei geht es darum, kategoriale Daten zu klassifizieren. Beispielsweise kann anhand verschiedener medizinischer Merkmale eingeordnet werden, um welche Zellen es sich bei einer betrachteten Gewebsprobe handelt. Kategorien werden meistens durch Wörter ausgedrückt.

Alle drei Fragestellungen können mittels eines geeigneten SAC-Prognoseszenarios angegangen werden. Zusätzlich sind – wie schon dargelegt – beispielsweise auch mittels der drei Verfahren der SAC-Zeitreihengrafik Vorhersagen möglich, die rein auf vergangenen Zeitreihendaten basieren. In der Regel sind mit den gegebenen Optionen somit bereits zahlreiche Anforderungen realisierbar. Aufgrund der im vorherigen Artikel erwähnten Faktoren weisen diese Standardverfahren verschiedene Vorteile für den Endnutzer auf. Dies gilt besonders hinsichtlich der Wartung. Dennoch kann sich bei einer Aufgabenstellung ein Kosten-Nutzenverhältnis ergeben, das individuelle Implementierungen rechtfertigt.

Hierbei ist R als eingebettete Programmiersprache besonders interessant, da sie fortgeschrittene statistische Verfahren und grafische Analysen ermöglicht. So sind prinzipiell alle oben genannten Aufgabenstellung abgedeckt. Jedoch besteht zusätzlich eine grössere Vielfalt und Flexibilität was einzelne Modelle und Darstellungen betrifft. Dabei kann R nicht nur in der SAC beziehungsweise in ihrer technischen Umgebung, sondern auch auf eigenen Servern seine Arbeit verrichten. Zur Übung und für umgrenzte Fragestellungen kann ebenfalls der persönliche Computer eingesetzt werden. Bei entsprechend vorhandener Hardware sind ferner  Grafikkarten für Berechnungen nutzbar. Dies beschleunigt die Laufzeit gerade bei neuronalen Netzen.

Ganz allgemein kann R vor allem zwei Erweiterungen erbringen, die ansonsten nicht erreichbar sind: zusätzliche grafische Darstellungen sowie statistische Verfahren. Ein Beispiel für eine individuelle Grafik unter Verwendung von R ist mit der folgenden Abbildung gegeben, die ein Vorgeschmack auf einen unserer kommenden Blogbeiträge ist. Sie stellt die logarithmierten Bitcoin-Kursrenditen dar. Hierbei ist mit der roten Linie diejenige Rendite (ca. -0.0621) angezeigt, die in den zugrundeliegenden fünf Jahren in unter fünf Prozent der Fälle unterschritten wurde. Weiterhin wird anhand der Position der blauen (Median-)Markierung erkennbar, dass über die Hälfte aller betrachteten Renditen positiv ausfiel. Dies ist durch die Lage der Linie rechts der Nullrendite ersichtlich und bedeutet grafisch ausgedrückt gleichzeitig, dass die graue Fläche mehrheitlich rechts der Null liegt.

Abbildung 1: Eigene Abbildung, Datengrundlage: CoinMarketCap (2021)

Der zweite Aspekt bedeutet mit den zusätzlichen Modellen indirekt auch eine mögliche Verbesserung der Vorhersagegüte. Und tatsächlich konnte in einem Versuch bezüglich der Prognose der schon bekannten Schweizer Fallzahlen des Coronavirus eine verbesserte Vorhersagegüte als mit dem vorgestellten Standardverfahren des Prognoseszenarios erreicht werden. Grundlage waren wiederum lediglich die vergangenen Zeitreihenwerte. Verwendung fand allerdings mit einem autoregressiven neuronalen Netzwerk ein unterschiedliches Modell. Es zeigte sich ein Vorteil in Form einer durchschnittlich geringeren absoluten Abweichung der Prognosen vom jeweiligen Istwert in Höhe von circa 1.2 Prozent. Dieser Gewinn kann mit komplexeren Modellen möglicherweise noch übertroffen werden.

Dabei ist abschliessend zu betonen, dass auch die Performance einen entscheidenden Einfluss auf das zu wählende Design einer Lösung nimmt. Denn komplexe Verfahren können zu erhöhten Laufzeiten führen. In diesen Fällen muss im Sinne der übergeordneten Architektur geprüft werden, ob die Anbindung eines eigenen R-Servers an die SAP Analytics Cloud oder sogar die Nutzung alternativer Möglichkeiten zu präferieren ist. So sind auch mit der SAP-HANA-Datenbank oder der SAP Data Intelligence Plattform weitere Möglichkeiten der Datenanalyse gegeben. Weiterhin ist in der SAP Analytics Cloud als Ergebnis der R-Nutzung momentan eine Grafik vorgesehen. Daher können Daten nicht ohne weiteres beispielsweise in tabellarischer Form weiterverwendet werden. Auch dieser Punkt verweist darauf, dass die Programmiersprache immer in einem grösseren Kontext betrachtet werden sollte. Unterschiedliche Lösungen erfüllen unterschiedliche Zwecke. In jedem Fall wird durch die Einbettung von R grosses Potenzial geschaffen.

Wo auch immer Sie heute stehen – wir freuen uns über den Austausch mit Ihnen. Kontaktieren Sie uns gern – auch bei allgemeinen Fragen oder Anregungen.

Jared Hirschner, SAP Data Scientist, NTT DATA Business Solutions
E-Mail: [email protected]

Ist hiervon etwas für Sie besonders interessant oder haben sich Fragen aufgetan?

Dann nehmen Sie gern Kontakt mit uns auf!

JETZT KONTAKTIEREN