Der vorherige Blogbeitrag hat einen Überblick über die prädiktiven Analysen mit SAP Analytics Cloud gegeben. Dabei wurden die Prognoseszenarien der SAP Analytics Cloud im Detail betrachtet. In diesem Beitrag werden weitere Vertreter der Vorhersageverfahren der SAP Analytics Cloud (SAC) vorgestellt: die lineare Regression, exponentielle Glättung und automatische Vorhersagen.
SAP Analytics Cloud: Vorhersageverfahren

Lineare Regression
Die lineare Regression ist ein weiteres Verfahren der SAP Analytics Cloud (SAC). Sie kann zu Zeitreihengrafiken hinzugefügt werden, also zu jenen Standardgrafiken, die zeitlich geordnete Daten enthalten. Zur einfachen Erklärung der linearen Regression betrachten wir zuerst ein allgemeines Beispiel. Hierbei handelt es sich um Daten zu verschiedenen Automobilen und -modellen der Jahre 1973 und 1974, die dem US-amerikanischen Motor Trend Magazin von 1974 entnommen sind. Konkret konzentrieren wir uns auf den Zusammenhang zwischen der PS-Stärke und der Durchschnittsgeschwindigkeit in km/h, die auf einer Viertelmeile bei maximaler Beschleunigung erreicht wird. Welche Beziehung lässt sich nun bei den betrachteten Merkmalen feststellen?
Im vorliegenden Fall erscheint es intuitiv sehr stimmig, wenn man davon ausgeht, dass eine stärkere Motorisierung (PS) schnellere Beschleunigungen erzielt. Eine schnellere Beschleunigung führt zu einer höheren Durchschnittsgeschwindigkeit auf der Teststrecke. Dies ist somit die beeinflusste Zielgrösse. Dies vermutend, kann mit der linearen Regression der SAP Analytics Cloud der messbare Zusammenhang zwischen den beiden betrachteten Merkmalen untersucht werden.
Zur Veranschaulichung wird die Methodik des Verfahrens anhand von R-Grafiken dargestellt. Die Programmiersprache R steht in der SAP Analytics Cloud zur Visualisierung von Daten zur Verfügung und ermöglicht auch den Einsatz von prädiktiven Komponenten. An dieser Stelle geht es jedoch lediglich um das schrittweise Nachvollziehen. Betrachtet man den nachfolgenden Plot zur Geschwindigkeit und Motorisierung, so ist zu erkennen, dass sich unsere Vermutung auch in der Grafik zeigt. Autos mit mehr PS erreichen in der Tendenz eine höhere Durchschnittsgeschwindigkeit auf der Viertelmeile:
Dies gilt es methodisch zu präzisieren. Hierbei kann man sich die zentrale Komponente der Funktionsweise der linearen Regression als eine Art Lineal (in den Abbildungen blau) vorstellen, das so lange nach oben und unten verschoben sowie an einem Ort gedreht wird, bis die Summe aller Abstände zwischen ihm und allen Punkten, die erklärt werden sollen, minimal werden. Optimal ist für unser Beispiel die folgende Gerade, die die Abstände aller Punkte zur blauen Linie in der Summe minimiert:
Demgegenüber wären diese roten Geraden bei dem Versuch, die Abstände zu minimieren zu hoch beziehungsweise zu tief angesetzt, da die Entfernungen zu den Datenpunkten zu gross sind:
Näher an der Lösung, aber immer noch nicht optimal, ist diese rote Gerade, die eine falsche Steigung aufweist:
Anhand dieser Grafiken haben Sie die zentralen Bestandteile des einfachen linearen Regressionsmodells kennengelernt: einerseits die Höhe, andererseits die Steigung einer Regressionsgerade (in den Abbildungen blau).
Mit ihr werden die erwarteten Werte der Durchschnittsgeschwindigkeit in der folgenden Form vorhergesagt: PS * Steigung des «Lineals» + Höhe. Allgemein ist es sehr wichtig zu beachten, dass die Erkenntnisse einer linearen Regression Bezug auf Veränderungen nehmen. Aussagen beziehen sich also darauf, wie sich die Geschwindigkeit verändert, wenn man die PS-Stärke verändert. Um diese Komponenten beziehungsweise ihre Berechnung brauchen Sie sich im SAP Analytics Cloud-Alltag jedoch nicht zu kümmern, wenn Sie die Standardgrafik für Zeitreihendaten einsetzen: Im Hintergrund läuft hierzu ein automatischer Algorithmus, der den nötigen Ablauf zur Bildung und Nutzung des Regressionsmodells realisiert. Zudem sei angemerkt, dass es verschiedene Möglichkeiten gibt, die Abstände zwischen den Datenpunkten und der Gerade zu minimieren.
Mit der beschriebenen Methode lassen sich auch Zusammenhänge, beispielsweise im Risikomanagement. Dies ist prinzipiell ebenso bei zeitlichen Daten möglich, etwa bezogen auf die bereits im vorherigen Blogbeitrag betrachteten Fallzahlen des Coronavirus in der Schweiz, auf die auch das Auswahlmenü der folgenden Abbildung verweist:

Weshalb wurde das Verfahren dann in diesem Kontext nicht bevorzugt eingesetzt?
Es ist wichtig, dass Sie von den verfügbaren Möglichkeiten stets die beste beziehungsweise die geeignetste auswählen. Warnungen und Kennzahlen zur Modellgüte unterstützen Sie hierbei. Die lineare Regression wäre im konkreten Fall nicht die beste Option, die Ihnen vom System angeboten wird. Ganz allgemein aber gilt – gerade unter Verwendung der Programmiersprache R: Die Methode der linearen Regression an sich kann besonders bei Zusammenhängen, bei denen mehrere erklärende Variablen vorhanden sind, gute Ergebnisse erzielen. Dies gilt insbesondere für Datensätze, die nicht nur vergangene Werte im Sinne einer einfachen Zeitreihenbetrachtung enthalten. So ist beispielsweise im Rahmen der Analyse der Höhe von Zahlungsausfällen von Debitoren unter hinzugezogener Betrachtung eines Bonitäts-Scores eine relativ gut interpretierbare Untersuchung möglich. Zusätzlich könnte die lineare Regression bei unseren Zeitreihendaten mit weiteren (ggf. erzeugten) Zeitvariablen in Verbindung mit erklärenden Variablen, wie beispielsweise der durchschnittlichen Kontaktzahl von befragten Personen, eine Verbesserung erzielen. In der Praxis werden zur Schätzung einer Zielgrösse tatsächlich meist mehrere erklärende Merkmale betrachtet. Es muss allerdings angemerkt werden, dass auch bei den letztgenannten Fällen andere Regressionsarten oder gar andere Verfahren besser sein können.
Exponentielle Glättung
Ein weiterer Vertreter der Vorhersageverfahren der SAP Analytics Cloud (SAC) ist die sogenannte exponentielle Glättung. Im Besonderen geht es hier um die dreifach exponentielle Glättung. Die Idee des Verfahrens lässt sich zusammenfassend skizzieren als Erklärung aktueller Werte auf Basis aggregierter vergangener Beobachtungen, wobei diese unterschiedlich stark gewichtet werden. Wie oben steht auch in diesem Abschnitt eine Zeitreihe im Fokus, also eine Sammlung zeitlich geordneter Datenpunkte. Bevor wir wiederum konkret Bezug auf unser bekanntes Beispiel der Schweizer Fallzahlen des Coronavirus nehmen, wird zunächst das neue Modell ganz allgemein beschrieben. Auch hier gilt: ein grundlegendes Verständnis hilft dabei, die beste Methode auszuwählen und den produktiven Einsatz nicht zu scheuen.
Zu Beginn wird das Modell der einfachen exponentiellen Glättung vorgestellt. Betrachtet man verschiedene Zeitreihen, so stellt man fest, dass sich die weitere Entwicklung – gerade in der nahen Zukunft – durch die jüngste Vergangenheit niveaumässig häufig besser einschätzen lässt als durch «alte» Beobachtungen. Für derartige Zusammenhänge kann sich die Modellierung einer Zeitreihe mittels der exponentiellen Glättung besonders eignen, da sie neuere Beobachtungen unter Verwendung eines Faktors stärker gewichten kann. So zeigte sich beispielsweise das Niveau der Fallzahlen des Coronavirus als variabel. Entferntere Daten, wie etwa Zahlen aus dem März 2020 werden allgemein kaum für die Erklärung oder Einschätzung jüngerer Entwicklungen herangezogen. Zusammengefasst werden mit der einfachen Variante also verschiedene Vergangenheitswerte unterschiedlich stark gewichtet sowie aggregiert, was im Ergebnis Prognosen ermöglicht. Dabei gibt es die zwei Spezialfälle der unveränderten Übernahme von aktuellen Werten oder aber der Fortschreibung vergangener Beobachtungen, die hier nicht weiter betrachtet werden.
Dieses Einstiegsmodell kann in einem nächsten Schritt zur zweifach exponentiellen Glättung erweitert werden. Hierzu sind zusätzlich zur Betrachtung des Niveaus auch Trendkomponenten aufzunehmen. Diese beschreiben Tendenzen über den Zeitverlauf, beispielsweise sinkende Fallzahlen des Coronavirus. Da solche Trends oft nicht immer gleich weiterverlaufen (können), besteht die Möglichkeit, sie zu «dämpfen» und damit abzuschwächen. Werden weiterhin noch zeitlich wiederkehrende Muster berücksichtigt, wie etwa hohe COVID-Fallzahlen an einem bestimmten Wochentag, so erhält man mit diesem saisonalen Bestandteil die dreifache exponentielle Glättung. Soweit zur Theorie.
Wie auch die anderen beiden aktuell verfügbaren Vorhersageverfahren, ist die dreifach exponentielle Glättung mit der SAP Analytics Cloud einfach anzuwenden beziehungsweise auszuwählen (beispielsweise im Menü einer Linien- oder Zeitreihengrafik). Auch muss man sich nicht um die Optimierung des Modells im Hintergrund kümmern. Dies bedeutet, dass die Plattform die Arbeit übernimmt, wenn es beispielsweise darum geht, das Gewicht festzulegen, mit dem vergangene Beobachtungen mehr oder weniger stark zur Erklärung aktueller Werte herangezogen werden.
Letztlich erhält der Nutzer auch bei diesem Verfahren neben den eigentlichen Vorhersagewerten einen Eindruck davon, in welchem Korridor sich die realen Werte erwartungsgemäss befinden werden – oft wird bei der Bestimmung der Breite dieses Bereichs ein Konfidenzintervall von 95 % zugrunde gelegt. Diese Streuungsbreite ist blau schattiert in Abbildung zu erkennen. Für den Anwender ist entscheidend: Je schmaler der Korridor ist, desto weniger Streuung ist basierend auf den vergangenen Beobachtungen zu erwarten. Die Relevanz von Corona als Risiko ist hierbei für verschiedene Branchen offensichtlich. Ganz allgemein aber steht mit der exponentiellen Glättung ein Modell zur Verfügung, das nur schon durch vergangene Werte Prognosen ermöglicht. Zusammen mit der einfachen Implementierung per Auswahlmenü, bietet es sich oft an, dieses Verfahren zu testen. Dies gilt nicht nur im Kontext des Risikomanagements, sondern auch darüber hinaus. Beispielsweise können Umsatz- oder Produktionszahlen verwertbare Muster aufweisen, auf Basis derer die dreifach exponentielle Glättung einen datenbasierten Blick in die Zukunft ermöglicht. Nutzer der SAP Analytics Cloud haben vor diesem Hintergrund in der Regel zahlreiche schon vorhandene Linien- oder Zeitreihengrafiken zur Auswahl, auf die sich das vorgestellte Verfahren leicht anwenden lässt.
Automatische Vorhersage
Wie gerade beschrieben, bietet es sich bei der Nutzung der SAP Analytics Cloud an, auswählbare Vorhersageverfahren für ohnehin schon vorhandene Daten zu testen. Gute Ergebnisse können anschliessend Anlass für eine regelmässige Verwendung der jeweiligen Methode geben. Hierbei kann es vorteilhaft sein, die Wahl eines konkreten Modells der Plattform selbst zu überlassen. Diese Möglichkeit besteht beispielsweise bei Zeitreihengrafiken in Form der automatischen Prognose.
Vorteile ergeben sich dabei auf verschiedene Weise. Besonders zu betonen ist, dass in der Datenanalyse ein Modell in aller Regel nicht unendlich lange genau gleich gut nutzbar ist. So müssen Veränderungen der zugrundeliegenden Daten durch die erneute Optimierung von Modellparametern aufgefangen werden. Zum Beispiel würde man bei der schon vorgestellten exponentiellen Glättung vergangene Fallzahlen einzelner Tage stärker gewichten, wenn sich dies aufgrund neuer Daten als vorteilhaft erweist. Steigt der Beitrag jüngerer Informationen zur Erklärung der Zielvariable gegenüber älteren, so müssten diese entsprechend stärker gewichtet werden. Denn letztlich bildet ein Modell immer den jeweiligen realen Zusammenhang ab. Soweit zu den Parametern eines einzelnen, gegebenen Modells. Wesentlich globaler ist jedoch, dass ein Vorhersageverfahren an sich nicht immer das beste bleibt. So kann die exponentielle Glättung für einen Zeitraum das beste Modell sein. Ändern sich aber die Umstände zu dessen Nachteil oder werden neue Methoden erfunden, so können andere Verfahren besser sein. Dies führt dazu, dass die verfügbaren Modelle regelmässig sowie systematisch trainiert, evaluiert und miteinander verglichen werden müssen.
Gerade mit der SAP Analytics Cloud ist eine Lösung gegeben, die sehr regelmässig Updates bereitstellt. Aus diesem Grund ist es denkbar, dass im Hintergrund der automatischen Vorhersage ein neues, besseres Verfahren Verwendung findet. Wie auch bei den anderen betrachteten Vorhersageverfahren, wie etwa der linearen Regression oder der dreifach exponentiellen Glättung, werden hierbei wiederum die modellinternen Parameter automatisch optimiert. Angemerkt sei zudem, dass auch für die performante Implementierung eines Modells im Sinne der algorithmischen Komplexität und damit der Laufzeit jeweils kein eigener Aufwand nötig ist. Daher ergibt sich, zusammen mit der Delegation der Modellwahl, insgesamt eine deutliche Zeitersparnis was anfallende Aufgaben betrifft.
Bei dem Streben nach den besten Prognosen muss zudem angemerkt werden, dass auch der Einsatz von prädiktiven Verfahren an sich Risiken in sich trägt. Potenziell ergeben sich Nachteile – neben der bereits erwähnten, nichtoptimalen Verfahrenswahl – beispielsweise aus diesen Fehlerquellen:
- «Instabile» Daten (fehlende Stationarität), etwa bei absolut immer grösser werdenden Schwankungen, wie sie bei zahlreichen Kursverläufen von Wertpapieren erkennbar sind
- Falsche Annahmen – insbesondere a priori
- Fehlerhafte Algorithmen
- Falsche Darstellungen oder Interpretationen
- Rundungs-/Genauigkeitsfehler
- Kausale Schlussfolgerungen, die sachlich unbegründet sind
- Mangelhafte Generalisierbarkeit gewonnener Erkenntnisse
Vor diesem Hintergrund wird ersichtlich, dass hohe wissenschaftliche Ansprüche an den freien Entwurf von Vorhersageverfahren gestellt werden. Um diese durchzusetzen, bedarf es entsprechender interner Ressourcen oder aber dem Rückgriff auf externe Berater. Beide Optionen werden durch Standardlösungen, wie etwa die Methodenauswahl der SAP Analytics Cloud unterstützt, da mit ihnen vielfach bewährte Verfahren zugänglich werden, die den Aufwand reduzieren, was sowohl die Einführung als auch die Wartung prädiktiver Modelle betrifft.
Aber auch unabhängig von diesen Plattformen liegt am Markt schon seit einiger Zeit ein deutlicher Trend in Richtung der Verwendung bewährter, vordefinierter Module und Funktionen vor – sowohl in verschiedenen Programmsprachen als auch im Sinne von komplett vorgefertigten Lösungskomponenten. So können Bausteine zunehmend auch ohne aufwendige Programmierung eingesetzt werden. Und dennoch ist es für den Endnutzer empfehlenswert, ein grundlegendes Verständnis für die eingesetzten statistischen Methodiken zu haben. Dies gilt umso mehr, da sich aus (prädiktiven) Auswertungen Entscheidungen ableiten. Aufgrund der Aktualität ist es ratsam, regelmässig direkt Online-Informationen zu prüfen. Das gilt im Besonderen auch hinsichtlich der erwähnten Updates.
Für die Betrachtung von Zeitreihen, beispielsweise in Stories der SAP Analytics Cloud, ist die automatische Vorhersage aufgrund der genannten Vorteile oft das Mittel der Wahl. Ein Prognoseszenario eignet sich bei insgesamt nahezu identischen Vorteilen darüber hinaus nicht nur für Aufgaben der Zeitreihenanalyse, sondern auch für Fragestellungen der Regression oder der Klassifikation, wobei auch mehrere erklärende Variablen nutzbar sind.
Zusammenfassend lässt sich festhalten, dass Zeitreihen dank der vorgefertigten Methoden der SAP Analytics Cloud mit relativ wenig Aufwand modelliert werden können. Aber auch wenn keine hinreichend nutzbaren Strukturen vorhanden sind, so ist der Test eines Verfahrens ohne Nachteile durchführbar. Daher ermutigen wir Kunden unter kontrollierten Bedingungen auch zu kleinen Experimenten mit ihrer Lösung.
Augmented Analytics
Ähnlich wie auch die SAC-Prognoseszenarien, die übrigens unter die Augmented Analytics-Unterkategorie Smart Predict fallen, bieten die in diesem Blogbeitrag vorgestellten Methoden ein hohes Mass an Automatisierung. Diese sind in ihrem Umfang teilweise wesentlich breiter beziehungsweise in ihrer Anwendung flexibler als bei der Generierung von Vorhersagen. Dies wird besonders am Beispiel der Smart Discovery ersichtlich – einer Funktionalität, die für eine vorgegebene Datenbasis vollautomatisch eine komplette Auswertung aufbaut. Diese kann bei entsprechend strukturierten Daten auch Vorhersagen oder etwa Korrelationsanalysen einschliessen. Resultierende SAC-Stories eignen sich besonders, um einen ersten Eindruck zu Daten zu gewinnen. Trotz des geringen Aufwands und des raschen Erkenntnisgewinns muss angemerkt werden, dass die Ergebnisse zunächst kritisch geprüft werden sollten.
Sollen bereits erstellte Auswertungen beziehungsweise ihre zugrundeliegenden Daten weiterführende Fragen beantworten, so bietet die SAP Analytics Cloud mit «Search to Insight» eine Implementierung des «Natural Language Processing» (NLP) sowie der «Natural Language Query» (NLQ) und damit bereits fertig eingerichtete Funktionen einer «Conversational AI». Konkret kann beispielsweise ausgehend von dem Glühbirnensymbol einer SAP Analytics Cloud Story das «Search to Insight Interface» aufgerufen werden. In das nun erscheinende freie Textfeld können Fragen, Anweisungen oder Stichpunkte eingegeben werden, die von der SAC beantwortet oder bedient werden. Der hierfür nötige Dialog wird exemplarisch in der folgenden Abbildung ersichtlich, die Auskunft über die Gross Margin-Kennzahl je Sales Manager einer reinen Beispielauswertung gibt.
Schliesslich können auch einzelne Bestandteile einer SAC-Story wie etwa Zeitreihengrafiken durch sogenannte Smart Insights-Elemente mit weiterem Kontext angereichert werden. Hierdurch werden Daten weiterführend aufbereitet, erklärt und hinsichtlich ihrer Kernaussagen dargestellt. Ein Beispiel ist in der folgenden Abbildung abgebildet, bei dem die Gross Margin-Kennzahl per Smart Insights differenziert betrachtet wird, wobei einzelne Produktbeiträge ersichtlich sind.
Ausblick
Im nächsten Blogbeitrag erfahren Sie mehr über die Programmiersprache R. Im späteren Verlauf der Reihe wird zudem das HANA Machine Learning vorgestellt.
Blogreihe: Data Science mit SAP

Jared Hirschner
Jun 27, 2024

Jared Hirschner
Jun 20, 2024

Jared Hirschner
Jun 18, 2024

Jared Hirschner
Jun 04, 2024

Jared Hirschner
Apr 25, 2024

Jared Hirschner
Apr 11, 2024

Ich helfe Ihnen gerne weiter
Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten? Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.
Jared Hirschner
Expert Consultant / Data Scientist
Lesen Sie die Blogbeiträge unserer Expert:innen

Lars Kjøller
Dez 19, 2024

Bob Meyer
Sep 24, 2024

Gary Williamson
Sep 12, 2024

Bekim Bayat
Aug 22, 2024

Lars Kjøller
Aug 20, 2024

Jared Hirschner
Jun 27, 2024