SAP Analytics Cloud – OnBoard-Methoden zur Zeitreihenvorhersage: Lineare Regression (Teil 3)

Die lineare Regression ist ein weiteres Prognoseverfahren der SAP Analytics Cloud (SAC). Sie kann zu Zeitreihengrafiken hinzugefügt werden, also zu jenen Standardgrafiken, die zeitlich geordnete Daten enthalten. So stellt zum Beispiel die Sammlung der täglichen Fallzahlen des Coronavirus eine Zeitreihe dar

Im letzten Blogbeitrag dieser Reihe wurde mit dem Prognoseszenario bereits ein in diesem Kontext einsetzbares Vorhersageverfahren vorgestellt. In diesem Blogbeitrag geht es unter Verwendung möglichst einfacher Ausführungen primär um ein grundlegendes Verständnis der linearen Regression, das bei der Auswahl vorhandener Möglichkeiten helfen soll.

Zur einfachen Erklärung der linearen Regression betrachten wir zuerst ein allgemeines Beispiel. Hierbei handelt es sich um Daten zu verschiedenen Automobilen und -modellen der Jahre 1973 und 1974, die dem US-amerikanischen Motor Trend Magazin von 1974 entnommen sind. Konkret konzentrieren wir uns auf den Zusammenhang zwischen der PS-Stärke und der Durchschnittsgeschwindigkeit in km/h, die auf einer Viertelmeile bei maximaler Beschleunigung erreicht wird. Welche Beziehung lässt sich nun bei den betrachteten Merkmalen feststellen?

Im vorliegenden Fall erscheint es intuitiv sehr stimmig, wenn man davon ausgeht, dass eine stärkere Motorisierung (PS) schnellere Beschleunigungen erzielt. Eine schnellere Beschleunigung führt zu einer höheren Durchschnittsgeschwindigkeit auf der Teststrecke. Dies ist letztlich die gemessene Zielgrösse. Dies vermutend, kann mit der linearen Regression der SAP Analytics Cloud der messbare Zusammenhang zwischen den beiden betrachteten Merkmalen untersucht werden.

Zur Veranschaulichung wird die Methodik des Verfahrens anhand von R-Grafiken dargestellt. R steht in der SAP Analytics Cloud zur Visualisierung von Daten zur Verfügung und ermöglicht auch den Einsatz von prädiktiven Komponenten. An dieser Stelle geht es jedoch lediglich um das schrittweise Nachvollziehen. Betrachtet man den nachfolgenden Plot zur Geschwindigkeit und Motorisierung, so ist zu erkennen, dass sich unsere Vermutung auch in der Grafik zeigt. Autos mit mehr PS erreichen in der Tendenz eine höhere Durchschnittsgeschwindigkeit auf der Viertelmeile:

Abbildung 1: Eigene Grafik, Daten: Motor Trend (1974)

Dies gilt es methodisch zu präzisieren. Hierbei kann man sich die zentrale Komponente der Funktionsweise der linearen Regression als eine Art Lineal (in den Abbildungen blau) vorstellen, das solange nach oben und unten verschoben sowie an einem Ort gedreht wird, bis die Summe aller Abstände zwischen ihm und allen Punkten, die erklärt werden sollen, minimal werden. Optimal ist für unser Beispiel letztlich die folgende Gerade, die die Abstände aller Punkte zur blauen Linie in der Summe minimiert:

Abbildung 2: Eigene Grafik, Daten: Motor Trend (1974)

Demgegenüber wären diese roten Geraden bei dem Versuch, die Abstände zu minimieren zu hoch beziehungsweise zu tief angesetzt, da die Entfernungen zu den Punkten zu gross sind:

Abbildung 3: Eigene Grafik, Daten: Motor Trend (1974)

Näher an der Lösung, aber immer noch falsch, ist diese rote Gerade, die eine falsche Steigung aufweist:

Abbildung 4: Eigene Grafik, Daten: Motor Trend (1974)

Sie haben gerade die zentralen Bestandteile des einfachen linearen Regressionsmodells kennengelernt: einerseits die Höhe (Abbildung 3), andererseits die Steigung (Abbildung 4) einer Regressionsgerade (in den Abbildungen blau). Mit ihnen kann man die erwarteten Werte der Durchschnittsgeschwindigkeit in der folgenden Form vorhersagen: PS * Steigung des «Lineals» + Höhe. Allgemein ist es sehr wichtig zu beachten, dass die Erkenntnisse einer linearen Regression Bezug auf Veränderungen nehmen. Aussagen beziehen sich also darauf, wie sich die Geschwindigkeit verändert, wenn man die PS-Stärke verändert. Um diese Komponenten beziehungsweise ihre Berechnung brauchen Sie sich im Alltag mit der SAP Analytics Cloud jedoch nicht zu kümmern, wenn Sie die Standardgrafik für Zeitreihendaten einsetzen: Im Hintergrund läuft hierzu ein automatischer Algorithmus, der den nötigen Ablauf zur Bildung und Nutzung des Regressionsmodells bestmöglich realisiert.

Nachdem die grundsätzliche Funktionsweise vorgestellt wurde, sei an dieser Stelle darauf verwiesen, dass mit der beschriebenen Methode auch Zusammenhänge im Risikomanagement untersucht werden können. Dies ist prinzipiell ebenso bei zeitlichen Daten möglich, wie etwa bezogen auf die im vorherigen Beitrag betrachteten Fallzahlen des Coronavirus in der Schweiz.

Abbildung 5: Eigene Abbildung, Daten: Bundesamt für Gesundheit (BAG)

Weshalb wurde das Verfahren dann in diesem Kontext nicht bevorzugt eingesetzt? Es ist sehr wichtig, dass Sie von den verfügbaren Möglichkeiten stets die beste beziehungsweise die geeignetste auswählen. Warnungen und Kennzahlen zur Modellgüte unterstützen Sie hierbei. Die lineare Regression wäre im konkreten Fall des Coronavirus nicht die beste Option, die Ihnen vom System angeboten wird. Ganz allgemein aber gilt – gerade unter Verwendung der Programmiersprache R: Die Methode an sich kann besonders bei Zusammenhängen, bei denen mehrere erklärende Variablen vorhanden sind, gute Ergebnisse erzielen. Dies gilt insbesondere für Datensätze, die nicht nur vergangene Werte im Sinne einer einfachen Zeitreihenbetrachtung enthalten. So ist beispielsweise im Rahmen der Analyse der Höhe von Zahlungsausfällen von Debitoren unter hinzugezogener Betrachtung eines Bonitäts-Scores eine relativ gut interpretierbare Untersuchung möglich. Zusätzlich könnte die lineare Regression bei unseren Zeitreihendaten mit weiteren (ggf. erzeugten) Zeitvariablen in Verbindung mit erklärenden Variablen wie beispielsweise der durchschnittlichen Kontaktzahl von befragten Personen eine Verbesserung erzielen. In der Praxis werden zur Schätzung einer Zielgrösse tatsächlich oft mehrere erklärende Merkmale betrachtet. Es muss allerdings angemerkt werden, dass auch bei den letztgenannten Fällen andere Regressionsarten oder gar andere Verfahren besser sein können. Jedoch sind frei programmierte Lösungen tendenziell mit einem grösseren Einführungs- und Wartungsaufwand verbunden.

Als Ansprechpartner rund um alle Analytics-Themen stehen wir Ihnen jederzeit zur Verfügung und unterstützen Sie insbesondere gern bei der Auswahl und Implementierung der besten Prognoseverfahren. Kontaktieren Sie uns wann immer erwünscht – auch bei allgemeinen Fragen oder Anregungen.

Jared Hirschner, SAP Data Scientist, NTT DATA Business Solutions
E-Mail: [email protected]

Ist hiervon etwas für Sie besonders interessant oder haben sich Fragen aufgetan?

Dann nehmen Sie gern Kontakt mit uns auf!

JETZT KONTAKTIEREN