Blogreihe: Data Science mit SAP
Jared Hirschner | Juni 27, 2024 | 4 min

Die wichtigsten Informationen im Überblick

In den letzten Blogbeiträgen haben wir Prognoseszenarien und anderweitig bereitgestellte Vorhersageverfahren der SAP Analytics Cloud behandelt, wie etwa die lineare Regression, die exponentielle Glättung oder die automatische Prognose. Zudem haben wir die möglichen Anwendungen der Programmiersprache R und vielfältigen Möglichkeiten der SAP HANA-Technologie in Bezug auf maschinelles Lernen (ML) betrachtet. Der letzte Teil der Blogreihe fasst die wichtigsten Erkenntnisse zusammen.

Aus vergangenem Anlass lag der Fokus der Ausführungen zur Data Science mit SAP eingangs auf der Modellierung der Schweizer Fallzahlen des Coronavirus, da es sich direkt und indirekt negativ auf verschiedenste Branchen auswirkte. Dieses nachvollziehbare Beispiel beruhte auf echten Daten und erklärt anschaulich grundlegende statistische Muster wie regelmässige zeitabhängige Schwankungen («Saisonalitäten»). Ausgehend von diesem Thema wurde auf die methodischen Grundlagen verschiedener Vorhersageverfahren eingegangen. Diese entziehen sich oftmals der Betrachtung und der Kenntnis des Nutzers, weswegen sie allgemein verständlich skizziert wurden. Die modellhaften Darstellungen besitzen im übertragenen Sinne eine lange Halbwertszeit. So haben Sie beispielsweise verschiedene Aspekte der Zeitreihenanalyse kennengelernt, die nicht nur in der SAP Analytics Cloud gültig sind. Auch die Einordnung der thematisierten Programmiersprachen kann sowohl auf andere fachliche Beispiele als auch auf die erweiterte Nutzung alternativer Plattformen angewandt werden.

Weiter wurden überblicksartig insbesondere die vielfältigen Möglichkeiten der SAP HANA-Technologie in Bezug auf maschinelles Lernen (ML) vorgestellt. Zentral waren hierbei die Predictive Analysis Library (PAL) und sowie die Automated Predictive Library (APL). Methodisch wurde vertiefend ausserdem auf ein Entscheidungsbaumverfahren eingegangen, dessen Funktionsweise als Vertreter einer ML-Methodik besonders gut zu erklären ist. Mit diesem sollte der exemplarische Einstieg in das maschinelle Lernen erleichtert werden. Unser PAL-Beispiel zur Predictive Maintenance ist dabei für zahlreiche Unternehmen sehr relevant. Aber auch die Erkennung von Betrugsfällen sowie alle weiteren Beispiele können gerade für Unternehmen ab mittlerer Grösse von Interesse sein. Wichtig ist hierbei, dass mit den erwähnten Verfahren jeweils lediglich ein erster konkreter Referenzpunkt zum beispielhaften Verständnis geschaffen werden sollte. Selbstverständlich sind zahlreiche weitere Verfahren verfügbar. Daher wurde sowohl ein gesamthafter Überblick zu den Kapazitäten der verschiedenen Technologien geboten als auch konkrete und nachvollziehbare Beispiele aufgezeigt. Denn gerade die exemplarische Auseinandersetzung hilft dabei, die mitunter verbreitete Wahrnehmung der Data Science als Blackbox zu überwinden.

Relevant wird Data Science insbesondere durch datenbasierte Vorhersagen. Diese sind für ein vorausschauendes Handeln oft förderlich. Es kann jedoch selbstverständlich auch solche Sachverhalte geben, die sich beispielsweise mangels Daten, nicht oder nur schlecht erklären beziehungsweise prognostizieren lassen. Dann kann die Analyse von Planungsdaten, die auf verschiedenen Annahmen beruht, mit Lösungen wie der SAC hilfreich sein. Deskriptive, explorative und planerische Funktionen werden im Gegensatz zu den verfügbaren Vorhersageverfahren jedoch häufiger voraus- und eingesetzt, weswegen das Hauptaugenmerk durchgängig auf den tendenziell eher weniger vertrauten prädiktiven Kapazitäten lag. Letztlich ist es meist ein weiteres Ziel, gewonnene Vorhersageergebnisse weiterzuverwenden und aus ihnen Handlungen abzuleiten. In dem Fall des vorgestellten Predictive Maintenance-Ansatzes wurde eine leicht exportier- und druckbare SAC-Story mit den vom Ausfall bedrohten Maschinen erzeugt, die auch automatisch per E-Mail versandt werden, kann. Eine entsprechende Reaktion auf die Benachrichtigung müsste durch eine verantwortliche Person erfolgen. Zusätzlich wäre beispielsweise auch die autonome Bestellung von Ersatzteilen auf prädiktiver Basis denkbar.

Dass sich Standardlösungen wie beispielsweise die SAC und die SAP HANA-Plattform hervorragend ergänzen können, wurde durch obige Ausführungen und gerade am letztgenannten Fallbeispiel besonders deutlich: So stehen zahlreiche Verfahren des maschinellen Lernens seitens der SAP HANA-Technologie in Verbindung mit einer in der Regel hochperformanten Verarbeitungsumgebung bereit. Zugehörige Ergebnisse können sehr flexibel und aktuell in der SAC betrachtet, berichtet und analysiert werden. Dabei kann erneut angemerkt werden, dass auch hinsichtlich dieser Cloudlösung prädiktive Standardmöglichkeiten zur Verfügung stehen und gerade durch die regelmässigen Updatezyklen zusätzliche Erweiterungen zu erwarten sind. Aus praktischer Sicht erweist sich in der SAC das reine Konsumieren von Endergebnissen bislang als besonders vorteilig im Hinblick auf die Laufzeit. Erwähnt werden sollte ebenfalls, dass mit der SAP Datasphere eine integrative Nutzung von SAP HANA- und SAP Analytics Cloud-Funktionalitäten und somit eine Kombination der Vorzüge beider Technologien möglich ist, zumal Datasphere-Datenflüsse mit Python modifiziert werden können. Im Übrigen kann die (On-Premise-)SAP HANA-Technologie neben den Aspekten der Datenverarbeitung und der datenbasierten Vorhersage durch die Möglichkeiten des XS Advanced-Applikationsservers zusätzlich noch verschiedenste weitere Aufgaben abdecken.

Insgesamt lag der Schwerpunkt dieser Blogreihe zwar auf der einfachen Erklärung SAP-technologischer Möglichkeiten, allerdings standen dabei gleichzeitig auch Themen im Vordergrund, die heute in verschiedensten Data Science-Fragestellungen und nicht nur im SAP-Kontext eine besondere Rolle spielen. So haben Sie nicht zuletzt mögliche Anwendungen der Programmiersprachen Python und R kennengelernt, wobei R hierbei besonders prominent vertreten war. Die vorgestellten Szenarien sind dabei jeweils keine exotischen Beispiele, denn seit einigen Jahren werden beide Programmiersprachen sehr verbreitet und mannigfaltig eingesetzt. Mit den durch sie ermöglichten statistischen Eigenentwicklungen können teils sogar verbesserte Vorhersageleistungen als mit fertigen Lösungen erzielt werden, allerdings sind diese im Sinne einer Kosten-Nutzen-Analyse stets zu hinterfragen. Geringe Verbesserungen rechtfertigen nicht jeden Entwicklungs- und Wartungsaufwand. Auch methodisch haben Sie übertragbares Wissen gesammelt und nicht zuletzt über Aufgaben der Klassifikation, der Regression sowie der Zeitreihenanalyse gelernt.

Bereits heute stehen vielfältige Data Science-Methodiken im Kontext von SAP-Lösungen bereit. Gerade die beschriebene Standardnähe eröffnet grosses Potenzial bei gleichzeitig meist überschaubaren Anpassungen der Architektur – sofern diese überhaupt nötig sind, um die teils noch wenig bekannten Chancen zu nutzen.

Exkurs für Fortgeschrittene: Falschgelderkennung per neuronalem Netz

Auch neuronale Netzwerke lassen sich mittels SAP HANA Machine Learning-Prozeduren aufbauen. Diese eignen sich insbesondere für verschiedenste Anwendungen der Klassifikation oder der Regression. Als Beispiel der Klassifikation ist an dieser Stelle die Aufgabe zu lösen, Falschgeld zu erkennen. Dies erfolgt auf Basis der erklärenden Variablen der Varianz, der Schiefe und der Wölbung der Bildwerte – jeweils unter Wavelet-Transformation sowie unter Berücksichtigung der Entropie. Als Ergebnis ergibt sich die kategoriale Einschätzung 0 als keine Fälschung oder aber 1 als Fälschung. Der zugehörige Prototyp wurde per SAP HANA Python ML Client lokal entwickelt und weisst in der zehnfachen Cross-Validierung einen durchschnittlichen Recall-Score von über 0.99 auf. Hierbei wurde im – bewusst einfach gehaltenen – neuronalen Netz nur eine Zwischenschicht verwendet, wie sie auch in der Abbildung ersichtlich ist.

 

Whitepaper: Data Science mit SAP

Mehr denn je entscheidet die Nutzung von Informationen über die eigene Wettbewerbsposition. Kann ein Unternehmen beispielsweise den Wunsch nach einem Produkt oder einer Produktkonfiguration früh antizipieren und entsprechend bedienen, so eröffnen sich Chancen der Wertschöpfung für und mit dem Kunden. Risikoseitig zeigte nicht zuletzt auch die COVID-19-Pandemie wie wichtig die Nutzung von Daten sein kann – gerade im Zusammenhang mit der Planung von Behandlungs- oder aber Produktionskapazitäten.

Ganz allgemein betrachtet, wird die moderne Datenanalyse durch bahnbrechende Entwicklungen unterstützt, sowohl in Bezug auf Hardware- als auch im Hinblick auf Software-Komponenten. Ermöglicht wird jeder datenbasierte Ansatz jedoch erst durch eine entsprechend vorhandene und gepflegte Datengrundlage.

Unser Experte Jared Hirschner, SAP Senior Professional Consultant / Data Scientist, informiert Sie in diesem Whitepaper wie Sie mehr aus Ihren Daten herausholen.

Jetzt Whitepaper herunterladen

Blogreihe: Data Science mit SAP

Jared Hirschner

Ich helfe Ihnen gerne weiter

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten? Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Jared Hirschner

Expert Consultant / Data Scientist

Lesen Sie die Blogbeiträge unserer Expert:innen

Blogreihe: Data Science mit SAP