Blogreihe: SAPs Open-Data-Partnerschaften

Partnerschaften: SAP Datasphere und DataRobot

In einer digitalisierten Welt sind Daten das Herzstück jeder erfolgreichen Unternehmensstrategie. SAP unterstützt Unternehmen dabei, ihre Daten effizient zu verwalten und wertvolle Einblicke zu gewinnen. Durch Partnerschaften mit Collibra, Confluent, Databricks, DataRobot oder Google Cloud wird die Datenlandschaft radikal vereinfacht. In dieser Blogreihe stellen wir die verschiedenen Partnerschaften von SAP vor und zeigen auf, wie Sie als SAP-Kunden von diesen Partnerschaften profitieren und Mehrwerte aus Ihren Geschäftsdaten generieren.

Die angekündigte Partnerschaft zwischen der SAP und DataRobot stellt einen bedeutenden Fortschritt in der Weiterentwicklung von SAP Datasphere dar. Unternehmen könnten durch diese Zusammenarbeit ihre Daten effizienter nutzen, indem sie fortschrittliche Machine-Learning-Modelle und KI-gestützte Prozesse in ihre Geschäftsabläufe integrieren.

Younes Herrag | Oktober 15, 2024 | 7 min

Die Integration von DataRobot in die SAP-Umgebungen ermöglicht es Unternehmen, die Stärken beider Plattformen zu kombinieren. DataRobot erlaubt eine Komplexitätsreduktion des maschinellen Lernens und die Entwicklung sowie die Implementierung von ML-Modellen ohne tiefgehende Daten- oder Programmierkenntnisse. SAP Datasphere positioniert sich unter anderem als zentraler Hub für Daten. Das Hauptziel der Implementierung besteht darin, eine «One Stop»-Lösung zu schaffen, indem wir Daten aus verschiedenen Quellsystemen in der Datasphere speichern. Im Vergleich zu SAP BW bietet SAP Datasphere mehrere Vorteile, die es ebenfalls zu einer attraktiven Option für Geschäftsanwender:innen macht. SAP Datasphere legt den Fokus auf Self-Service-Funktionalitäten. Somit können Fachanwender:innen, mit dem für die semantische Modellierung konzipierten Data Builder eigenständig Modelle und Berichte erstellen. Darüber hinaus erlaubt SAP Datasphere eine strikte Trennung der Verantwortlichkeiten zwischen IT und Fachabteilungen. Die IT-Abteilung kann sich auf technische Aspekte wie Datenbereinigung, Datenaufbereitung, Geschäftslogik, Hochverfügbarkeit, Performance und Datenzugriffskontrolle konzentrieren. Gleichzeitig können die Fachabteilungen auf Basis der aufbereiteten Datenmodelle arbeiten und diese mit CSV-Uploads anreichern und ergänzen. Ein weiteres wichtiges Merkmal ist die SAP BW Bridge. Diese Erweiterung von SAP Datasphere kann die Migration von Datenflüssen aus lokalen Systemen in die Cloud erleichtern. Auf diese Weise könnte die Datenmodellierung in SAP Datasphere mit Daten aus dem SAP BW-System erfolgen, ohne dass ein vollständiges SAP BW/4HANA-System erforderlich ist.

Im Zusammenspiel ergänzen sich die beiden Tools, um die Data Driven Strategie im Unternehmen voranzutreiben. Datasphere ist für die Datensicherheit, Datenintegration und Skalierbarkeit zuständig. DataRobot wird verwendet, um automatisiertes maschinelles Lernen bereitzustellen und es  Unternehmen zu ermöglichen, prädiktive Modelle schneller und effizienter zu erstellen, zu deployen und zu verwalten. Das Schaubild zeigt die verschiedenen Anwendungsmöglichkeiten in denen DataRobot im Zusammenspiel mit SAP AI einen Mehrwert für Unternehmen generieren kann.

Über DataRobot

DataRobot, gegründet im Jahr 2012, ist eine führende Plattform für automatisiertes maschinelles Lernen, die entwickelt wurde, um den gesamten Prozess der Modellentwicklung und -implementierung zu vereinfachen und zu beschleunigen. Mit DataRobot können Benutzer:innen, unabhängig von ihrem technischen Fachwissen, schnell und effizient leistungsstarke maschinelle Lernmodelle erstellen. Die Plattform automatisiert wesentliche Schritte wie die Datenvorverarbeitung, Merkmalsextraktion, Modellauswahl und -optimierung. DataRobot zeichnet sich durch eine Webansicht aus, die es sowohl Datenwissenschaftler:innen als auch Geschäftsanwender:innen ermöglicht, komplexe Analysen durchzuführen und fundierte Entscheidungen zu treffen.

Die Hauptfunktionen von DataRobot

Eine der Hauptfunktionen von DataRobot ist die automatisierte Modellierung. Die Plattform verwendet Rohdaten und wandelt sie automatisch in ML-Modelle um, was Zeit und Kosten sparen kann, die sonst für das manuelle Erstellen und Testen von Modellen benötigt würden.

Ein weiterer wichtiger Aspekt von DataRobot ist die Datenvorbereitung. Die Plattform bereinigt und organisiert die Daten, um sie für die Modellierung nutzbar zu machen. Dadurch müssen sich die Benutzer:innen nicht mit komplexen Datenvorbereitungsprozessen auseinandersetzen. Zudem führt DataRobot automatisiertes Feature Engineering durch, wobei insbesondere neue Merkmale (Features) aus den vorhandenen Daten erstellt werden können, die für die Vorhersagemodelle relevant sind. Dies zielt auf bessere Vorhersagen durch die Nutzung relevanter Merkmale.

Abbildung 1 Modellierungsprozess anhand von Rohdaten

Die Modellvalidierung und Auswahl ist eine weitere zentrale Funktion von DataRobot. Die Plattform testet verschiedene Modelle und wählt das akkurateste Modell aus, sodass Benutzer:innen, ohne selbst zahlreiche Tests durchführen zu müssen, das geeignetste Modell erhalten. DataRobot erleichtert auch die Bereitstellung und Überwachung von Modellen, indem es die Integration der Modelle in bestehende Systeme ermöglicht und deren Leistung kontinuierlich überwacht. Dies stellt sicher, dass die Modelle stets aktuelle und präzisere Vorhersagen liefern.

Der Mehrwert von DataRobot liegt in mehreren Bereichen. Die Automatisierung der Prozesse kann zu einer Zeitersparnis bei der Entwicklung und Implementierung von ML-Modellen führen. Dank der Benutzerfreundlichkeit können Anwender:innen  ohne tiefgehende Kenntnisse im maschinellen Lernen komplexe Analysen durchführen. Durch automatisierte Modelltests und -auswahl können genauere und zuverlässige Vorhersagen getroffen werden. Zudem ermöglicht die Plattform eine effiziente Skalierbarkeit, sodass Unternehmen ML-Modelle in grossem Umfang einsetzen können.

DataRobot verwendet eine Vielzahl von Algorithmen, um genaue Vorhersagen zu treffen. Ein grundlegender Algorithmus ist die lineare Regression, die zur Vorhersage von kontinuierlichen Werten wie Umsatz oder Preis verwendet werden kann. Schematisch ausgedrückt, wird hierbei eine gerade Linie mit einer bestimmten Höhe und Neigung in die Punktewolke der beobachteten Daten gelegt, sodass sie die Summe der Abstände zwischen ihr und den Datenpunkten minimiert. Entscheidungsbäume werden sowohl für Klassifikations- als auch für Regressionsaufgaben eingesetzt. Sie nutzen eine Baumstruktur, die Daten in Kategorien aufteilt, um Vorhersagen zu treffen. Der Random Forest-Algorithmus kombiniert viele Entscheidungsbäume, um genauere Vorhersagen zu ermöglichen. Um ein tieferes Verständnis über die einzelnen Algorithmen zu  erlangen, ist die folgende Blogreihe ebenfalls lesenswert: SAP HANA: Advanced Analytics und Machine Learning

Gradient Boosting ist ein weiterer wichtiger Algorithmus, der für eine hohe Vorhersagegenauigkeit genutzt werden kann. Hierbei werden sukzessive einfache Modelle (z.B. Entscheidungsbäume) erstellt und diese zu einem stärkeren Ensemblemodell kombiniert. Neurale Netzwerke, die für komplexe Aufgaben wie die Bilderkennung oder Sprachverarbeitung eingesetzt werden, bestehen häufig aus einer Vielzahl von Schichten sogenannter «Neuronen», die zusammenarbeiten, um Muster in den Daten zu erkennen. Diese Algorithmen ermöglichen es DataRobot, eine breite Palette von Vorhersageaufgaben präzise und effizient zu bewältigen.

Abbildung 2 Automatisiertes generieren von Modellen

Insgesamt bietet DataRobot eine Plattform, die es Unternehmen ermöglicht, die Leistungsfähigkeit des maschinellen Lernens zu nutzen, ohne tiefgehendes Fachwissen zu benötigen. Durch die Automatisierung von Datenvorbereitung, Modellierung, Validierung und Bereitstellung können Unternehmen präzise Vorhersagen treffen – und das deutlich schneller und effizienter.

Eine vollständige Liste der unterstützten Algorithmen finden Sie hier.

Use-Case: Optimierung der Verkaufsprognosen mit SAP Datasphere und DataRobot

In der Verkaufsprognosenanalyse werden historische Verkaufsdaten genutzt. Diese Daten werden mithilfe der SAP Datasphere/HANA Cloud aus dem SAP ERP geladen und mit den externen Datenquellen aggregiert. Der Zugriff erfolgt über einen JDBC-Connector, der es DataRobot ermöglicht, die Daten von SAP Datasphere zu übernehmen und für weitere Analysen zu nutzen. Java-Database-Connectivity (JDBC) Treiber ermöglichen eine direkte, bidirektionale Kommunikation zwischen den beiden Plattformen, wodurch Daten in Echtzeit ausgetauscht werden können.

Abbildung 3 zeigt JDBC-Anbindung in DataRobot

Feature Engineering und Training prädiktiver Modelle

Für die Multiserienmodellierung stehen insbesondere die folgenden Daten zur Verfügung:

  • Historische Umsatzzahlen: Zeitreihen von Umsätzen für jede Region oder Geschäftseinheit.
  • Saisonale Variablen: wie Feiertage Trends, die den Umsatz beeinflussen könnten.
  • Wirtschaftsdaten: Externe wirtschaftliche Indikatoren, die möglicherweise einen Einfluss auf die Umsätze haben, wie z.B. Inflation, Arbeitslosenquote.
  • Marketingdaten: Daten zu Marketingkampagnen oder Werbemassnahmen, die zu Umsatzänderungen führen könnten.

Im vorliegenden Fall haben wir historische Verkaufsdaten genutzt, um verschiedene Muster und Trends zu analysieren. Nach der Datenaufnahme führte DataRobot eine gründliche explorative Datenanalyse durch, wobei potenzielle Datenqualitätsprobleme erkannt und automatisch neue Features sowie relevante Feature-Sets erstellt wurden. Dies ermöglichte es uns, eine Vielzahl von 64 Experimenten in kurzer Zeit durchzuführen.

Nach Durchführung mehrerer Experimente mit verschiedenen Modellen wird das leistungsstärkste Modell in DataRobot identifiziert. Dieses Modell wird anhand von OC-Kurven, Lift-Diagrammen und SHAP-Werten analysiert, um zu verstehen, welche Faktoren Verkaufsprognosen am stärksten beeinflussen.

Modellierung mit Datarobot

Mit den vorbereiteten Daten kann nun der Modellierungsprozess beginnen. DataRobot bietet hier eine Vielzahl von Modellierungsansätzen an. Für die Multiserienprognose kommen spezielle Zeitreihenmodelle wie ARIMA (AutoRegressive Integrated Moving Average), Prophet oder LSTM-Netzwerke (Long Short-Term Memory) in Betracht. Diese Modelle sind in der Lage, die komplexen Muster und Beziehungen zwischen den verschiedenen Zeitreihen zu erfassen und präzise Prognosen zu erstellen. Während des Modelltrainings werden die Modelle auf den historischen Daten geschult, wobei DataRobot automatisch verschiedene Modellvarianten testet und die besten Ansätze auswählt. Das Hyperparameter-Tuning, also die Optimierung der Modellparameter, hilft dabei, die Prognosegenauigkeit weiter zu verbessern.

Abbildung 4 Modellierungsprozess in DataRobot

Modellbewertung & Implementierung

Nach dem Training erfolgt die Modellbewertung. Hierbei wird die Leistung der Modelle anhand von Metriken wie dem Mean Absolute Percentage Error (MAPE), dem Root Mean Squared Error (RMSE) oder dem Mean Absolute Error (MAE) beurteilt. Eine Kreuzvalidierung stellt sicher, dass die Modelle möglichst erwartungstreu sind und nicht überangepasst wurden. Zudem wird die Bedeutung der verschiedenen Merkmale analysiert, um zu verstehen, welche Faktoren den grössten Einfluss auf die Umsatzprognosen haben.

Sobald die besten Modelle identifiziert wurden, können die Prognosen für zukünftige Zeiträume erstellt werden. Datarobot bietet Funktionen zur Visualisierung dieser Prognosen, sodass die Ergebnisse in übersichtlichen Dashboards dargestellt werden können. Diese Prognosen können in die bestehende Business-Intelligence-Umgebung des Unternehmens integriert werden, um eine nahtlose Nutzung in Reporting-Tools und Dashboards zu ermöglichen.

Abschluss

Durch die Integration von SAP und DataRobot kann die Verkaufsprognosenanalyse effizienter und genauer stattfinden. Vertriebsteams und insbesondere das Management können somit vorausschauend Entscheidungen treffen, um die Verkaufsstrategie langfristig zu optimieren.

Durch die Anwendung von Multiserienmodellierung kann das Unternehmen präzisere Umsatzprognosen erstellen. Die Modelle berücksichtigen die Wechselwirkungen zwischen verschiedenen Zeitreihen (z.B. Umsätze aus unterschiedlichen Regionen oder Geschäftseinheiten) und erfassen komplexe Muster wie saisonale Effekte. Dies führt zu einer verbesserten Genauigkeit der Umsatzprognosen und ermöglicht eine zuverlässigere Planung. Zusätzlich können fundiertere strategische Entscheidungen getroffen werden.

Younes Herrag

Sprechen Sie uns an

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten?

Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Wir helfen Ihnen gerne weiter!

Younes Herrag

SAP Analytics Consultant

Das könnte Sie ebenfalls interessieren

Blogreihe: SAPs Open-Data-Partnerschaften