Blogreihe: SAPs Open-Data-Partnerschaften
Esmaeil Wafaei | Oktober 29, 2024 | 7 min

SAP Datasphere trifft Databricks

In einer digitalisierten Welt sind Daten das Herzstück jeder erfolgreichen Unternehmensstrategie. SAP unterstützt Unternehmen dabei, ihre Daten effizient zu verwalten und wertvolle Einblicke zu gewinnen. Durch Partnerschaften mit Collibra, Confluent, Databricks, DataRobot oder Google Cloud wird die Datenlandschaft radikal vereinfacht. In dieser Blogreihe stellen wir die verschiedenen Partnerschaften von SAP vor und zeigen auf, wie Sie als SAP-Kunden von diesen Partnerschaften profitieren und Mehrwerte aus Ihren Geschäftsdaten generieren.

Die Integration von SAP Datasphere mit Databricks eröffnet Unternehmen neue Möglichkeiten, ihre Datenanalyse und -verarbeitung effizienter zu gestalten. Durch die Aufnahme von Databricks in das SAP Datasphere OpenData Partnernetzwerk wird es möglich, die jeweiligen Stärken beider Plattformen synergetisch  zu nutzen und innovative Lösungen zu entwickeln. In diesem Blogbeitrag werfen wir einen Blick auf die zentralen Integrationsmethoden und veranschaulichen anhand eines Beispiels aus dem Bereich Predictive Maintenance, wie diese Integration in der Praxis aussehen kann.

 

Was ist Databricks?

Databricks ist eine cloudbasierte Plattform, die speziell dafür entwickelt wurde, grosse Datenmengen effizient zu verarbeiten und zu analysieren. Basierend auf der leistungsstarken Apache Spark-Engine und der Lakehouse-Architektur kombiniert sie die Vorteile von Data Lakes und Data Warehouses in einer einheitlichen Umgebung. Diese Architektur ermöglicht es Unternehmen, sowohl strukturierte als auch unstrukturierte Daten zentral zu verarbeiten. So können beispielsweise strukturierte ERP-Daten deutlich einfacher mit semi-strukturierten Websitedaten und unstrukturierten Inhalten wie Textdokumenten, Bildern oder Videos kombiniert und analysiert werden.

Als Multi-Cloud Plattform bietet Databricks Unternehmen die Flexibilität, den Hyperscaler ihrer Wahl zu nutzen und gleichzeitig bestehende Cloud-Investitionen weiterhin zu verwenden. Databricks spielt eine führende Rolle im Bereich der Künstlichen Intelligenz und ermöglicht fortschrittliche Algorithmen auf SAP-Daten anzuwenden, um tiefere Einblicke zu gewinnen und präzisere Vorhersagen zu treffen. Ein Highlight der Plattform ist die Unterstützung von Large Language Models (LLMs), die komplexe Sprachverarbeitung im Stil von ChatGPT erlauben. Der Databricks Unity Catalog spielt dabei eine zentrale Rolle, indem er eine einheitliche Data Governance sicherstellt und in Kombination mit den SAP Datasphere-Katalogisierungsfunktionen die Verwaltung von unterschiedlichsten Daten- und KI-Assets vereinfacht.

Vorteile der Integration von SAP Datasphere und Databricks

Die Integration von SAP Datasphere und Databricks erleichtert es Unternehmen, ihre Datenstrategien zu realisieren und gleichzeitig die Effizienz ihrer Prozesse zu steigern. Im Folgenden finden Sie eine Übersicht der wichtigsten Vorteile einer solchen Integration:

Nahtlose Integration mit dem SAP-Ökosystem

SAP Datasphere ermöglicht eine tiefe Vernetzung mit SAP-Systemen, während die Anbindung von Databricks an diese Infrastruktur erweiterte Analysefunktionen bietet. Dies erfolgt, ohne dass Unternehmen ihre IT-Landschaft gravierend verändern müssen, und stellt sicher, dass Datenanalysen sicher und effizient in bestehende Prozesse integriert werden.

Erweiterte Datenverarbeitung

Durch die Kombination von SAP Datasphere und Databricks können Unternehmen komplexe re Datenverarbeitungsanforderungen bewältigen. SAP Datasphere sorgt für eine robuste Verwaltung und Integration von Unternehmensdaten, während Databricks die Fähigkeit mitbringt, grosse Mengen an strukturierten und unstrukturierten Daten effizient zu verarbeiten und tiefgreifende Analysen mittels KI zu ermöglichen.

Beispielsweise könnten Planungsanwendungen in SAP Datasphere und SAP Analytics Cloud entwickelt werden, die Echtzeitzugriff auf Big Data in Databricks bieten. Dies eröffnet Anwendern eine hoch moderne Dimension der Planung – so könnten sie im selben Dashboard nicht nur Produktionspläne erstellen, sondern gleichzeitig den aktuellen Zustand der Maschinen sowie prognostizierte Maschinenausfälle überwachen, um fundiertere Entscheidungen zu treffen (siehe Praxisbeispiel).

Flexibilität und Geschwindigkeit

Die gemeinsame Nutzung von SAP Datasphere und Databricks bietet Unternehmen die Flexibilität, schnell auf verschiedene  Datenquellen zuzugreifen und diese in Echtzeit zu analysieren. Diese Fähigkeit ist besonders wertvoll in dynamischen Geschäftsumfeldern, in denen schnelle Reaktionen und fundierte Entscheidungen entscheidend sind.

Überblick über die Integrationsmöglichkeiten

Föderierter SQL-Zugriff via FedML-Python-Bibliothek

Ein bedeutender Ansatz ist die Nutzung der Federated Machine Learning (FedML)-Bibliothek in Databricks. Diese Methode ermöglicht es, in Databricks trainierte Machine-Learning-Modelle direkt auf Daten anzuwenden, die in SAP Datasphere gespeichert sind, ohne dass diese Daten physisch aus dem SAP-System herausbewegt werden müssen. Stattdessen können Unternehmen Daten föderieren, also direkt darauf zugreifen und sie verarbeiten, ohne sie physisch verschieben zu müssen. Dies ist besonders vorteilhaft in Umgebungen mit hohen Sicherheitsanforderungen, da die Daten innerhalb der bestehenden SAP-Architektur verbleiben und somit die Datensicherheit gewährleistet bleibt. Die Ergebnisse der Analysen können anschliessend nahtlos in die SAP HANA-Datenbank von Datasphere zurückgespielt werden, wo sie weiterverarbeitet und beispielsweise in SAP Analytics Cloud visualisiert werden können.

SQL-Zugriff via JDBC

Die Integration von SAP Datasphere mit Databricks über Java Database Connectivity (JDBC) ermöglicht eine direkte, bidirektionale Kommunikation zwischen den beiden Plattformen, wodurch Daten in Echtzeit ausgetauscht werden können. Diese Verbindung unterstützt nicht nur Machine-Learning-Anwendungsfälle, sondern bietet auch umfangreiche Möglichkeiten für die Datenverarbeitung und Analyse in Echtzeit. Auch hier ist eine Föderation der Daten möglich, wodurch Daten direkt genutzt werden können, ohne sie physisch verschieben zu müssen. Durch die JDBC-Verbindung haben Unternehmen die Möglichkeit, systemübergreifende Datenmodelle zu erstellen, Echtzeitberichte zu generieren und Ad-hoc-Analysen durchzuführen. Diese Methode bietet hohe Flexibilität und reduziert den Aufwand für die Datenhaltung erheblich. Zudem entfallen zusätzliche Speicheranforderungen sowie die bei Datenübertragungen üblichen Kosten, da grosse Datenmengen nicht zwischen den Plattformen verschoben werden müssen.

Datenreplikation via Hyperscaler

Für tiefergehende Analysen und komplexe Auswertungen kann es notwendig sein, Daten vollständig aus den SAP-Systemen in einem Lakehouse zu extrahieren. Diese Methode bietet eine grössere Flexibilität bei der Verarbeitung und Analyse, insbesondere wenn Databricks als zentrale Analyseplattform eingesetzt wird. Unternehmen können dabei zwischen Full Load und Delta Load-Fähigkeiten von SAP Datasphere wählen: Während bei einem Full Load die gesamten Daten in regelmässigen Abständen vollständig übertragen werden, ermöglicht der Delta Load die Übertragung nur der veränderten Datensätze, was Ressourcen schont und die Effizienz steigert. SAP Datasphere übernimmt dabei nicht nur die Extraktionslogik und sorgt dafür, dass die semantische Integrität der Daten erhalten bleibt, sondern auch das Monitoring des Replikationsprozesses, um einen kontinuierlichen und reibungslosen Ablauf sicherzustellen.

Praxisbeispiel: Predictive Maintenance

In diesem Praxisbeispiel wurden Maschinendaten, die verschiedene Parameter wie Lufttemperatur, Drehmoment, Werkzeugverschleiss und andere relevante Messgrössen beinhalten, von SAP Datasphere nach Databricks föderiert. Dies wurde unter Verwendung der Federated Machine Learning (FedML)-Bibliothek umgesetzt, wodurch eine Replikation der Daten nicht notwendig war.

Analyse und Modellierung in Databricks

Im nächsten Schritt wird in Databricks ein Random Forest Modell eingesetzt, um Maschinendaten zu analysieren und potenzielle Ausfallmuster zu erkennen. Random Forest ist nur eines von vielen Machine-Learning-Verfahren, die in Databricks verwendet werden können, um umfangreiche und komplexe Datensätze zu verarbeiten.

Die Daten werden dabei hauptsächlich in Notebooks verarbeitet, die eine interaktive Umgebung für Datenanalysen bieten. Diese Notebooks ermöglichen es, Python, SQL und andere Programmiersprachen direkt auszuführen, um Daten zu visualisieren und die Ergebnisse in Echtzeit zu interpretieren. Dieser Ansatz bietet nicht nur Flexibilität bei der Programmierung, sondern unterstützt auch die kontinuierliche Verbesserung von Machine-Learning-Modellen. Durch die Möglichkeit, verschiedene Sprachen und Tools in einem zentralen Arbeitsbereich zu verwenden, können Nutzer sehr effizient verschiedenste Erkenntnisse aus den Daten ziehen und diese effektiv in ihre Analysen einfliessen lassen.

Das folgende Bild zeigt beispielsweise eine Visualisierung der Feature Importance (Variablenbedeutung) des Modells. Aus dieser geht hervor, dass das Drehmoment (Torque_Nm) die grösste Bedeutung für die Vorhersagen hat, gefolgt von der Werkzeugverschleisszeit (Tool_wear_min) und der Rotationsgeschwindigkeit (Rotational_speed_rpm). Der Nutzer kann anschliessend die fachliche Bedeutung der Ausprägung interpretieren.

Rückführung und Weiterverarbeitung der Ergebnisse

Nachdem das Random-Forest-Modell erfolgreich trainiert und validiert wurde, kann es verwendet werden, um Vorhersagen anhand neuer Datensätze zu treffen. Diese Vorhersagen werden entweder föderiert oder repliziert in die SAP Datasphere-Prozesse eingebunden, wo sie weiter angereichert oder verarbeitet werden können, um zusätzliche Erkenntnisse zu gewinnen oder spezifische Geschäftsanforderungen zu erfüllen.

Visualisierung in SAP Analytics Cloud

Die aufbereiteten Ergebnisse werden schliesslich in SAP Analytics Cloud visualisiert. Im folgenden Bild sind die vorhergesagten Maschinenausfälle sowohl tabellarisch als auch graphisch dargestellt. Die benutzerfreundlichen Dashboards bieten nicht nur technische Einblicke, sondern auch fundierte Entscheidungsgrundlagen, um proaktiv auf mögliche Maschinenausfälle zu reagieren. Die Visualisierung zeigt deutlich die kritischen Bereiche, in denen präventive Massnahmen ergriffen werden sollten, um Ausfallzeiten zu minimieren und die Effizienz der Produktion zu sichern.

 

Fazit

Die Zusammenarbeit zwischen SAP und Databricks eröffnet Unternehmen völlig neue Möglichkeiten in der Datenanalyse und -verarbeitung. Durch die Kombination der leistungsstarken Datenverwaltungsfunktionen von SAP Datasphere mit den fortschrittlichen Analysewerkzeugen von Databricks können Unternehmen ihre Datenstrategien auf eine neue Ebene heben und ihre Wettbewerbsfähigkeit steigern. Unsere Demo im Bereich Predictive Maintenance zeigt das Potenzial dieser Partnerschaft: Daten können effizient verarbeitet und innovative Anwendungsfälle, wie die vorausschauende Wartung, erfolgreich umgesetzt werden. Mit der Fähigkeit, Echtzeitdaten zu analysieren, Machine-Learning-Algorithmen zu integrieren und präzise Vorhersagen zu treffen, können operative Prozesse entscheidend optimiert werden.

Blickt man in die Zukunft, wird die Nutzung von Echtzeitdaten und die Integration von KI-gestützten Analysetools zunehmend an Bedeutung gewinnen. Unternehmen werden mehr und mehr auf flexible und skalierbare Datenverarbeitungsplattformen setzen, um schnelle und fundierte Entscheidungen treffen zu können. Gleichzeitig wird die Sicherheit und Governance von Daten weiterhin eine zentrale Rolle spielen, um den steigenden Anforderungen gerecht zu werden. Unternehmen, die frühzeitig auf diese Technologien setzen, können ihre Prozesse optimieren und ihre Wettbewerbsposition langfristig stärken.

Esmaeil Wafaei

Sprechen Sie uns an

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten?

Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Wir helfen Ihnen gerne weiter!

Esmaeil Wafaei

Analytics Consultant

Das könnte Sie ebenfalls interessieren

Blogreihe: SAPs Open-Data-Partnerschaften