Blogreihe: Google Cloud Platform und SAP Datasphere
Martin Hesse | April 16, 2024 | 6 min

Anbindung von Google Big Query an die SAP Datasphere

Im letzten Teil unseres Integrationsblogs haben wir Ihnen gezeigt, wie Sie einen Google Cloud Storage basierten Data Lake an die SAP Datasphere anbinden. Dieses Szenario eignet sich hervorragend, um Daten aus Flat Flies oder Excel Dateien automatisiert in die SAP Datasphere zu übernehmen.

Der Big Query Konnektor ist dagegen primär auf die Live Anbindung von Daten ausgerichtet. Er ermöglicht die Erstellung von Remote Tables auf Big Query Ressourcen, die dann direkt in weiteren Views verwendet werden können. Natürlich können Sie die Daten auch replizieren bzw. diese per Data Flow weiterverarbeiten.

Google Cloud Platform Konto

Wie schon in den vorherigen Blogbeiträgen beschrieben (siehe Blog 1 und Blog 2), haben Sie mehrere Möglichkeiten, um ein Google Cloud Platform Konto einzurichten. Falls noch nicht geschehen, holen Sie dies bitte an dieser Stelle nach.

Wenn Ihr Unternehmen die GCP bereits nutzt, empfiehlt es sich, ein Projekt und ein Benutzerkonto von der zuständigen Abteilung einrichten zu lassen.

Sollte noch kein Konto bestehen, können Sie sich einfach und schnell registrieren, entweder für ein Unternehmens- oder ein privates Konto. Bei einem neuen Konto sind über ein Free Tier einige Dienstleistungen kostenfrei erhältlich, die Abrechnung der darüber hinaus gehenden Leistungen erfolgt nach Verbrauch.

Laden von Daten in Google Big Query

Im folgenden geben wir Ihnen eine detaillierte Anleitung, wie Sie Ihre Daten in Google Big Query, Googles Data Warehouse, hochladen. Zuerst wählen Sie bitte Big Query im Hauptmenü aus und gehen Sie in den SQL Workspace.

Hier sollten Sie links Ihr Projekt sehen. Klicken Sie bitte auf die drei Punkte rechts davon und erstellen Sie ein neues Dataset.

Geben Sie Ihrem Dataset einen entsprechenden Namen. Wählen Sie eine Ihnen naheliegende oder eine von Ihnen bereits genutzte Lokation und erstellen Sie das Dataset mittels Klick auf «Create Dataset».

Beachten Sie bitte, dass ausgehender Traffic je nach Destination kostenpflichtig ist. Daher sollten Sie genau planen, welche Lokation Sie verwenden. Datenschutzrichtlinien sollten bei der Wahl natürlich auch einbezogen werden.

Mittels Create Table können Sie nun die erste Tabelle erstellen und Daten importieren.

Für die Erstellung einer Tabelle bieten sich mehrere Optionen:

Sie können entweder eine leere Tabelle auswählen, direkt ein Flatfile von Ihrem lokalen PC oder Daten aus Google Drive, Google Cloud Storage oder anderen Quellen hochladen. Wir wählen hier Upload und selektieren eine CSV Datei auf unserem lokalen PC. Zur Anbindung von Google Cloud Storage möchte ich auch auf unseren vorherigen Blog verweisen.

Folgende Dateiformate werden hier unterstützt:

  • CSV
  • JSONL
  • Avro
  • Parquet
  • ORC

Stellen Sie bitte sicher, dass Sie das richtige Format für Ihre Datei auswählen, in der Regel wird dies eine CSV Datei sein. Geben Sie der Tabelle noch einen Namen und wählen Sie beim Schema Auto detect aus.

Bevor Sie die Tabelle nun erstellen, prüfen Sie bitte in den erweiterten Optionen, ob der richtige Column Delimiter der Datei gewählt wurde. Gerade im deutschsprachigen Raum ist dies aufgrund der Dezimaltrennzeichen oft ein Semikolon. Interessant ist auch die Option Quoted Newlines. Sollten in Ihren Daten Fliesstextfelder mit Zeilenumbrüchen vorhanden sein, werden diese ignoriert, solange sie in Anführungszeichen stehen.

Wenn Sie sichergestellt haben, dass alle Einstellungen korrekt sind, können Sie die Tabelle mit «Create Table» erstellen.

Es kann vorkommen dass eine Fehlermeldung erscheint, obwohl die Tabelle korrekt erstellt wurde. In diesem Falle können Sie den Dialog zum Erstellen der Tabelle mittels «Cancel» schliessen.

Um zu überprüfen, ob die Tabelle korrekt erstellt und die Daten geladen wurden, klicken Sie bitte auf die drei Punkte rechts der Tabelle und wählen Sie «Open».

Im nächsten Schritt wählen Sie im oberen Bereich bitte Query aus und ergänzen sie das SELECT Statement mit einem *.

Daraufhin sollten Sie im unteren Bereich die soeben hochgeladenen Daten sehen.

Einrichten des Service Accounts

Um den Zugriff auf die Dateien aus der Datasphere zu ermöglichen, benötigt es noch einen Service Account, dem Zugriff auf Big Query gewährt wird.

Sie können diesen über Service Accounts im Bereich IAM & Admin erstellen:

Über einen Klick auf «Create Service Account» kann dieser konfiguriert werden.

Vergeben Sie einen Namen und klicken Sie auf «Create and Continue».

Weisen Sie dem User im nächsten Schritt die Rollen Big Query Data Viewer, Big Query Job User und Big Query Resource Viewer zu und erstellen Sie den Account durch einen Klick auf «Done».

Um die Verbindung in der Datasphere einzurichten, benötigen wir noch einen Schlüssel, der über einen Klick auf Manage Keys im Actions Menü des entsprechenden Eintrags erzeugt werden kann.

In der Schlüsselübersicht wählen Sie Add Key und dann Create new key:

Als Format wählen Sie bitte JSON und klicken Sie auf «Create».

Der Schlüssel wird nun als JSON Datei durch den Browser heruntergeladen. Bitte speichern Sie diesen an einem sicheren Ort, da dieser den direkten Zugriff auf den GCS Bucket ermöglicht. Sie benötigen diesen später bei der Einrichtung der Verbindung aus der Datasphere.

Der Schlüssel wird Ihnen nun in der Übersicht angezeigt.

Sollte der Schlüssel kompromittiert oder ein neuer benötigt werden, können Sie Ihn hier einfach löschen und einen neuen erzeugen.

Damit ist die Konfiguration abgeschlossen.

Root Zertifikate der Google Cloud Platform herunterladen

Nun müssen die Zertifikate der Google Root CAs in die Datasphere hochgeladen werden. Dies ist notwendig, um eine vertrauenswürdige Verbindung aus der Datasphere zur Google Cloud Platform herzustellen.

Wenn Sie dies bereits im Rahmen des vorherigen Blogs zur Google Cloud Storage Anbindung erledigt haben, können Sie diesen Abschnitt überspringen.

Sie erhalten die Zertifikate auf https://pki.goog/repository/.

Scrollen Sie ein wenig nach unten und laden Sie die folgenden Zertifikate im PEM Format herunter.

Navigieren Sie danach in der Datasphere zu Info -> Configuration -> Security und laden Sie die soeben heruntergeladenen Zertifkate mittels des + Buttons hoch.

Herstellen der Verbindung

Öffnen Sie die Verbindungen Ihres Spaces und klicken Sie auf den Create Button.

Als Verbindungstyp wählen Sie bitte Google Big Query.

Geben Sie den Namen des Projekts aus der GCP als Project an. Mit einem Klick auf den Button rechts neben dem Key können Sie die vorher gespeicherte Schlüsseldatei des Service Users hochladen.

Im nächsten Schritt können Sie noch einen Namen vergeben und die Verbindung mit «Create Connection» erstellen.

Überprüfen Sie im Hauptbildschirm kurz, ob alles geklappt hat, indem Sie auf den Validierungsknopf drücken.

Sollten Sie hier eine Fehlermeldung bekommen, prüfen Sie bitte alle vorherigen Schritte bevor Sie fortfahren und beheben Sie die Fehler.

Verwendung einer Big Query in einem Analytical View

Anschliessend können Sie Big Queries wie gewohnt im Data Builder verwenden.

Ein View wird analog einer Datasphere Tabelle oder Remote Tabelle aus anderen Systemen verwendet. Statt des Repositories verwenden Sie links einfach die Big Query Verbindung unter dem Tab Sources.

Sie können die Big Queries entweder direkt in einem Analytical Dataset oder zur weiteren Verwendung in einem Schichtenmodell verwenden. Ebenso können die Views natürlich mit Data Access Controls versehen oder mit Dimensionen assoziiert werden.

Ausblick

Wir hoffen, dieser Blog hat ein wenig Licht ins Dunkle gebracht und Ihnen bei der Einrichtung geholfen. Weitere Themen im Rahmen dieser Blogreihe werden unter anderem die Anbindung von Amazon AWS und Microsoft-Azure-Diensten sowie die Verwendung des SAP Connectors für Big Query sein.

Kontakt aufnehmen

Das könnte Sie ebenfalls interessieren

Sprechen Sie uns an

Sind Sie auf der Suche nach Antworten oder möchten Sie mehr Informationen über das Thema erhalten?

Nehmen Sie noch heute Kontakt mit uns auf und lassen Sie uns besprechen, wo Ihre Probleme liegen, was Sie erreichen wollen und wie wir Ihnen dabei helfen können.

Wir helfen Ihnen gerne weiter!

Martin Hesse

Martin Hesse

Senior Expert Analytics & BI