Google Cloud Platform Konto
Wie schon in den vorherigen Blogbeiträgen beschrieben (siehe Blog 1 und Blog 2), haben Sie mehrere Möglichkeiten, um ein Google Cloud Platform Konto einzurichten. Falls noch nicht geschehen, holen Sie dies bitte an dieser Stelle nach.
Wenn Ihr Unternehmen die GCP bereits nutzt, empfiehlt es sich, ein Projekt und ein Benutzerkonto von der zuständigen Abteilung einrichten zu lassen.
Sollte noch kein Konto bestehen, können Sie sich einfach und schnell registrieren, entweder für ein Unternehmens- oder ein privates Konto. Bei einem neuen Konto sind über ein Free Tier einige Dienstleistungen kostenfrei erhältlich, die Abrechnung der darüber hinaus gehenden Leistungen erfolgt nach Verbrauch.
Laden von Daten in Google Big Query
Im folgenden geben wir Ihnen eine detaillierte Anleitung, wie Sie Ihre Daten in Google Big Query, Googles Data Warehouse, hochladen. Zuerst wählen Sie bitte Big Query im Hauptmenü aus und gehen Sie in den SQL Workspace.
Hier sollten Sie links Ihr Projekt sehen. Klicken Sie bitte auf die drei Punkte rechts davon und erstellen Sie ein neues Dataset.
Geben Sie Ihrem Dataset einen entsprechenden Namen. Wählen Sie eine Ihnen naheliegende oder eine von Ihnen bereits genutzte Lokation und erstellen Sie das Dataset mittels Klick auf «Create Dataset».
Beachten Sie bitte, dass ausgehender Traffic je nach Destination kostenpflichtig ist. Daher sollten Sie genau planen, welche Lokation Sie verwenden. Datenschutzrichtlinien sollten bei der Wahl natürlich auch einbezogen werden.
Mittels Create Table können Sie nun die erste Tabelle erstellen und Daten importieren.
Für die Erstellung einer Tabelle bieten sich mehrere Optionen:
Sie können entweder eine leere Tabelle auswählen, direkt ein Flatfile von Ihrem lokalen PC oder Daten aus Google Drive, Google Cloud Storage oder anderen Quellen hochladen. Wir wählen hier Upload und selektieren eine CSV Datei auf unserem lokalen PC. Zur Anbindung von Google Cloud Storage möchte ich auch auf unseren vorherigen Blog verweisen.
Folgende Dateiformate werden hier unterstützt:
- CSV
- JSONL
- Avro
- Parquet
- ORC
Stellen Sie bitte sicher, dass Sie das richtige Format für Ihre Datei auswählen, in der Regel wird dies eine CSV Datei sein. Geben Sie der Tabelle noch einen Namen und wählen Sie beim Schema Auto detect aus.
Bevor Sie die Tabelle nun erstellen, prüfen Sie bitte in den erweiterten Optionen, ob der richtige Column Delimiter der Datei gewählt wurde. Gerade im deutschsprachigen Raum ist dies aufgrund der Dezimaltrennzeichen oft ein Semikolon. Interessant ist auch die Option Quoted Newlines. Sollten in Ihren Daten Fliesstextfelder mit Zeilenumbrüchen vorhanden sein, werden diese ignoriert, solange sie in Anführungszeichen stehen.
Wenn Sie sichergestellt haben, dass alle Einstellungen korrekt sind, können Sie die Tabelle mit «Create Table» erstellen.
Es kann vorkommen dass eine Fehlermeldung erscheint, obwohl die Tabelle korrekt erstellt wurde. In diesem Falle können Sie den Dialog zum Erstellen der Tabelle mittels «Cancel» schliessen.
Um zu überprüfen, ob die Tabelle korrekt erstellt und die Daten geladen wurden, klicken Sie bitte auf die drei Punkte rechts der Tabelle und wählen Sie «Open».
Im nächsten Schritt wählen Sie im oberen Bereich bitte Query aus und ergänzen sie das SELECT Statement mit einem *.
Daraufhin sollten Sie im unteren Bereich die soeben hochgeladenen Daten sehen.
Einrichten des Service Accounts
Um den Zugriff auf die Dateien aus der Datasphere zu ermöglichen, benötigt es noch einen Service Account, dem Zugriff auf Big Query gewährt wird.
Sie können diesen über Service Accounts im Bereich IAM & Admin erstellen:
Über einen Klick auf «Create Service Account» kann dieser konfiguriert werden.
Vergeben Sie einen Namen und klicken Sie auf «Create and Continue».
Weisen Sie dem User im nächsten Schritt die Rollen Big Query Data Viewer, Big Query Job User und Big Query Resource Viewer zu und erstellen Sie den Account durch einen Klick auf «Done».
Um die Verbindung in der Datasphere einzurichten, benötigen wir noch einen Schlüssel, der über einen Klick auf Manage Keys im Actions Menü des entsprechenden Eintrags erzeugt werden kann.
In der Schlüsselübersicht wählen Sie Add Key und dann Create new key:
Als Format wählen Sie bitte JSON und klicken Sie auf «Create».
Der Schlüssel wird nun als JSON Datei durch den Browser heruntergeladen. Bitte speichern Sie diesen an einem sicheren Ort, da dieser den direkten Zugriff auf den GCS Bucket ermöglicht. Sie benötigen diesen später bei der Einrichtung der Verbindung aus der Datasphere.
Der Schlüssel wird Ihnen nun in der Übersicht angezeigt.
Sollte der Schlüssel kompromittiert oder ein neuer benötigt werden, können Sie Ihn hier einfach löschen und einen neuen erzeugen.
Damit ist die Konfiguration abgeschlossen.
Root Zertifikate der Google Cloud Platform herunterladen
Nun müssen die Zertifikate der Google Root CAs in die Datasphere hochgeladen werden. Dies ist notwendig, um eine vertrauenswürdige Verbindung aus der Datasphere zur Google Cloud Platform herzustellen.
Wenn Sie dies bereits im Rahmen des vorherigen Blogs zur Google Cloud Storage Anbindung erledigt haben, können Sie diesen Abschnitt überspringen.
Sie erhalten die Zertifikate auf https://pki.goog/repository/.
Scrollen Sie ein wenig nach unten und laden Sie die folgenden Zertifikate im PEM Format herunter.
Navigieren Sie danach in der Datasphere zu Info -> Configuration -> Security und laden Sie die soeben heruntergeladenen Zertifkate mittels des + Buttons hoch.
Herstellen der Verbindung
Öffnen Sie die Verbindungen Ihres Spaces und klicken Sie auf den Create Button.
Als Verbindungstyp wählen Sie bitte Google Big Query.
Geben Sie den Namen des Projekts aus der GCP als Project an. Mit einem Klick auf den Button rechts neben dem Key können Sie die vorher gespeicherte Schlüsseldatei des Service Users hochladen.
Im nächsten Schritt können Sie noch einen Namen vergeben und die Verbindung mit «Create Connection» erstellen.
Überprüfen Sie im Hauptbildschirm kurz, ob alles geklappt hat, indem Sie auf den Validierungsknopf drücken.
Sollten Sie hier eine Fehlermeldung bekommen, prüfen Sie bitte alle vorherigen Schritte bevor Sie fortfahren und beheben Sie die Fehler.
Verwendung einer Big Query in einem Analytical View
Anschliessend können Sie Big Queries wie gewohnt im Data Builder verwenden.
Ein View wird analog einer Datasphere Tabelle oder Remote Tabelle aus anderen Systemen verwendet. Statt des Repositories verwenden Sie links einfach die Big Query Verbindung unter dem Tab Sources.
Sie können die Big Queries entweder direkt in einem Analytical Dataset oder zur weiteren Verwendung in einem Schichtenmodell verwenden. Ebenso können die Views natürlich mit Data Access Controls versehen oder mit Dimensionen assoziiert werden.
Ausblick
Wir hoffen, dieser Blog hat ein wenig Licht ins Dunkle gebracht und Ihnen bei der Einrichtung geholfen. Weitere Themen im Rahmen dieser Blogreihe werden unter anderem die Anbindung von Amazon AWS und Microsoft-Azure-Diensten sowie die Verwendung des SAP Connectors für Big Query sein.
Kontakt aufnehmen