SAP IQ

Eine Zusammenfassung der Vorteile der IQ-Technologie, die dem SAP HANA Data Lake zugrunde liegt

Während SAP HANA in den letzten Jahren mit der In-Memory-Verarbeitung zu Recht Schlagzeilen gemacht hat, hat SAP IQ seinen Kundenstamm im Stillen weiterhin mit schnellen, zuverlässigen Datenbanklösungen versorgt.

Mit beeindruckenden Kompressionsraten, massiv paralleler Verarbeitung und überragender Skalierbarkeit hat SAP IQ einen verdienten Ruf für die Bereitstellung grosser Columnar-Store-Datenbanklösungen. Und nicht nur das: SAP IQ ist ideal für moderne Big-Data- und Analyse-Workloads. Mit dem spaltenbasierten Speicher, mehreren Optimierungstechniken und In-Memory-Caches werden Daten nahezu in Echtzeit für einfache Analysen zur Verfügung gestellt.

SAP IQ blickt auf eine lange Geschichte als Anbieter von spaltenbasierten Speicherlösungen zurück. Es begann als Expressway in den frühen 1990er Jahren, wurde 1995 von Sybase übernommen und wurde 2010 ein SAP-Produkt. Seitdem hat es sich in der Anwendergemeinschaft einen beneidenswerten Ruf für Stabilität und Leistung erworben. Laut dem deutschen E-3-Magazin ist SAP Sybase IQ bei 45 der 50 grössten Banken und Sicherheitsunternehmen im Einsatz, und als die Version 16 im Jahr 2014 veröffentlicht wurde, warb SAP mit einer 97-prozentigen Kundenzufriedenheitsrate.

Seitdem ist SAP IQ über transaktionale und analytische Anwendungsfälle hinaus gewachsen und wurde mit SAP HANA als Near Line Storage (NLS) gekoppelt, um eine verteilte In-Memory-Analyseplattform zu liefern.

In jüngster Zeit ist SAP IQ unter einem neuen Namen in die Cloud umgezogen – SAP HANA Data Lake oder kurz SAP HDL, aber dazu später mehr.

In diesem Blog werden wir die Vorteile der IQ-Technologie zusammenfassen, um zu erklären, warum sie die perfekte Wahl für eine Partnerschaft mit SAP HANA Cloud oder als eigenständige Analytics-Datenbank ist.

Blitzschnelle Leseleistung

SAP IQ hat beeindruckende Antwortzeiten und das liegt daran, dass Lese- und Schreiboperationen in die Speicher-Caches geleitet werden, nichts geht direkt auf die Festplatte. Zur Leseoptimierung nutzt SAP IQ Distributed Query Processing und zahlreiche Indizierungsoptionen, um eine fantastische Leseleistung zu erzielen.

Bei Distributed Query Processing wird die Leseabfrage von einem Leader-Knoten bearbeitet, der dann zahlreiche Worker-Knoten zur Ausführung aufrufen kann. Jede Abfrage, die parallel verarbeitet werden kann, wird automatisch auf diese Weise behandelt, es sei denn, Sie haben diese Funktionalität explizit ausgeschaltet. Das bedeutet, dass die vollen CPU-Ressourcen für die Rückgabe der Ergebnisse verwendet werden.

Dieser Ansatz wird mit der geschickten Verwendung von Indizierungen kombiniert. IQ bietet mehrere Indizierungsoptionen, und standardmässig werden die Daten beim Einlesen automatisch indiziert – jedes Mal, wenn Sie Daten in einen IQ laden, erstellen Sie tatsächlich Spaltenindizes.

Standardmässig wendet IQ den Fast-Projection-Index auf neue Tabellen an, der die Projektionen optimiert. In einem typischen analytischen Einsatz, der aus Dimensions- und Faktentabellen besteht, würden wir den High Group (HG)-Index für ganzzahlige Surrogat-Schlüsselspalten empfehlen, die die Grundlage für die Joins bilden. Der HG-Index handhabt die «Group By»-Funktion effizienter.

Wichtig ist, dass SQP IQ seine Indizes effektiver nutzen kann als andere relationale Datenbanken – indem es nicht nur die in der Abfrage referenzierten Tabellen/Attribute betrachtet, sondern auch Joins und Suchargumente berücksichtigt.

Diese Kombination aus verteilter Abfrageverarbeitung und der effektiven Nutzung mehrerer Indizes ist der Schlüssel zur schnellen Leseantwort.

Noch schnellere Schreibleistung

Wenn Sie denken, dass die IQ-Abfragezeit beeindruckend ist, warten Sie, bis Sie sehen, wie schnell Ihre Daten geladen werden können.

Wenn es um die Schreibleistung geht, glänzt der Multi-Threaded Bulk Loader, da er alle verfügbaren Kerne für die Aufgabe nutzt – und so Ihre Systemressourcen besser ausnutzt. Wo immer möglich, verwenden Sie den Befehl LOAD TABLE oder aktivieren Sie die Bulk-Loader-Option in ETL-Tools wie SAP Data Services. Die SAP Data Services generieren dann eine Datei, die dann mit LOAD TABLE direkt in IQ geladen wird.

In den neueren Versionen von IQ ist auch ein schreiboptimierter In-Memory-Speicher verfügbar. Dieser wird als Row-Level Versioning (RLV)-Speicher bezeichnet. Der RLV-Speicher ermöglicht gleichzeitige Aktualisierungen verschiedener Zeilen derselben Tabelle, wodurch Daten schnell für Echtzeitanalysen zur Verfügung gestellt werden können. Der RLV-Speicher in Kombination mit dem IQ-Hauptspeicher ermöglicht den gleichzeitigen Lese- und Schreibzugriff auf Tabellen. Der RLV Store Merge-Prozess verwaltet sich selbst und führt Aktualisierungen automatisch in den Hauptspeicher ein.

In der neuesten Version hat SAP den Large Memory Cache eingeführt, der die Schreibleistung weiter beschleunigt.

Speicher und CPU

Sie werden für IQ viel weniger Speicherplatz benötigen als für andere Datenbanken – einschliesslich SAP HANA! Sie werden vielleicht überrascht sein zu erfahren, dass die Grösse Ihrer Daten in IQ tatsächlich geringer ist als die Grösse Ihrer Rohdaten, denn die Komprimierung setzt ein, sobald die Daten geladen sind. Es ist nicht ungewöhnlich, eine Reduzierung auf 20-50% der ursprünglichen Rohdatengrösse zu sehen.

Wenn Sie die Hardware hochskalieren, hoffen Sie, diese Gewinne in der Datenbankleistung zu realisieren. Bei herkömmlichen Datenbanken ist die E/A oft der Engpass, und das Hinzufügen weiterer Kerne bringt möglicherweise nicht den erwarteten Schub. SAP IQ ist CPU- und speicherhungrig, der Bulk Loader skaliert linear, wenn Kerne hinzugefügt werden. Zum Beispiel wird ein Ladevorgang mit 32 Kernen etwa doppelt so schnell sein wie ein Ladevorgang mit 16 Kernen.

Die Speicherzuweisung spielt ebenfalls eine wichtige Rolle für die Leistung von IQ, insbesondere in Bezug auf die Rolle des temporären Cache und die Verwendung von Row Level Versioning. Der temporäre Cache ist der Bereich, der für den Wiederaufbau von Indizes verwendet wird, was im Wesentlichen Ihre Daten sind. Es ist also durchaus sinnvoll, den temporären Cache genauso gross wie den Hauptcache zu halten, um einen effizienten Datenzugriff zu gewährleisten, und die Grösse des RLV-Caches ist abhängig von der Häufigkeit und dem Volumen der Datenlast. Wenn Ihre IQ-Datenbank nur durch ein tägliches Batch-Update aktualisiert wird, können Sie RLV sogar für alle Tabellen deaktivieren.

Cloud-basierte IQ-HANA Data Lake

Es war nur eine Frage der Zeit, bis IQ in die Cloud umzieht, und im April 2020 hat SAP den SAP HANA Data Lake (HDL) eingeführt.

Die offensichtlichen Vorteile des Cloud-basierten HDL gegenüber On-Premise IQ sind seine Elastizität und Skalierbarkeit:

Elastisch insofern, als dass Sie die CPUs z. B. für Nutzungsspitzen im Jahresverlauf erhöhen können.
Skalierbar, da Sie Knoten und andere Komponenten hinzufügen können, wenn Ihre Anforderungen wachsen.

Die Konfiguration von HDL wird über das SAP HANA Cloud Central Cockpit verwaltet, das HANA Cloud-Kunden vertraut sein wird. Was es besonders leistungsfähig macht, ist, dass die Daten, die innerhalb des SAP HDL gespeichert werden, nun strukturierte, halbstrukturierte und unstrukturierte Datendateien umfassen können, was die Flexibilität erhöht. Am wichtigsten ist jedoch, dass es eine enge Integration zwischen SAP HANA Cloud und SAP HDL gibt, was bedeutet, dass Sie Daten innerhalb der beiden Systeme einfach kombinieren können, während Sie von den Stärken beider Systeme profitieren.

Der auf SAP IQ basierende HANA Data Lake kann aber auch als Standalone-Lösung implementiert werden. Dies ermöglicht bestehenden Kunden einen einfachen Übergang von On-Premise SAP IQ zu SAP HDL. Um diesen Übergang zu erleichtern, bietet SAP HDL auch weiterhin Unterstützung für On-Premise-ETL-Tools wie SAP Data Services.

Da HANA Data Lake als eigenständige Lösung angeboten wird, können bestehende IQ-Kunden eine schrittweise Migration in die Cloud planen. Sobald IQ-Kunden auf HANA Data Lake migriert haben, wird die Entwicklung zu einer vollständigen SAP HANA Cloud-Lösung, die die Leistung von In-Memory-HANA nutzt, ein einfacher und logischer Schritt.

Ganz gleich, ob Sie SAP IQ oder HANA Data Lake als eigenständige Datenbank oder als Teil einer verteilten Plattform mit SAP HANA Cloud in Betracht ziehen, NTT DATA Business Solutions kann Ihr Unternehmen dabei unterstützen, das Beste aus dieser Technologie zu machen.

NTT DATA Business Solutions bietet eine Reihe von Analytics-Assessment-Services an, die Sie bei der Entwicklung Ihrer Strategie unterstützen – von der Erstellung des Business Case bis hin zur Konvertierung, Landschaftstransformation und Change Management. Um mehr zu erfahren, nehmen Sie mit uns Kontakt auf.

Kontaktieren Sie uns

Weiterführende Literatur und Referenzen

https://saphanajourney.com/hana-cloud/resources/what-is-a-data-lake-and-why-you-need-one/

https://blogs.sap.com/2019/11/12/introduction-to-the-relational-data-lake-service-dat106-sapteched-recap/

https://e3zine.com/end-support-sybase-ase/

https://blogs.sap.com/2020/05/07/sap-sybase-iq-the-hidden-treasure-…/