Hast du schon mal jemandem das Blaue vom Himmel versprochen? Wenn ja, dann kannten Sie den Preis wahrscheinlich nicht im Voraus.
Wenn Sie hingegen jemandem eine Cloud versprechen, können Sie Ihre Kosten auf den Tausendstel Cent genau berechnen.
Amazon, Azure und Google bieten Kostenrechner für Cloud-Datenspeicher an, deren Detailgenauigkeit Ihnen den Kopf verdrehen wird: Wie viele TiB Daten benötigen Sie für Streaming-Lesevorgänge auf Google BigQuery? Möchten Sie ra3.4xlarge- oder ra3.xlplus-Instanzen auf Amazon Redshift – und wie viele Knoten?
Obwohl die Speicherung von Daten in der Cloud oft als kostengünstiger als die Verwendung lokaler Datenspeicher bezeichnet wird, erfordert die Senkung Ihrer Kosten für Cloud-Speicher in Wahrheit eine genaue Untersuchung, Eliminierung und Optimierung. Gehen wir Schritt für Schritt vor.
Eine der einfachsten Möglichkeiten zur Senkung der Datenspeicherkosten besteht im Speichern von weniger Daten. Offensichtlich, ja. Einfach, nein.
Es gibt einen Grund, warum Sie all diese Daten besitzen. Mitunter gibt es gute Gründe dafür, etwa operative, administrative und geschäftliche Prozesse, aber oft sind die Gründe auch nicht so überzeugend, wie zum Beispiel „wir haben sie noch nicht aussortiert“.
jedem Datenökosystem gibt es veraltete, redundante und qualitativ minderwertige Daten, die Sie entfernen können – und sollten. Aber wie finden Sie diese?
Die Antwort ist automatisierte Daten-Lineage: der treue Begleiter des Datenverwalters.
Stellen Sie sich vor, Sie hätten einen Zauberstab, der Ihnen beim Frühjahrsputz hilft. Dieser Zauberstab sagt Ihnen, wo jeder Gegenstand in Ihrem Haushalt gekauft wurde, wann er zuletzt benutzt wurde, in welchem Zustand er sich befindet, ob Sie andere Gegenstände haben, die denselben Zweck erfüllen, und so weiter.
Genau das leistet die automatisierte Daten-Lineage-Analyse für Ihr Datenökosystem. Mit der Ausführung erhalten Sie innerhalb weniger Minuten eine vollständige Übersicht über Ihren Datenfluss: Welche Datenbestände speisen welche Berichte und lassen sich zu welchen Quellen zurückverfolgen? Eine umfassende Daten-Lineage zeigt dies sowohl auf einer herausgezoomten Ebene des Quellsystems als auch auf einer herangezoomten Ebene von Spalte zu Spalte. Es ist sogar der Zugriff auf die ETL-Prozesse möglich, um genau anzuzeigen, welche Transformationen während der Datenübertragung durchgeführt wurden.
Sobald Sie sich einen vollständigen Überblick verschafft haben, können Sie zur zweiten Phase übergehen: der Eliminierung.
Betrachten Sie genau Ihre Datenherkunft und stellen Sie die folgenden Fragen:
Wenn Sie mit „Ja“ antworten, werden Sie zu Daten weitergeleitet, die ausgelagert werden können, wodurch sich die Kosten für Cloud-basierten Speicher direkt reduzieren lassen. Aber lagern Sie mit Bedacht aus! Selbst wenn Sie zwei Datenbestände identifiziert haben, die im Grunde Duplikate sind, können Sie nicht einfach einen davon löschen, bevor Sie einen Ersatz bereitgestellt haben, falls beide von einem nachgelagerten Report verwendet werden.
Die Nutzung Ihrer Daten-Lineage für die Wirkungsanalyse ermöglicht Ihnen die Vorhersage der Auswirkungen von Änderungen an Geschäftsprozessen und das Ergreifen geeigneter Maßnahmen im Voraus, um Probleme zu vermeiden.
Nachdem Sie nun nicht benötigte Daten (veraltete, redundante, qualitativ minderwertige Daten) identifiziert und aussortiert haben, können Sie sich den Daten zuwenden, die Sie zwar behalten müssen, aber effizienter speichern könnten.
Werfen Sie noch einmal einen Blick auf Ihr Datenherkunfts-Mapping und stellen Sie die folgenden Fragen zu den Daten, die Sie speichern:
Anbieter von Cloud-basierten Datenspeichern bieten in der Regel eine Reihe von Speicherebenen an, die sich hinsichtlich ihrer Zugänglichkeit unterscheiden. Beispielsweise bietet Amazon S3 Standard-Speicher für häufig abgerufene Daten (0,023 USD pro GB), Standard-Speicher für selten abgerufene Daten, die jedoch bei Bedarf innerhalb von Millisekunden abgerufen werden müssen (0,0125 USD pro GB), Glacier Flexible Retrieval-Speicher für Archiv- und Sicherungsdaten, die innerhalb von 1 Minute bis 12 Stunden abgerufen werden müssen (0,0036 USD pro GB), und Glacier Deep Archive-Speicher für Archivdaten, auf die nur ein- oder zweimal im Jahr zugegriffen wird und deren Abruf 12 Stunden dauert (0,00099 USD pro GB).
Die Speicherung von 1 TB Daten im Standard-Speicher würde 23 USD pro Monat kosten. Die Speicherung derselben 1 TB Daten im Glacier Deep Archive Storage würde 0,99 USD pro Monat kosten! Wenn Ihr Unternehmen derzeit alle Daten ohne Unterscheidung nach Zugriffsanforderungen in einem Standard-Cloud-Speicher ablegt, können Sie durch die Optimierung Ihres Speichers Ihre Speicherkosten deutlich senken.
Daten-Lineage kann Ihre Kosten für die Datenspeicherung reduzieren, indem sie Ihnen beides zeigt:
Aber das ist noch nicht alles! Weniger Daten reduzieren zwar die Kosten für Cloud-Speicher, können aber auch die Rechenkosten senken. Cloud-basierte Data Warehouses wie Snowflake und Amazon Redshift verwenden in der Regel ein nutzungsabhängiges Abrechnungsmodell für Rechenleistungen, bei dem die Zeit berechnet wird, die für die Ausführung von Abfragen über die Datensätze benötigt wird. Je mehr Daten Sie in Ihre Abfrage einbeziehen, desto länger dauert die Ausführung und desto höher sind die Kosten.
Die Reduzierung der gespeicherten Datenmenge (oder der in Standard-Speichern aufbewahrten Datenmenge) bedeutet in der Regel, dass weniger Daten in Ihre Abfragen einfließen, wodurch sich indirekt die Rechenkosten verringern. Aber Daten-Lineage bietet Ihnen auch eine direkte Möglichkeit zur Senkung Ihrer Rechenkosten: die Einschränkung von Explorationsabfragen.
Explorationsabfragen benötigen in der Regel viel Rechenleistung. Mit einer übersichtlichen Daten-Lineage-Karte kann Ihr Datenteam genau sehen, wo sich die relevanten Daten befinden. Dadurch kann es viel gezieltere Abfragen auf der gesamten Plattform durchführen und allgemeine Erkundungsabfragen überflüssig machen oder reduzieren.
Wenn Ihnen die Kosten für die Speicherung von Daten in der Cloud zu schaffen machen, ist es an der Zeit, den Spieß umzudrehen und sie stattdessen zu senken. Profitieren Sie einfach von unserer automatisierten Daten-Lineage und befolgen Sie diese Schritte: Ermitteln! Eliminieren! Optimieren!
Sehen Sie, wie die Kosten für die Datenspeicherung sinken? Zugegeben, es ist vielleicht etwas mehr Aufwand erforderlich. Aber wenn Ihr Unternehmen die nächste, niedrigere Rechnung von seinem Cloud-Datendienstleister erhält, wird es sich immer noch wie Zauberei anfühlen.
Möchten Sie mehr erfahren? Fordern Sie eine Demo an, um mit Cloudera Octopai Data Lineage zu beginnen – einer automatisierten Datenherkunftslösung, mit der Sie diese Schritte umsetzen und Ihre Cloud-Speicherkosten noch heute senken können.
This may have been caused by one of the following: