Lehren aus der Modernisierung des Daten-Engineerings für skalierbare KI durch zwei globale Unternehmen
Von vorhersagender Analyse bis hin zu generativer KI versucht jedes Unternehmen, Daten in Wert umzuwandeln. Doch für viele Teams liegt die eigentliche Herausforderung unter der Oberfläche – in der Datenverarbeitung, die erforderlich ist, um diese Daten nutzbar, vertrauenswürdig und skalierbar zu machen. In komplexen Umgebungen basteln Ingenieure immer noch Pipelines aus veralteten Tabellenformaten zusammen, duplizieren Logik über verschiedene Tools hinweg und passen Governance-Systeme nachträglich an. Diese Ineffizienzen führen in jeder Phase zu Verzögerungen, verlangsamen die Ergebnisse und schränken die Wirkung selbst der fortschrittlichsten KI- und Analyseinitiativen ein.
Für Unternehmen, die ihre Datenverarbeitung optimieren und zukunftssicher machen möchten, haben sich Apache Iceberg als offenes Tabellenformat und Apache Spark als offene Rechenengine als leistungsstarke Kombination bewährt. Gemeinsam bieten sie eine offene, skalierbare und standardisierte Grundlage für die Verarbeitung und Verwaltung von Daten im Petabyte-Bereich – ohne Abstriche bei Governance, Flexibilität oder Leistung.
In diesem Blog sehen wir uns genauer an, wie zwei globale Unternehmen ihre Datenpipelines mithilfe von Spark und Iceberg mit der Daten- und KI-Plattform von Cloudera transformiert haben. Wir zeigen auf, wie sie die Abfragezeiten um 80 % reduziert, die Workflows teamübergreifend standardisiert und den Weg von Rohdaten zu KI-fähigen Erkenntnissen beschleunigt haben.
Vodafone Idea ist eines der drei größten Telekommunikationsunternehmen Indiens und bedient 220 Millionen Kunden. Das Unternehmen hatte mit Skalierungsproblemen zu kämpfen: Sein Hive-basierter Data Lake war auf über 17 PB angewachsen, und Leistungsengpässe gefährdeten kritische Geschäftsabläufe. Einige Berichtsabfragen dauerten mehr als 70 Stunden! Dadurch verzögerten sich die Compliance, die Analyse und die regulatorische Berichterstattung.
Anstatt lediglich die Infrastruktur zu modernisieren, entschied sich Vodafone Idea für eine komplette Neustrukturierung seiner Datenplattform. In Zusammenarbeit mit Cloudera nutzte das Unternehmen Iceberg für schnellere Abfragen durch optimierte Metadaten- und Schema-Entwicklung und baute seine Verarbeitungsworkflows auf Spark neu auf, um verteilte Rechenleistungen für effiziente, groß angelegte Datenverarbeitung zu nutzen.
Für die regulatorische Berichterstattung haben sie Iceberg mit Apache Impala als interaktive Abfrage-Engine kombiniert, um schnellen und zuverlässigen Zugriff auf PB-Datensätze zu ermöglichen. Während Impala die Berichtsanfragen bearbeitete, spielte Iceberg hinter den Kulissen eine entscheidende Rolle: Dank seiner Unterstützung für ACID-Transaktionen (Atomicity, Consistency, Isolation und Durability – Eigenschaften, die eine zuverlässige und konsistente Verarbeitung von Datenbanktransaktionen gewährleisten), flexiblen Schemaentwicklungsfunktionen und umfangreichen Metadaten blieben die Berichtsworkflows auch bei Datenänderungen einheitlich.
Durch die Integration mit Cloudera Shared Data Experience (SDX) erhielt das Team außerdem eine detaillierte Governance mit rollen- und attributbasierter Zugriffskontrolle, wodurch sichergestellt wurde, dass die richtigen Personen Zugriff auf die richtigen Daten hatten. Diese Grundlage ermöglichte dem Unternehmen die zeitnahe Erstellung prüfbarer Berichte und die Erfüllung wachsender regulatorischer Anforderungen.
Transformation der Telekommunikation durch datengestützte EffizienzDurch die Partnerschaft mit Cloudera bewahrte Vodafone Idea die Flexibilität, stärkte die Governance und beschleunigte die Bereitstellung von Erkenntnissen im großen Maßstab – ohne den gesamten Datenstack neu aufbauen zu müssen. Durch den Einsatz von Spark für die Datenaufnahme, Iceberg für die einheitliche Tabellenverwaltung und Impala für die Berichterstellung modernisierten sie ihre Infrastruktur und konnten gleichzeitig bestehende Logik und Workflows weiterverwenden. Gemeinsam lieferte diese Architektur messbare Ergebnisse:
|
Ein globales Pharmaunternehmen, das klinische Forschungsdaten im PB-Maßstab verwaltet, stand vor einer bekannten, aber wachsenden Herausforderung: Es wurden zu viele Tools eingesetzt, was zu Problemen mit der Datenzuverlässigkeit und Schwierigkeiten bei der Einhaltung von Compliance-Standards führte, zusätzlich zum Druck, schnellere KI- und Analyseverfahren zu unterstützen. Die Data-Engineering-Teams mussten täglich mehr als 10.000 ETL-Jobs ausführen, verfügten jedoch nicht über eine standardisierte Methode zur teamübergreifenden Erstellung, Steuerung oder Validierung von Pipelines.
Mit Cloudera auf AWS hat das Unternehmen eine klare Richtung vorgegeben. Das Team standardisierte alle Datenpipelines mithilfe von Spark auf Cloudera Data Engineering und vereinheitlichte und skalierte die Verarbeitung über Batch-, Streaming- und Machine-Learning-Workloads hinweg. Gleichzeitig haben sie Iceberg als Standardformat für offene Tabellen eingeführt, um eine einheitliche Schemaentwicklung, integrierte Versionskontrolle und unternehmensweite Governance über Teams und Umgebungen hinweg zu gewährleisten.
Mit der Einführung von Spark und Iceberg auf Cloudera legte das Unternehmen eine saubere, skalierbare DataOps-Grundlage, die das Daten-Pipelining standardisierte, den sicheren Datenaustausch zwischen Teams und Tools ermöglichte, und den Weg für schnellere und fortschrittlichere KI und Analysen ebnete. Diese Grundlage unterstützt nun alles von regulatorischen Audit-Workflows bis hin zu KI-Modellen, die die Entdeckung klinischer Studien und die Arzneimittelentwicklung beschleunigen, und stellt sicher, dass das Unternehmen in Zukunft jede neue Technologie oder Engine nahtlos integrieren kann.
Transformation der Pharmabranche durch eine einheitliche DatenplattformDie Standardisierung auf der Plattform von Cloudera verschaffte dem globalen Pharmaunternehmen ein neues Maß an operativer Konsistenz:
|
Diese beiden Geschichten haben eine Gemeinsamkeit: Beide Unternehmen sahen sich mit Fragmentierung, Skalierungsdruck und zunehmender Komplexität ihrer Datenworkflows konfrontiert. Durch die Standardisierung auf Apache Spark und Apache Iceberg mit Cloudera haben sie ihre Pipelines auf der Grundlage offener, skalierbarer und vertrauenswürdiger Komponenten neu aufgebaut und so eine bessere Governance, schnellere Leistung und sauberere Dataflows für KI und Analysen ermöglicht.
Mit Cloudera Data Engineering erhalten Unternehmen eine End-to-End-Lösung, die über Hybrid- und Multi-Cloud-Umgebungen läuft. Sie vereint Spark, Iceberg und integrierte Orchestrierung mit Airflow, damit Teams Folgendes tun können:
Sehen Sie sich diese interaktive Demo an, um zu erfahren, wie Spark und Iceberg vertrauenswürdige, skalierbare Pipelines auf Cloudera antreiben. Testen Sie es selbst mit der 5-tägigen Testversion von Cloudera Data Engineering und beginnen Sie noch heute mit der Erstellung von KI-fähigen Daten-Workflows.
This may have been caused by one of the following: