The Data Readiness Index 2026: Die Grundlagen erfolgreicher KI.

Ergebnisse anzeigen

24. November 2025 | Technisch

So bauen Datenteams KI-fähige Pipelines mit Apache Iceberg und Spark auf

7 Minute Lesezeit • von Pamela Pan , Ying Chen , und Akshat Mathur

Enterprise Ai Cloudera-Plattform Modernisierung der Architektur Data Engineering Gesundheitswesen und Gesundheitswissenschaften Telekommunikation

Lehren aus der Modernisierung des Daten-Engineerings für skalierbare KI durch zwei globale Unternehmen

Von vorhersagender Analyse bis hin zu generativer KI versucht jedes Unternehmen, Daten in Wert umzuwandeln. Doch für viele Teams liegt die eigentliche Herausforderung unter der Oberfläche – in der Datenverarbeitung, die erforderlich ist, um diese Daten nutzbar, vertrauenswürdig und skalierbar zu machen. In komplexen Umgebungen basteln Ingenieure immer noch Pipelines aus veralteten Tabellenformaten zusammen, duplizieren Logik über verschiedene Tools hinweg und passen Governance-Systeme nachträglich an. Diese Ineffizienzen führen in jeder Phase zu Verzögerungen, verlangsamen die Ergebnisse und schränken die Wirkung selbst der fortschrittlichsten KI- und Analyseinitiativen ein.

Für Unternehmen, die ihre Datenverarbeitung optimieren und zukunftssicher machen möchten, haben sich Apache Iceberg als offenes Tabellenformat und Apache Spark als offene Rechenengine als leistungsstarke Kombination bewährt. Gemeinsam bieten sie eine offene, skalierbare und standardisierte Grundlage für die Verarbeitung und Verwaltung von Daten im Petabyte-Bereich – ohne Abstriche bei Governance, Flexibilität oder Leistung.

In diesem Blog sehen wir uns genauer an, wie zwei globale Unternehmen ihre Datenpipelines mithilfe von Spark und Iceberg mit der Daten- und KI-Plattform von Cloudera transformiert haben. Wir zeigen auf, wie sie die Abfragezeiten um 80 % reduziert, die Workflows teamübergreifend standardisiert und den Weg von Rohdaten zu KI-fähigen Erkenntnissen beschleunigt haben.

So verkürzte Vodafone Idea die Antwortzeiten um 80 %

Vodafone Idea ist eines der drei größten Telekommunikationsunternehmen Indiens und bedient 220 Millionen Kunden. Das Unternehmen hatte mit Skalierungsproblemen zu kämpfen: Sein Hive-basierter Data Lake war auf über 17 PB angewachsen, und Leistungsengpässe gefährdeten kritische Geschäftsabläufe. Einige Berichtsabfragen dauerten mehr als 70 Stunden! Dadurch verzögerten sich die Compliance, die Analyse und die regulatorische Berichterstattung.

Anstatt lediglich die Infrastruktur zu modernisieren, entschied sich Vodafone Idea für eine komplette Neustrukturierung seiner Datenplattform. In Zusammenarbeit mit Cloudera nutzte das Unternehmen Iceberg für schnellere Abfragen durch optimierte Metadaten- und Schema-Entwicklung und baute seine Verarbeitungsworkflows auf Spark neu auf, um verteilte Rechenleistungen für effiziente, groß angelegte Datenverarbeitung zu nutzen.

Für die regulatorische Berichterstattung haben sie Iceberg mit Apache Impala als interaktive Abfrage-Engine kombiniert, um schnellen und zuverlässigen Zugriff auf PB-Datensätze zu ermöglichen. Während Impala die Berichtsanfragen bearbeitete, spielte Iceberg hinter den Kulissen eine entscheidende Rolle: Dank seiner Unterstützung für ACID-Transaktionen (Atomicity, Consistency, Isolation und Durability – Eigenschaften, die eine zuverlässige und konsistente Verarbeitung von Datenbanktransaktionen gewährleisten), flexiblen Schemaentwicklungsfunktionen und umfangreichen Metadaten blieben die Berichtsworkflows auch bei Datenänderungen einheitlich.

Durch die Integration mit Cloudera Shared Data Experience (SDX) erhielt das Team außerdem eine detaillierte Governance mit rollen- und attributbasierter Zugriffskontrolle, wodurch sichergestellt wurde, dass die richtigen Personen Zugriff auf die richtigen Daten hatten. Diese Grundlage ermöglichte dem Unternehmen die zeitnahe Erstellung prüfbarer Berichte und die Erfüllung wachsender regulatorischer Anforderungen.

Transformation der Telekommunikation durch datengestützte Effizienz

Durch die Partnerschaft mit Cloudera bewahrte Vodafone Idea die Flexibilität, stärkte die Governance und beschleunigte die Bereitstellung von Erkenntnissen im großen Maßstab – ohne den gesamten Datenstack neu aufbauen zu müssen. Durch den Einsatz von Spark für die Datenaufnahme, Iceberg für die einheitliche Tabellenverwaltung und Impala für die Berichterstellung modernisierten sie ihre Infrastruktur und konnten gleichzeitig bestehende Logik und Workflows weiterverwenden.

Gemeinsam lieferte diese Architektur messbare Ergebnisse:

Die Abfragezeiten konnten um 80 % reduziert werden.
Weniger Pipeline-Ausfälle dank der hohen Resilienz von Spark und den robusten Tabellenverwaltungsfunktionen von Iceberg.
Verbesserte regulatorische Berichterstattung (schneller und zuverlässiger).

So expandierte ein Pharmaunternehmen durch Konsolidierung: Ein einziger Technologie-Stack, 10.000 Arbeitsplätze

Ein globales Pharmaunternehmen, das klinische Forschungsdaten im PB-Maßstab verwaltet, stand vor einer bekannten, aber wachsenden Herausforderung: Es wurden zu viele Tools eingesetzt, was zu Problemen mit der Datenzuverlässigkeit und Schwierigkeiten bei der Einhaltung von Compliance-Standards führte, zusätzlich zum Druck, schnellere KI- und Analyseverfahren zu unterstützen. Die Data-Engineering-Teams mussten täglich mehr als 10.000 ETL-Jobs ausführen, verfügten jedoch nicht über eine standardisierte Methode zur teamübergreifenden Erstellung, Steuerung oder Validierung von Pipelines.

Mit Cloudera auf AWS hat das Unternehmen eine klare Richtung vorgegeben. Das Team standardisierte alle Datenpipelines mithilfe von Spark auf Cloudera Data Engineering und vereinheitlichte und skalierte die Verarbeitung über Batch-, Streaming- und Machine-Learning-Workloads hinweg. Gleichzeitig haben sie Iceberg als Standardformat für offene Tabellen eingeführt, um eine einheitliche Schemaentwicklung, integrierte Versionskontrolle und unternehmensweite Governance über Teams und Umgebungen hinweg zu gewährleisten.

Mit der Einführung von Spark und Iceberg auf Cloudera legte das Unternehmen eine saubere, skalierbare DataOps-Grundlage, die das Daten-Pipelining standardisierte, den sicheren Datenaustausch zwischen Teams und Tools ermöglichte, und den Weg für schnellere und fortschrittlichere KI und Analysen ebnete. Diese Grundlage unterstützt nun alles von regulatorischen Audit-Workflows bis hin zu KI-Modellen, die die Entdeckung klinischer Studien und die Arzneimittelentwicklung beschleunigen, und stellt sicher, dass das Unternehmen in Zukunft jede neue Technologie oder Engine nahtlos integrieren kann.

Transformation der Pharmabranche durch eine einheitliche Datenplattform

Die Standardisierung auf der Plattform von Cloudera verschaffte dem globalen Pharmaunternehmen ein neues Maß an operativer Konsistenz:

Governance ohne Unterbrechungen: Das Write-Audit-Publish-Muster von Iceberg ermöglicht Upstream-Teams die Validierung von Daten vor deren Freigabe für die Produktion – ohne Unterbrechung der Downstream-Workflows.
Zeitreisen für die Rückverfolgbarkeit: Regulierungsteams können sofort auf historische Daten-Snapshots zugreifen, sodass eine saubere Rückverfolgung und Audit-Unterstützung möglich ist.
Gemeinsame Pipeline-Logik: Mit Spark als einheitlicher Engine können Teams – von Data Engineers bis hin zu Data Scientists – problemlos zusammenarbeiten und zentrale Transformationen über verschiedene Aufgaben und Umgebungen hinweg wiederverwenden, sodass doppelte Arbeit reduziert und die Wartung vereinfacht wird.

Aufbau einer modernen Grundlage für Data Engineering und KI

Diese beiden Geschichten haben eine Gemeinsamkeit: Beide Unternehmen sahen sich mit Fragmentierung, Skalierungsdruck und zunehmender Komplexität ihrer Datenworkflows konfrontiert. Durch die Standardisierung auf Apache Spark und Apache Iceberg mit Cloudera haben sie ihre Pipelines auf der Grundlage offener, skalierbarer und vertrauenswürdiger Komponenten neu aufgebaut und so eine bessere Governance, schnellere Leistung und sauberere Dataflows für KI und Analysen ermöglicht.

Mit Cloudera Data Engineering erhalten Unternehmen eine End-to-End-Lösung, die über Hybrid- und Multi-Cloud-Umgebungen läuft. Sie vereint Spark, Iceberg und integrierte Orchestrierung mit Airflow, damit Teams Folgendes tun können:

Einmaliger Aufbau von Pipelines und Ausführung an jedem beliebigen Ort – im Rechenzentrum oder in der Cloud
Aufrechterhaltung von Vertrauen und Governance im großen Maßstab im offenen Data Lakehouse

Sehen Sie sich diese interaktive Demo an, um zu erfahren, wie Spark und Iceberg vertrauenswürdige, skalierbare Pipelines auf Cloudera antreiben. Testen Sie es selbst mit der 5-tägigen Testversion von Cloudera Data Engineering und beginnen Sie noch heute mit der Erstellung von KI-fähigen Daten-Workflows.

Pamela Pan

Product Marketing Analyst

Mehr von diesem Autor ›

Ying Chen

Product Manager, Cloudera

Mehr von diesem Autor ›

Akshat Mathur

Product Manager, Cloudera

Mehr von diesem Autor ›

Verwandt

18. Juni 2026 | Business

Von „Hybrid by Accident“ zu „Hybrid by Design“: Datensouveränität und Kostenkontrolle bei KI meistern

10 Minute Lesezeit • Kierstan Williams

Sie sind bereit?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.