Cloudera im 4. Quartal 2025 als führender Anbieter für Data-Fabric-Plattformen ausgezeichnet von The Forrester Wave™

Lesen sie den Bericht
  • Cloudera Cloudera
  • | Business

    Die Iceberg Welle: Wie ein offenes Format zum Unternehmensstandard wurde

    Navita Sood Headshot
    schneebedeckte Berge

    Innovationen von Cloudera fördern die Einführung von Iceberg

    Apache Iceberg ist heute der De-facto-Standard für die Verwaltung großer strukturierter, semistrukturierter und sich ständig weiterentwickelnder Datenmengen. Ursprünglich wurde es 2017 bei Netflix entwickelt, um die Herausforderungen bei der Bereitstellung zuverlässiger Analysen im Petabyte-Maßstab (PB) auf Apache Hive und Spark zu bewältigen. Seitdem hat es sich zu einem robusten, offenen Tabellenformat entwickelt, das für die gleichzeitige Ausführung mehrerer Workloads geeignet ist. 

    Iceberg vereinheitlicht Ihre Daten und bietet SQL-Funktionen für den einfachen Zugriff auf diese Daten. Da Iceberg sich mit umfangreicheren SQL-Funktionen und vereinfachten Datenoperationen weiterentwickelt, wird es zunehmend von Anwendern mit unterschiedlichem technischem Fachwissen bevorzugt, nicht nur von Dateningenieuren, sondern auch von Datenkonsumenten (Datenwissenschaftlern, Analysten und Anwendungsentwicklern), die einen schnellen und zuverlässigen Zugriff auf beliebige Daten benötigen.

    Mit Iceberg erreichen Unternehmen eine echte Trennung von Rechenleistung und Speicher, was eine beispiellose Flexibilität ermöglicht. Wenn Sie nach multifunktionalen Analysen, KI-Kompatibilität und Herstellerunabhängigkeit suchen, gibt es kein vergleichbares Tabellenformat.

    Eine lebendige und wachsende Gemeinschaft

    In weniger als 10 Jahren hat sich Iceberg von einer aufstrebenden Technologie zu einem Unternehmensstandard entwickelt. Die Dynamik von Iceberg ist sowohl auf seine architektonischen Stärken als auch auf die zugrunde liegende lebendige, offene Community zurückzuführen. 

    Wichtig ist, dass die Iceberg-Community von ihren Benutzern und nicht nur von einem einzigen Anbieter geleitet wird. Dieses benutzergesteuerte Governance-Modell trägt zur Weiterentwicklung des Projekts bei, sodass es den vielfältigen Anforderungen der Praxis gerecht wird – ein wichtiger Grund für seine große Beliebtheit.

    Wichtige Erkenntnisse vom Iceberg Summit

    Die breite Akzeptanz von Iceberg wurde auf dem Iceberg Summit 2025 in San Francisco deutlich. Die Veranstaltung brachte Start-ups, Fortune-500-Unternehmen und die drei großen Cloud-Anbieter (AWS, Microsoft und Google) zusammen. Die Teilnehmer kamen sowohl persönlich als auch virtuell aus aller Welt und waren alle daran interessiert, zu lernen, einen Beitrag zu leisten und das Ökosystem weiterzuentwickeln. 

    Einige Themen dominierten die Gespräche auf dem Gipfel besonders: Interoperabilität und die wachsende Bedeutung von Iceberg (sein expandierendes Ökosystem und seine Fähigkeiten, einschließlich Automatisierung).

    Interoperabilität

    Von Netflix über Apple bis Bloomberg berichteten viele Unternehmen, wie sie mit Iceberg eine einzige zuverlässige Datenquelle verwalten können, die mehrere Workloads unterstützt – und dabei redundante Datenkopien eliminiert und die Datenbewegung zwischen Systemen reduziert. Sie diskutierten die verschiedenen Arten von Workloads, die sich auf die bewährte Datenschicht von Iceberg stützen, um Segmentierung, Personalisierung, Abwanderungs-/Rückfallprognosen, Empfehlungen, optimierte Kundenerlebnisse und vieles mehr zu liefern.

    Expandierendes Ökosystem

    Ein weiteres Highlight war das Aufkommen neuer Open-Source-Tools wie Comet, Polaris und Lance im Iceberg-Ökosystem, die zur Leistungssteigerung und zur Unterstützung multimodaler Analysen und KI entwickelt wurden.

    Kommende Updates in Iceberg V3 und V4

    Die Funktionen von Iceberg V3 und V4 sorgten für große Begeisterung. V3 wird die Daten-Governance, die Leistungsoptimierung und die Unterstützung für komplexere Datentypen wie Variant und Geospatial deutlich verbessern. Durch die Nutzung der Prinzipien des spaltenorientierten Formats ermöglicht Variant erweiterte Abfragefunktionen wie Filterung und Aggregation für semistrukturierte Daten, ohne dass umfangreiche Transformationen erforderlich sind. Durch die Unterstützung von Geospatial können Unternehmen standortbasierte Daten verwalten und so neue Anwendungsfälle erschließen. Das in V4 vorgeschlagene neue adaptive Metadatenlayout verspricht eine Leistungsverbesserung bei kleinen Dateien.

    Automatisiertes Datenmanagement

    Ein weiteres wichtiges Thema war die Automatisierung routinemäßiger Wartungsaufgaben (Partitionierung, Sortierung, Komprimierung) über richtliniengesteuerte Schnittstellen im DevOps-Stil zur Reduzierung manueller Arbeitsschritte. Da Unternehmen immer mehr Daten in Iceberg-Tabellen einspeisen, entsteht hier ein großer Engpass, da sie für diese Wartungsaufgaben Experten einstellen müssen. 

    Da immer mehr Engines auf die Daten in diesen Iceberg-Tabellen zugreifen, haben Governance, Sicherheit und Herkunft höchste Priorität. Die Transparenz von Datenflüssen und Datentransformationen ist für die Vertrauenswürdigkeit der Daten von entscheidender Bedeutung. In der Folge kam es zu Diskussionen über die Notwendigkeit einer Katalogzusammenführung und -steuerung, um die Transparenz von Iceberg-Tabellen zu verbessern. 

    Iceberg-Adoption bei Cloudera

    Cloudera stellte die native Integration von Apache Iceberg in seine Public-Cloud-Lakehouse-Plattform im Jahr 2021 vor, gefolgt von On-Premises im Jahr 2022. Heute führt die Mehrheit unserer Kunden entweder neue Workloads auf Iceberg aus oder testet diese. Insgesamt verwalten unsere Kunden Petabytes an Daten auf Iceberg.

    Iceberg ist ein Wachstumsfaktor für Cloudera. Wir beobachten einen Anstieg der Kunden, die Hive-Workloads auf Iceberg migrieren, um ihre Datenplattformen zu modernisieren und zukunftssicher zu machen. - Venkat Rajaji, SVP für Produktmanagement, Cloudera

    Mit Beginn der Iceberg-Reise ergeben sich für ein Unternehmen zahlreiche Vorteile, die zu wachsenden Datenmengen in Iceberg-Tabellen, einer Ausweitung der Workloads und neuen Anwendungsfällen führen. Eine schnellere Leistung ist oft der erste Motivator, gefolgt von Interoperabilität und Workflow-Flexibilität für mehr Agilität. Der Wechsel zu Iceberg senkt die Speicher-, ETL- und Betriebskosten um bis zu 75 %. Funktionen wie Zeitreisen, Snapshots, Write-Audit-Publish und versteckte Partitionierung verbessern die Effizienz zusätzlich und machen es zur richtigen Wahl für die Bereitstellung neuer Anwendungsfälle.

    Zu den beliebtesten Anwendungsfällen für Iceberg bei Cloudera gehören:

    • Datenaustausch zwischen verschiedenen Anbietersystemen im Besitz vertrauenswürdiger Parteien, beispielsweise verschiedener Geschäftseinheiten innerhalb eines Unternehmens oder mit vertrauenswürdigen Partnern und Lieferanten. 
    • Daten-Engineering für die Aufbereitung großer Datenmengen und bestes Preis-Leistungs-Verhältnis.
    • Analysen und Entscheidungen nahezu in Echtzeit durch die Integration von Streaming-Daten in das Lakehouse.
    • Berichterstattung zur Einhaltung gesetzlicher Vorschriften und kontinuierliche Risikominderung unter Verwendung der Zeitreise-Funktionen von Iceberg und der Governance-, Herkunfts- und Audit-Funktionen von Cloudera.
    • Optimierung der Ausgaben für Analytics-Clouds durch Freischaltung der Daten in Iceberg und Verwendung der robusten Erfassungs- und Datenverarbeitungsfunktionen von Cloudera.
    • Beschleunigung der Datenaufbereitung für KI durch die Verwendung von Spark und NiFi für eine schnellere Datenverarbeitung.
    • Effizientes Modelltraining über mehrere Datenversionen hinweg mit reduziertem Rechen- und Speicherbedarf.
    • Mehrstufige Funktionsspeicher, die Iceberg und HBase für KI mit geringer Latenz kombinieren.
    • Ausführung hybrider Workloads unter Verwendung von Rechenleistung in der öffentlichen Cloud für sensible Daten, die lokal gespeichert sind.

    Hören Sie sich an, wie Illumina und LY Corporation mit Apache Iceberg arbeiten und wie sie ihre Herausforderungen im Bereich Daten und Analysen im großen Maßstab meistern.

    Innovationen von Cloudera zur Bewältigung häufiger Herausforderungen 

    Lakehouse und Iceberg bieten zwar deutliche Vorteile, darunter die Zusammenführung all Ihrer Daten und die Beschleunigung von Analysen, doch gibt es einige Herausforderungen im Zusammenhang mit der Einführung von Iceberg, von denen uns unsere Kunden berichtet haben. Erstens befinden sich ihre Daten in mehreren Clouds, On-Premises und in Edge-Systemen, sodass eine Verschiebung aller Daten in die Cloud zur Nutzung von Iceberg nahezu unmöglich ist. Daher benötigen sie sowohl On-Premises als auch in der Cloud denselben Iceberg-Support. Zweitens benötigen sie eine Integration mit den Engines mehrerer Anbieter, damit sie Daten problemlos und zuverlässig, mit Herkunft und Rückverfolgbarkeit zwischen den Systemen austauschen können. Mit zunehmender Datenmenge wird die manuelle und kontinuierliche Optimierung von Iceberg-Tabellen für optimale Leistung sehr teuer und erfordert Experten und Rechenressourcen. Und schließlich erhöht Iceberg zwar die Datennutzung, doch die Freiheit der Nutzung beliebiger Tools birgt Risiken und erfordert wirksame Governance- und Sicherheitstools, um den Zugriff zu kontrollieren und die Metadatenverwaltung für Auditierbarkeit, Herkunft und Sichtbarkeit zu gewährleisten, damit die Daten besser verstanden und genutzt werden können.

    Wir arbeiten ständig an Innovationen zur Lösung von Kundenherausforderungen und haben mehrere Plattformverbesserungen vorgenommen, um diese häufig auftretenden Probleme zu beheben, darunter:

    • Iceberg allgegenwärtig mit dem hybriden Lakehouse: Bietet native Unterstützung für Iceberg sowohl On-Premises als auch in mehreren öffentlichen Clouds mit der Möglichkeit zum Portieren von Anwendungen und Code, um Impala, Spark, NiFi, Flink und Hive mit derselben Erfahrung für dieselben Daten zu nutzen. So können Kunden ihr Rechenzentrum mit Cloud-nativen Funktionen modernisieren. Iceberg on Ozone bietet lokal S3-kompatible Objektspeicher. Mit Cloudera können Unternehmen ihre Daten in der Cloud und On-Premises unter einem einzigen Governance- und Sicherheitsmodell vereinheitlichen – mit detaillierten Zugriffskontrollen, versionierten Metadaten und einem gemeinsamen Katalog.
    • Anwendungsentwicklung in Echtzeit: Erstellen Sie CDC-Pipelines in Echtzeit und integrieren und vereinheitlichen Sie Batch- und Streaming-Daten nahtlos mit unserem Bewegtdaten-Angebot für Streaming-Pipelines (NiFi+Kafka+Flink-on-Iceberg).
    • Vollständige Interoperabilität mit REST-Katalogintegration: Fördern Sie die Interoperabilität mit externen Engines und offenen Ökosystemen durch einheitliche Sicherheit und Governance.
    • Geringere Gesamtbetriebskosten und schnellere Leistung mit dem Cloudera Lakehouse Optimizer: Die integrierte KI optimiert automatisch die Komprimierung, das Ablaufdatum von Snapshots und das Layout – eine manuelle Optimierung ist nicht erforderlich.
    • Umfassendes Verständnis aller Datenquellen und -ziele: Octopai von Cloudera ermöglicht die intelligente Automatisierung von Metadaten und eine vollständige Lebenszyklus-Verfolgung aller Datenflüsse, auch außerhalb von Cloudera, um eine bessere Sichtbarkeit der Daten zu gewährleisten.
    • HA/DR und niedrige Latenz über Anwendungen hinweg: Die Iceberg-Tabellenreplikation bietet Resilienz und Flexibilität für HA-Datenarchitekturen.
    • Risikofreie und schnelle Einführung mit intelligenten Migrationstools: Unser Blueprint „Hive Tables to Apache Iceberg“ vereinfacht das Onboarding. 
    „Da wir uns eine Zukunft vorstellen, in der Apache Iceberg die Grundlage und Dreh- und Angelpunkt für plattformübergreifende Daten und KI bildet, verbessern wir unermüdlich die Fähigkeiten von Iceberg, um jedem Unternehmen beispiellose Agilität und Intelligenz zu ermöglichen.“ Bill Zhang, VP für Produktstrategien bei Cloudera

    Der Weg in die Zukunft

    Wir sind davon überzeugt, dass Iceberg auch weiterhin als Unternehmensstandard für offene Tabellenformate dominieren wird. Die neuen Innovationen bei automatisierten Optimierungen, multimodaler Unterstützung, Metadatenverwaltung und Python-Integration werden die Akzeptanz nur noch weiter fördern. Andere offene Tabellenformate werden wahrscheinlich einen spezialisierteren Ansatz verfolgen, der für bestimmte Workloads oder bestimmte Umgebungen geeignet ist, um Iceberg zu ergänzen. 

    Das Ziel von Cloudera ist die Unterstützung von Kunden beim Aufbau eines offenen Data Lakehouse auf Basis von Iceberg, das sich durch geringere Komplexität, größere Flexibilität und höhere Wirkung auszeichnet. Wir konzentrieren uns auf die Bereitstellung von Sicherheit und Governance auf Unternehmensniveau, zusätzlichen Optimierungen, mehrstufigen Speichermechanismen und einem „Katalog der Kataloge“, um die Interoperabilität und Zusammenarbeit zu verbessern. Sie können noch heute mit der 5-tägigen Testversion von Cloudera Lakehouse oder durch Lesen unserer Handbücher loslegen. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.