Apache Iceberg ist heute der De-facto-Standard für die Verwaltung großer strukturierter, semistrukturierter und sich ständig weiterentwickelnder Datenmengen. Ursprünglich wurde es 2017 bei Netflix entwickelt, um die Herausforderungen bei der Bereitstellung zuverlässiger Analysen im Petabyte-Maßstab (PB) auf Apache Hive und Spark zu bewältigen. Seitdem hat es sich zu einem robusten, offenen Tabellenformat entwickelt, das für die gleichzeitige Ausführung mehrerer Workloads geeignet ist.
Iceberg vereinheitlicht Ihre Daten und bietet SQL-Funktionen für den einfachen Zugriff auf diese Daten. Da Iceberg sich mit umfangreicheren SQL-Funktionen und vereinfachten Datenoperationen weiterentwickelt, wird es zunehmend von Anwendern mit unterschiedlichem technischem Fachwissen bevorzugt, nicht nur von Dateningenieuren, sondern auch von Datenkonsumenten (Datenwissenschaftlern, Analysten und Anwendungsentwicklern), die einen schnellen und zuverlässigen Zugriff auf beliebige Daten benötigen.
Mit Iceberg erreichen Unternehmen eine echte Trennung von Rechenleistung und Speicher, was eine beispiellose Flexibilität ermöglicht. Wenn Sie nach multifunktionalen Analysen, KI-Kompatibilität und Herstellerunabhängigkeit suchen, gibt es kein vergleichbares Tabellenformat.
In weniger als 10 Jahren hat sich Iceberg von einer aufstrebenden Technologie zu einem Unternehmensstandard entwickelt. Die Dynamik von Iceberg ist sowohl auf seine architektonischen Stärken als auch auf die zugrunde liegende lebendige, offene Community zurückzuführen.
Wichtig ist, dass die Iceberg-Community von ihren Benutzern und nicht nur von einem einzigen Anbieter geleitet wird. Dieses benutzergesteuerte Governance-Modell trägt zur Weiterentwicklung des Projekts bei, sodass es den vielfältigen Anforderungen der Praxis gerecht wird – ein wichtiger Grund für seine große Beliebtheit.
Die breite Akzeptanz von Iceberg wurde auf dem Iceberg Summit 2025 in San Francisco deutlich. Die Veranstaltung brachte Start-ups, Fortune-500-Unternehmen und die drei großen Cloud-Anbieter (AWS, Microsoft und Google) zusammen. Die Teilnehmer kamen sowohl persönlich als auch virtuell aus aller Welt und waren alle daran interessiert, zu lernen, einen Beitrag zu leisten und das Ökosystem weiterzuentwickeln.
Einige Themen dominierten die Gespräche auf dem Gipfel besonders: Interoperabilität und die wachsende Bedeutung von Iceberg (sein expandierendes Ökosystem und seine Fähigkeiten, einschließlich Automatisierung).
Von Netflix über Apple bis Bloomberg berichteten viele Unternehmen, wie sie mit Iceberg eine einzige zuverlässige Datenquelle verwalten können, die mehrere Workloads unterstützt – und dabei redundante Datenkopien eliminiert und die Datenbewegung zwischen Systemen reduziert. Sie diskutierten die verschiedenen Arten von Workloads, die sich auf die bewährte Datenschicht von Iceberg stützen, um Segmentierung, Personalisierung, Abwanderungs-/Rückfallprognosen, Empfehlungen, optimierte Kundenerlebnisse und vieles mehr zu liefern.
Ein weiteres Highlight war das Aufkommen neuer Open-Source-Tools wie Comet, Polaris und Lance im Iceberg-Ökosystem, die zur Leistungssteigerung und zur Unterstützung multimodaler Analysen und KI entwickelt wurden.
Die Funktionen von Iceberg V3 und V4 sorgten für große Begeisterung. V3 wird die Daten-Governance, die Leistungsoptimierung und die Unterstützung für komplexere Datentypen wie Variant und Geospatial deutlich verbessern. Durch die Nutzung der Prinzipien des spaltenorientierten Formats ermöglicht Variant erweiterte Abfragefunktionen wie Filterung und Aggregation für semistrukturierte Daten, ohne dass umfangreiche Transformationen erforderlich sind. Durch die Unterstützung von Geospatial können Unternehmen standortbasierte Daten verwalten und so neue Anwendungsfälle erschließen. Das in V4 vorgeschlagene neue adaptive Metadatenlayout verspricht eine Leistungsverbesserung bei kleinen Dateien.
Ein weiteres wichtiges Thema war die Automatisierung routinemäßiger Wartungsaufgaben (Partitionierung, Sortierung, Komprimierung) über richtliniengesteuerte Schnittstellen im DevOps-Stil zur Reduzierung manueller Arbeitsschritte. Da Unternehmen immer mehr Daten in Iceberg-Tabellen einspeisen, entsteht hier ein großer Engpass, da sie für diese Wartungsaufgaben Experten einstellen müssen.
Da immer mehr Engines auf die Daten in diesen Iceberg-Tabellen zugreifen, haben Governance, Sicherheit und Herkunft höchste Priorität. Die Transparenz von Datenflüssen und Datentransformationen ist für die Vertrauenswürdigkeit der Daten von entscheidender Bedeutung. In der Folge kam es zu Diskussionen über die Notwendigkeit einer Katalogzusammenführung und -steuerung, um die Transparenz von Iceberg-Tabellen zu verbessern.
Cloudera stellte die native Integration von Apache Iceberg in seine Public-Cloud-Lakehouse-Plattform im Jahr 2021 vor, gefolgt von On-Premises im Jahr 2022. Heute führt die Mehrheit unserer Kunden entweder neue Workloads auf Iceberg aus oder testet diese. Insgesamt verwalten unsere Kunden Petabytes an Daten auf Iceberg.
Iceberg ist ein Wachstumsfaktor für Cloudera. Wir beobachten einen Anstieg der Kunden, die Hive-Workloads auf Iceberg migrieren, um ihre Datenplattformen zu modernisieren und zukunftssicher zu machen. - Venkat Rajaji, SVP für Produktmanagement, Cloudera
Mit Beginn der Iceberg-Reise ergeben sich für ein Unternehmen zahlreiche Vorteile, die zu wachsenden Datenmengen in Iceberg-Tabellen, einer Ausweitung der Workloads und neuen Anwendungsfällen führen. Eine schnellere Leistung ist oft der erste Motivator, gefolgt von Interoperabilität und Workflow-Flexibilität für mehr Agilität. Der Wechsel zu Iceberg senkt die Speicher-, ETL- und Betriebskosten um bis zu 75 %. Funktionen wie Zeitreisen, Snapshots, Write-Audit-Publish und versteckte Partitionierung verbessern die Effizienz zusätzlich und machen es zur richtigen Wahl für die Bereitstellung neuer Anwendungsfälle.
Zu den beliebtesten Anwendungsfällen für Iceberg bei Cloudera gehören:
Hören Sie sich an, wie Illumina und LY Corporation mit Apache Iceberg arbeiten und wie sie ihre Herausforderungen im Bereich Daten und Analysen im großen Maßstab meistern.
Lakehouse und Iceberg bieten zwar deutliche Vorteile, darunter die Zusammenführung all Ihrer Daten und die Beschleunigung von Analysen, doch gibt es einige Herausforderungen im Zusammenhang mit der Einführung von Iceberg, von denen uns unsere Kunden berichtet haben. Erstens befinden sich ihre Daten in mehreren Clouds, On-Premises und in Edge-Systemen, sodass eine Verschiebung aller Daten in die Cloud zur Nutzung von Iceberg nahezu unmöglich ist. Daher benötigen sie sowohl On-Premises als auch in der Cloud denselben Iceberg-Support. Zweitens benötigen sie eine Integration mit den Engines mehrerer Anbieter, damit sie Daten problemlos und zuverlässig, mit Herkunft und Rückverfolgbarkeit zwischen den Systemen austauschen können. Mit zunehmender Datenmenge wird die manuelle und kontinuierliche Optimierung von Iceberg-Tabellen für optimale Leistung sehr teuer und erfordert Experten und Rechenressourcen. Und schließlich erhöht Iceberg zwar die Datennutzung, doch die Freiheit der Nutzung beliebiger Tools birgt Risiken und erfordert wirksame Governance- und Sicherheitstools, um den Zugriff zu kontrollieren und die Metadatenverwaltung für Auditierbarkeit, Herkunft und Sichtbarkeit zu gewährleisten, damit die Daten besser verstanden und genutzt werden können.
Wir arbeiten ständig an Innovationen zur Lösung von Kundenherausforderungen und haben mehrere Plattformverbesserungen vorgenommen, um diese häufig auftretenden Probleme zu beheben, darunter:
„Da wir uns eine Zukunft vorstellen, in der Apache Iceberg die Grundlage und Dreh- und Angelpunkt für plattformübergreifende Daten und KI bildet, verbessern wir unermüdlich die Fähigkeiten von Iceberg, um jedem Unternehmen beispiellose Agilität und Intelligenz zu ermöglichen.“ Bill Zhang, VP für Produktstrategien bei Cloudera
Wir sind davon überzeugt, dass Iceberg auch weiterhin als Unternehmensstandard für offene Tabellenformate dominieren wird. Die neuen Innovationen bei automatisierten Optimierungen, multimodaler Unterstützung, Metadatenverwaltung und Python-Integration werden die Akzeptanz nur noch weiter fördern. Andere offene Tabellenformate werden wahrscheinlich einen spezialisierteren Ansatz verfolgen, der für bestimmte Workloads oder bestimmte Umgebungen geeignet ist, um Iceberg zu ergänzen.
Das Ziel von Cloudera ist die Unterstützung von Kunden beim Aufbau eines offenen Data Lakehouse auf Basis von Iceberg, das sich durch geringere Komplexität, größere Flexibilität und höhere Wirkung auszeichnet. Wir konzentrieren uns auf die Bereitstellung von Sicherheit und Governance auf Unternehmensniveau, zusätzlichen Optimierungen, mehrstufigen Speichermechanismen und einem „Katalog der Kataloge“, um die Interoperabilität und Zusammenarbeit zu verbessern. Sie können noch heute mit der 5-tägigen Testversion von Cloudera Lakehouse oder durch Lesen unserer Handbücher loslegen.
This may have been caused by one of the following: