ClouderaNOW: Erfahren Sie mehr über KI-Agenten, Cloud-Bursting und Data Fabrics für KI | 8. April

Jetzt registrieren
  • Cloudera Cloudera
  • | Technisch

    Cloudera vs Snowflake vs Databricks: Welches Föderationsmodell unterstützt die Unternehmens-KI am besten?

    Navita Sood Headshot
    Datenstrom

    KI zwingt Unternehmen, sich einem Projekt zu stellen, das sie seit Jahren aufgeschoben haben: fragmentierte Datenbestände.  

    Früher war Fragmentierung ein Ärgernis. Natürlich waren ein paar zusätzliche Schritte – und ein paar zusätzliche Tage – erforderlich, um Berichte über Regionen oder Abteilungen hinweg zu erstellen. Möglicherweise muss das IT-Team eingreifen, um Unstimmigkeiten zu beseitigen. Doch nichts davon war so gravierend, dass es zum Ausschlusskriterium geworden wäre.  

    Bis jetzt. 

    Warum Datenföderation jetzt wichtig ist 

    In einem KI-Kontext bedeutet ein zersplitterter Datenbestand:

    • Modelle, die auf unvollständigem Kontext trainiert wurden
    • Agenten, die Entscheidungen mit veralteten oder ungültigen Daten treffen
    • Inkonsistente Anwendung von Governance-Richtlinien in verschiedenen Umgebungen

    Es bedeutet Duplikation, Latenz und blinde Flecken genau in dem Moment, in dem Unternehmen versuchen, KI im großen Maßstab zu operationalisieren. 

    Mit anderen Worten: Fragmentierung ist plötzlich ein Ausschlusskriterium

    In unserem vorherigen Beitrag haben wir untersucht, warum ein einheitlicher, kontrollierter Datenzugriff die Grundlage für vertrauenswürdige KI und warum Konsolidierung allein nicht die Lösung ist. Die Zentralisierung von Daten (d. h. die Zusammenführung aller Daten an einem physischen Standort) mag theoretisch sinnvoll klingen, führt in der Praxis jedoch zu betrieblichen Kompromissen, die sich Unternehmen nicht mehr leisten können. Klicken Sie hier, um mehr über die Gründe zu erfahren

    Die Alternative ist die Föderation – die es Organisationen ermöglicht, so zu agieren, als wären ihre Daten einheitlich. Aber es gibt eine Nuance, die viele Käufer jetzt entdecken: 

    Nicht alle Föderationsstrategien sind gleichwertig. 

    Zwei konkurrierende Föderationsstrategien: Erst zentralisieren oder dort föderieren, wo die Daten gespeichert sind 

    Die meisten Anbieter verwenden den Begriff „Föderation“, um einen Vorteil ihrer Daten- und KI-Plattform zu beschreiben (d. h., dass Unternehmen ihre gesamten Daten für Analysen und KI nutzen können), doch sie verstehen unter diesem Begriff nicht immer dasselbe. Bei der Bewertung einer Plattform ist es entscheidend, genau zu verstehen, was die einzelnen Anbieter bieten und inwieweit ihr Angebot Ihren Anforderungen entspricht, bevor Sie sich festlegen. 

    Allgemein gesagt gibt es auf dem Markt heute zwei vorherrschende Ansätze: „Consolidation-First“-Föderation und „Federation-in-Place“ (oft auch als Datenvirtualisierung bezeichnet). 

    Modell 1: „Consolidation-First“-Föderation (Ansatz von Databricks und Snowflake).

    Das erste Föderationsmodell ist ein sogenannter „Consolidation-First“-Ansatz – eine Föderation wird erst möglich, nachdem die Daten in der Cloud-Umgebung des Anbieters oder innerhalb seines Governance-Modells konsolidiert wurden. Wenn Sie systemübergreifenden Zugriff wünschen, bedeutet das in der Regel, dass Sie regelmäßig Daten kopieren oder in die Plattform einlesen müssen. 

    Einfach ausgedrückt handelt es sich um eine Föderation, da Sie alle Ihre Daten an einem Ort analysieren können. Aber zuerst müssen Sie alles zu ihnen bringen. 

    Für Führungskräfte in Unternehmen hat dieser Ansatz konkrete Auswirkungen, darunter:

    • Höhere Speicher- und Datenverarbeitungskosten
    • Erhöhte Datenduplizierung
    • Replikation von Governance-Richtlinien und Berechtigungen über verschiedene Systeme hinweg
    • Erhöhte Compliance- und Audit-Komplexität

    Mit anderen Worten: Je mehr Orte Ihre Daten erreichen, desto teurer und schwieriger wird es, sie zu schützen. Für Cloud-native Unternehmen kann dieser Ansatz akzeptabel sein. Für hybride, regulierte Unternehmen führt dies jedoch zu Reibungsverlusten, die sich im Laufe der Zeit verstärken. 

    Modell 2: Federation-in-Place (Der Ansatz von Cloudera) 

    Das von Cloudera vertretene alternative Föderationsmodell verfolgt einen grundlegend anderen Ansatz: Rechenleistung und KI werden zu den Daten gebracht, unabhängig davon, wo diese gespeichert sind, anstatt die Daten zwangsweise zu bewegen.  

    Federation-in-place bringt Daten logisch und nicht physisch zusammen, sodass Teams sie dort abrufen und analysieren können, wo sie sich bereits befinden – in öffentlichen, privaten und lokalen Umgebungen – ohne sie zuerst auf eine andere Plattform zu kopieren. 

    Es klingt nach einem subtilen Unterschied, aber in der Praxis verändert er alles: 

    • Geringere Infrastruktur- und Speicherkosten durch Minimierung unnötiger Datenbewegungen
    • Weniger Duplizierung in verschiedenen Umgebungen
    • Höhere Flexibilität bei Multi-Cloud- und On-Prem-Architekturen
    • Geringeres Risiko einer Exposition aufgrund von Cloud-Konzentration
    • Ein einheitliches Sicherheits- und Governance-Modell mit durchgängiger Rückverfolgbarkeit für alle Ihre Daten, egal wo sie sich befinden

    So bleiben Ihre Daten dort, wo sie aus regulatorischen, betrieblichen oder leistungsbezogenen Gründen am sinnvollsten sind, und Ihre Teams erhalten trotzdem einen vollständigen Echtzeit-Überblick. 

    Was „Federation-in-Place“ ermöglicht, was „Consolidation-First“-Modelle nicht können 

    Wenn der Verbund in hybriden Umgebungen ohne Replikation funktioniert (d. h. ein Verbund vor Ort), schafft das Bedingungen, denen Modelle, bei denen die Konsolidierung an erster Stelle steht, nur schwer gerecht werden können. Diese Unterscheidung verändert das Risikoprofil Ihrer gesamten KI-Strategie außerhalb von reinen Cloud-Umgebungen. 

    1. Null-Redundanz-Sicherheit 

    In „Consolidation-First“-Modellen (angeboten von Anbietern wie Databricks und Snowflake) erscheinen Daten zwar einheitlich, existieren aber dennoch in mehreren Umgebungen. Bevor die Daten analysiert werden können, werden sie in eine vom Anbieter kontrollierte Plattform kopiert, eingespielt oder repliziert. Jede zusätzliche Kopie erweitert die Compliance-Oberfläche. 

    Mehr Umgebungen bedeuten mehr zu verwaltende Berechtigungen, mehr zu synchronisierende Richtlinien und einen größeren Prüfumfang, der abgeglichen werden muss. Mit zunehmender Replikation steigt auch die Komplexität der Governance. 

    Federation-in-place-Modelle, wie die von Cloudera, lassen die Daten dort, wo sie sich befinden. So werden die Governance-Richtlinien einmal festgelegt und überall einheitlich durchgesetzt. Anstatt Berechtigungen systemübergreifend neu zu erstellen, regelt eine einzige, konsistente Steuerungsebene den Zugriff in hybriden Umgebungen. Bei Cloudera nennen wir das Governance, die sich mit Ihren Daten weiterentwickelt. 

    Stellen Sie es sich wie ein globales Unternehmensabzeichensystem vor. Man möchte ja nicht jedes Mal einen neuen Sicherheitsausweis ausstellen, wenn ein Mitarbeiter ein anderes Büro besucht. Die Zugriffsberechtigungen werden zentral definiert, und derselbe Ausweis funktioniert in der Zentrale, den Regionalbüros und den Rechenzentren, sodass überall die gleichen Sicherheitsregeln gelten. 

    Sie legen die Regeln einmal fest, und jede Tür erkennt sie – selbst an verschiedenen Standorten. Das ist Sicherheit ohne Redundanz und ein enormer Vorteil für die Risikobegrenzung, da sich die Komplexität nicht vervielfacht, wenn Ihre Umgebung wächst. 

    2. End-to-End-Herkunftsnachverfolgung über hybride Quellen hinweg 

    In allen Branchen übernimmt die KI immer mehr Verantwortung, und damit steigt auch der Bedarf an Rechenschaftspflicht und Erklärbarkeit. 

    Wenn KI beispielsweise Kreditgenehmigungen, Betrugswarnungen, Preisentscheidungen oder Anpassungen der Lieferkette beeinflusst, muss jedes Ergebnis nachvollziehbar sein. Aufsichtsbehörden, Wirtschaftsprüfer und die Geschäftsleitung erwarten zunehmend, nicht nur das Ergebnis, sondern auch den gesamten Weg dorthin zu sehen. 

    In hybriden Unternehmen verläuft dieser Weg selten in einer einzigen Umgebung. Daten können aus lokalen Umgebungen oder der Edge stammen, in einer Public Cloud angereichert, mit SaaS-Daten verknüpft und von einem an anderer Stelle ausgeführten Modell genutzt werden. Die Rückverfolgbarkeit innerhalb dieser Realität ist unabdingbar. 

    „Consolidation-First“-Föderationsansätze versuchen, die Datenherkunft durch Zentralisierung der Daten zu vereinfachen. In der Praxis entstehen durch die Replikation jedoch parallele Datenbestände: die ursprünglichen Datensätze in den Quellsystemen und die transformierten Kopien in den Analyseumgebungen. Im Laufe der Zeit kann es vorkommen, dass zur Erläuterung einer Entscheidung verschiedene Versionen derselben Daten aus unterschiedlichen Systemen miteinander abgeglichen werden müssen. Die Datenherkunft wird zu etwas, das man rekonstruieren muss. 

    Da „Federation-in-Place“ in die Funktionen zur Datenherkunftsverfolgung integriert ist (wie beispielsweise die Datenherkunftsverfolgungstools von Cloudera), ist dies kein Problem. Da die Daten dort abgerufen werden, wo sie sich befinden (statt in eine separate Umgebung repliziert zu werden), bleibt die Datenherkunft an die ursprüngliche Quelle gebunden. 

    Diese Unterscheidung ist vor allem bei Hybrid- und Edge-abhängigen Workflows von Bedeutung. Mit einem „Federation-in-Place“-Ansatz können Sie sicher sein, dass die Antwort nicht in einer undurchsichtigen Blackbox verborgen bleibt, die erst entschlüsselt werden muss, falls eine Aufsichtsbehörde oder ein neuer CRO in einigen Jahren nachfragt, wie eine bestimmte Entscheidung getroffen wurde. Er ist dokumentiert, nachvollziehbar und vertretbar. 

    3. Eine stärkere Grundlage für reale KI-Systeme 

    Bei Konsolidierungsmodellen arbeitet die Künstliche Intelligenz (KI) innerhalb der Umgebung, in der die Daten zentralisiert wurden. Das funktioniert, solange der Datenfluss mit der betrieblichen Realität Schritt hält. In hybriden Unternehmen ist das selten der Fall. 

    Wenn KI für reale Ergebnisse wie dynamische Preisgestaltung oder Anpassungen der Lieferkette verantwortlich ist, muss sie in Live-Systemen mit verteilter Infrastruktur arbeiten – und nicht in nachgelagerten analytischen Kopien. Jeder Replikationsschritt führt zu Abhängigkeitsketten, wodurch Latenz- bzw. Datenaufnahmeverzögerungen entstehen und die Gefahr von Abweichungen zwischen den tatsächlichen Betriebssystemen und den KI-Modellen, die diese nutzen, besteht. 

    Im Gegensatz dazu sorgt „Federation-in-place“ dafür, dass die KI stets auf die betriebliche Realität abgestimmt bleibt, gewährleistet, dass der Kontext immer aktuell ist, und ermöglicht operative KI-Anwendungsfälle, mit denen eine „Consolidation-First“-Föderationsstrategie außerhalb der Cloud nicht Schritt halten könnte. 

    Operative KI in der Praxis: Logistikbranche

    Um zu verstehen, warum all dies in der Praxis von Bedeutung ist, wollen wir uns ein Beispiel ansehen. Nehmen wir ein globales Logistikunternehmen, das KI zur Optimierung von Lieferrouten in Echtzeit einsetzt. Eine einzelne Routenentscheidung kann von Folgendem abhängen: 

    • Fahrerverfügbarkeitsdaten aus einem Workforce-Management-System
    • Echtzeit-GPS-Feeds von Fahrzeugen
    • Verkehrs- und Wetterdaten von externen APIs
    • Lagerverfügbarkeit in regionalen Lagern
    • Kennzahlen zur Kraftstoffeffizienz von IoT-Sensoren
    • Lokale regulatorische Beschränkungen oder Gewerkschaftsregeln

    Wenn dieses KI-Modell mit Momentaufnahmen arbeitet, die Tage oder sogar Stunden zuvor in einer einzigen Cloud gespeichert wurden, trifft es Entscheidungen mit unvollständigem Kontext. Es könnte Fahrer umleiten, ohne die aktualisierten Lagerbestände zu berücksichtigen, oder die Geschwindigkeit optimieren, ohne regionale Vorschriften einzuhalten. Es könnte auf veraltete Telemetriedaten von Fahrzeugen zurückgreifen, die sich bereits außerhalb der Route befinden. 

    Wenn KI-Systeme sicher auf verteilte Daten zugreifen können, wo diese bereits gespeichert sind, mit redundanzfreier Sicherheit und vollständiger Transparenz der Datenherkunft, schalten Unternehmen eine voll funktionsfähige KI frei, die in Echtzeit agiert, innerhalb der Richtlinienvorgaben arbeitet und sich ohne zusätzliches Risiko in verschiedenen Umgebungen skalieren lässt. 

    So wählen Sie einen Föderationsanbieter aus: Fragen, die jedes Unternehmen stellen sollte 

    Wie wir gesehen haben, sind nicht alle Föderationsstrategien auf das gleiche Ergebnis ausgerichtet.  

    Einige legen Wert auf Konsolidierung, andere auf hybride Flexibilität und geregelten Zugriff. Bei der Bewertung von Cloudera, Databricks und Snowflake (oder einer beliebigen Datenföderationslösung bzw. einer Kombination daraus) helfen diese Fragen dabei, die tatsächlichen Unterschiede herauszuarbeiten. 

    • Erfordert die Föderation eine Datenbewegung? Können Sie auf die Daten zugreifen, wo sie sich bereits befinden, oder müssen sie zuerst in eine zentrale Cloud kopiert werden?
    • Wo werden die Governance-Richtlinien festgelegt? Werden Zugriffskontrollen einmalig festgelegt und überall vererbt oder systemübergreifend neu erstellt?
    • Wird Hybrid als dauerhaft behandelt? Unterstützt die Architektur langfristig On-Prem- und Multi-Cloud-Lösungen oder geht sie von einer späteren Konsolidierung aus?
    • Kann die Datenherkunft über die Umgebung des Anbieters hinausgehen? Ist die Rückverfolgbarkeit durchgängig über verteilte Quellen hinweg gewährleistet, einschließlich nicht nativer Systeme?
    • Ist die Plattform für den operativen Einsatz von KI überall konzipiert? Kann KI sicher auf Live-Daten in Echtzeit zugreifen oder nur auf zentralisierte Schnappschüsse?

    Die Antworten auf diese Fragen helfen Ihnen dabei, zu entscheiden, ob die Datenföderation eine praktische Funktion für Analysezwecke bleibt oder zur langfristigen Grundlage für vertrauenswürdige, kosteneffiziente KI im Unternehmensmaßstab wird. 

    Föderation funktioniert nur, wenn sie absichtlich so konzipiert ist 

    Die Gestaltung einer föderierten Umgebung erfordert einen Blick hinter die Kulissen – dabei müssen Governance-Modelle, regulatorische Auflagen, Leistungsanforderungen und bestehende Integrationen aufeinander abgestimmt und die Systeme so miteinander verbunden werden, dass langfristige Flexibilität gewährleistet ist. 

    Das Team für Professionelle Dienstleistungen & Training (PS&T) von Cloudera hat bereits unzählige Male Unternehmen aus verschiedenen Branchen durch diesen Prozess geführt. Ganz gleich, ob Sie eine neue Verbundstrategie entwickeln oder eine bestehende Umgebung optimieren, erfahrene Berater an Ihrer Seite können Ihnen helfen, sicherzustellen, dass Ihre Verbundumgebung nicht nur korrekt eingerichtet ist, sondern auch wirklich KI-fähig ist und messbare Ergebnisse liefert. 

     

    Weiterlesen: So funktioniert die Föderation im Finanzdienstleistungssektor 

    Die Entscheidung zwischen „Consolidation-First“ und „Federation-in-Place“ bestimmt, ob die KI im Pilotmodus verbleibt oder sicher in den operativen Betrieb überführt wird. 

    Nirgendwo ist dies wichtiger als im Finanzdienstleistungssektor, wo Betrugsaufdeckung, Risikomanagement und aufsichtsrechtliche Berichterstattung von aktuellen, systemübergreifenden Daten abhängen. In unserem nächsten Artikel werden wir untersuchen, wie die Föderation die Echtzeitanalyse und die KI-Governance im Bankwesen verändert. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.