Cloudera im 4. Quartal 2025 als führender Anbieter für Data-Fabric-Plattformen ausgezeichnet von The Forrester Wave™

Lesen sie den Bericht
  • Cloudera Cloudera
  • | Business

    Kontext ist der schwierige Teil: Praktische Lektionen zum Aufbau agentischer KI-Systeme

    Cloudera Author Profile Picture
    Navita Sood Headshot
    Gebäudefenster

    Warum Context Engineering wichtig ist und wie Teams es umsetzen

    „Wie erhalten Sie die richtigen Daten, am richtigen Ort, zur richtigen Zeit?“ 

    Das ist die zentrale Herausforderung bei der Einführung von agentischer KI im Unternehmen. Obwohl große Sprachmodelle (LLMs) leistungsstarke Fähigkeiten zur Argumentation und Orchestrierung freigeschaltet haben, hängt ihre Effektivität von etwas Grundlegenderem ab: der Bereitstellung des richtigen Geschäftskontexts für die Argumentation und das Ergreifen von Maßnahmen. Context Engineering ist ein Bereich, der sich darauf konzentriert, wie Daten, Metadaten, Zugriffsrichtlinien und Speicher zusammenkommen, um das Verhalten von Agenten auf sichere und nachvollziehbare Weise zu steuern.

    Bei Cloudera erleben wir das hautnah, wenn wir mit Unternehmenskunden zusammenarbeiten, die mit neuen Anwendungsfällen für generative KI (GenAI) und agentische KI experimentieren. Der Aufbau agenter KI-Systeme hängt von etwas ab, womit die meisten Unternehmen zu kämpfen haben: einer Datenarchitektur, die Wissen über den gesamten KI-Lebenszyklus hinweg erfasst, verwaltet und wiederverwendet. 

    In diesem Blog teilen wir unseren Ansatz zum Aufbau agentischer KI-Systeme, der die grundlegenden Fähigkeiten in drei Kategorien einteilt: verbinden, kontextualisieren und konsumieren. Dieser Ansatz ermöglicht unseren Unternehmenskunden den Aufbau intelligenter, vertrauenswürdiger, erklärbarer und produktionsreifer agentischer Systeme.

    Verbinden: Silos durch Kontrolle aufbrechen

    Moderne KI-Agenten können in fragmentierten Umgebungen nicht erfolgreich sein. Die meisten Unternehmen haben jedoch Daten, die über mehrere Clouds, Rechenzentren, Altsysteme und inkonsistente Formate verteilt sind. Wenn diese Daten einem KI-System ohne Struktur oder Schutzmechanismen zugänglich gemacht werden, ergeben sich daraus Leistungsprobleme und Governance-Risiken.

    Bei erfolgreichen Implementierungen haben wir beobachtet, dass sich Unternehmen zunächst auf die Schaffung einer einheitlichen Datenschicht konzentrieren, die Umgebungen und Formate umfasst. Das bedeutet nicht die Zentralisierung aller Daten, sondern deren Zusammenführung in einer Data-Fabric-Architektur. Auf diese Weise entsteht eine einheitliche Ebene mit gemeinsam genutzten Metadaten, Zugriffsrichtlinien, föderiertem Data Engineering und Interoperabilität zur Laufzeit. 

    Die Implementierung eines offenen Tabellenformats und eines standardisierten API-Zugriffs vereinfacht den Datenzugriff und bietet gleichzeitig Flexibilität. Offene Lakehouse-Architekturen sind hier wichtig, da sie einheitliche Echtzeitansichten der Daten über verschiedene Engines hinweg bieten – insbesondere für agentische Workflows, die auf zuverlässigem Retrieval-Augmented Generation (RAG) und Schlussfolgerungen basieren.  

    Kontextualisieren: Agenten mehr als nur Zugriff gewähren

    Nachdem die Daten verbunden sind, besteht die Herausforderung nun darin, den Mitarbeitenden zu vermitteln, welche Daten vorhanden sind und wie sie verwendet werden. Das beginnt mit Entdeckung: automatische Identifizierung von Datenquellen in Cloud- und On-Premises-Systemen und Aktivierung der Metadaten – Tabellennamen, Felder, Formate und mehr. Tools wie Cloudera Octopai Data Lineage scannen ETL-Skripte, führen ein Reverse Engineering der Pipeline-Logik durch und erfassen, wie Daten systemübergreifend von der Quelle bis zum endgültigen Ziel bewegt und transformiert werden, wobei alle Abhängigkeiten auf diesem Weg erfasst werden.

    Diese Informationen bilden die Grundlage für die Lineage, die zeigt, wie Datensätze zusammenhängen und wie sie sich im Laufe der Zeit verändern. Die Daten-Lineage ist wichtig, wenn Sie ein Ergebnis validieren, eine Empfehlung oder eine Agentenaktion erklären oder eine fehlerhafte Ausgabe zu ihrer Quelle zurückverfolgen müssen. Dadurch werden Transparenz und Vertrauen in die Systeme geschaffen, mit denen die Agenten interagieren.

    Schließlich bringt die Katalogisierung diese Informationen in eine nutzbare Struktur. Ein zentraler Metadatenspeicher hilft sowohl Menschen als auch Agenten dabei, das zu finden, was sie benötigen, Beziehungen zwischen Datensätzen zu verstehen und Richtlinien aufzuzeigen, die Einfluss darauf haben, wie mit Daten umgegangen werden soll. Ein aussagekräftiger Katalog fungiert wie ein Blueprint – er liefert einen Wissensgraphen, der den Mitarbeitenden eine klare, navigierbare Karte des Datenbestands des Unternehmens bietet. Er erfasst die technischen, betrieblichen und geschäftlichen Metadaten einschließlich aller Geschäftsdefinitionen und der Geschäftslogik, die erforderlich sind, um die Daten zu verstehen und Maßnahmen zu ergreifen. 

    Durch Kontextualisierung können Agenten mehr als nur Informationen abrufen. Dadurch können sie Muster erkennen, bessere Fragen stellen und Entscheidungen mit einem tieferen Verständnis für das Umfeld treffen, in dem sie tätig sind.

    Konsumieren: Den richtigen Kontext zur richtigen Zeit bereitstellen

    Der letzte Schritt beim Aufbau agentischer Systeme umfasst die Befähigung der KI, Maßnahmen zu ergreifen, die nachvollziehbar, sicher und auf den richtigen Informationen basierend sind. Hier kommt es auf die architektonischen Entscheidungen an – Schutzmechanismen, Beobachtbarkeit und kontrollierter Zugriff bestimmen, ob Agenten sich in entscheidenden Momenten vorhersehbar verhalten.

    Wir haben festgestellt, dass es hilfreich ist, gängige Context-Engineering-Techniken den zugrunde liegenden Datenherausforderungen zuzuordnen, die sie lösen sollen. Hier sind einige Beispiele, wie sie sich in der Praxis zeigen:

    Herausforderung der Datenbereitschaft

    Context-Engineering-Technik

    Der Ansatz von Cloudera

    Sensible Daten, die in Prompts auftauchen

    Prompt-Engineering

    Schnelle Gateways zum Schwärzen sensibler Daten

    Ungeordnete, unstrukturierte Daten oder veraltete Vektorindizes

    RAG

    Kontrollierte und sichere Streaming-Datenpipelines in Echtzeit

    Fehlende Lineage, brüchige Trainingssätze

    Feinabstimmung

    Verbessern Sie die Erklärbarkeit von KI durch Lineage-Tracking

    Agenten, die ihre Grenzen überschreiten, undurchsichtige Entscheidungen

    Tool-/API-Zugriff

    Metadaten-Tagging, autonome Datenklassifizierung, detaillierte Zugriffsrechte und vollständige Audit-Trails für jeden Systemaufruf

    Agenten können nicht auf internes Unternehmenswissen zugreifen

    Modellkontextprotokolle (MCPs)

    Kontrollierter Zugriff auf Apache Iceberg-gestützte Kontexte mit REST-Katalogen

    Die Wahl der richtigen Technik hängt von der Rolle des Agenten, der Datensensitivität und der Betriebsumgebung ab. Nachfolgend sind gängige Anwendungsfälle für Unternehmen und die empfohlenen Kombinationen aufgeführt, die sich in der Praxis bewährt haben:

    Anwendungsfall

    Empfohlene Methode(n)

    Interner Wissensassistent

    RAG + Vektordatenbank + Prompt-Engineering-Fallback

    Vertriebsunterstützungs-Bot mit CRM-Daten (Customer Relationship Management)

    Funktionsaufruf + Geschäftskontext-Injektion

    Produktspezifischer Supportmitarbeiter

    Feinabstimmung oder gemeinsamer Kontext von RAG + MCP

    Datenanalyse-Workflow mit mehreren Agenten zur Gewinnung von Erkenntnissen 

    LangGraph + MCP + Tool-Zugriff + segmentierter Speicher

    Dokumentenverständnis (PDF, Excel)

    Multimodale Eingaben + Vorverarbeitungspipelines

    Dieser Ansatz für den Verbrauch stellt sicher, dass Agenten mit Präzision, Sicherheit und Ausrichtung auf Geschäftsziele arbeiten.

    Erkenntnisse: Vom Framework zur Handlung

    Bei Cloudera beschäftigen wir uns seit Jahren mit den Komplexitäten von Unternehmensdaten: Wir überbrücken Silos, setzen Governance durch, bauen sichere Pipelines für KI und Analysen auf und machen die Daten-Lineage in hybriden Umgebungen sichtbar. Wenn also agentische KI-Muster aufkamen, fingen wir nicht bei Null an. Wir wussten, wo der Kontext zu finden ist und wie er mit den richtigen Schutzmechanismen sicher erfasst werden kann.

    Mit Cloudera Octopai Data Lineage können Teams Datenflüsse automatisch abbilden, Abhängigkeiten nachverfolgen und Metadaten in Cloud- und On-Premises-Umgebungen katalogisieren. Durch die Kombination von Data Catalogs, Beobachtbarkeit und Zugriffskontrolle können Agenten sicherer und intelligenter mit Systemen interagieren. Teams gewinnen Transparenz, Governance und Vertrauen – entscheidend für die Skalierung dieser Workflows im gesamten Unternehmen.

    Damit diese Komponenten nutzbar sind, haben wir diese Funktionen in unser offebes Data Lakehouse und Cloudera AI Studios integriert und bieten Unternehmen damit die Grundlage für die Entwicklung, Bereitstellung und Verwaltung sicherer agentischer Systeme in der Produktion.

    Erfahren Sie mehr darüber, wie Cloudera Sie bei der Bereitstellung Ihrer KI-Agenten mit dem richtigen Geschäftskontext, den sie benötigen, unterstützen kann.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.