„Wie erhalten Sie die richtigen Daten, am richtigen Ort, zur richtigen Zeit?“
Das ist die zentrale Herausforderung bei der Einführung von agentischer KI im Unternehmen. Obwohl große Sprachmodelle (LLMs) leistungsstarke Fähigkeiten zur Argumentation und Orchestrierung freigeschaltet haben, hängt ihre Effektivität von etwas Grundlegenderem ab: der Bereitstellung des richtigen Geschäftskontexts für die Argumentation und das Ergreifen von Maßnahmen. Context Engineering ist ein Bereich, der sich darauf konzentriert, wie Daten, Metadaten, Zugriffsrichtlinien und Speicher zusammenkommen, um das Verhalten von Agenten auf sichere und nachvollziehbare Weise zu steuern.
Bei Cloudera erleben wir das hautnah, wenn wir mit Unternehmenskunden zusammenarbeiten, die mit neuen Anwendungsfällen für generative KI (GenAI) und agentische KI experimentieren. Der Aufbau agenter KI-Systeme hängt von etwas ab, womit die meisten Unternehmen zu kämpfen haben: einer Datenarchitektur, die Wissen über den gesamten KI-Lebenszyklus hinweg erfasst, verwaltet und wiederverwendet.
In diesem Blog teilen wir unseren Ansatz zum Aufbau agentischer KI-Systeme, der die grundlegenden Fähigkeiten in drei Kategorien einteilt: verbinden, kontextualisieren und konsumieren. Dieser Ansatz ermöglicht unseren Unternehmenskunden den Aufbau intelligenter, vertrauenswürdiger, erklärbarer und produktionsreifer agentischer Systeme.
Moderne KI-Agenten können in fragmentierten Umgebungen nicht erfolgreich sein. Die meisten Unternehmen haben jedoch Daten, die über mehrere Clouds, Rechenzentren, Altsysteme und inkonsistente Formate verteilt sind. Wenn diese Daten einem KI-System ohne Struktur oder Schutzmechanismen zugänglich gemacht werden, ergeben sich daraus Leistungsprobleme und Governance-Risiken.
Bei erfolgreichen Implementierungen haben wir beobachtet, dass sich Unternehmen zunächst auf die Schaffung einer einheitlichen Datenschicht konzentrieren, die Umgebungen und Formate umfasst. Das bedeutet nicht die Zentralisierung aller Daten, sondern deren Zusammenführung in einer Data-Fabric-Architektur. Auf diese Weise entsteht eine einheitliche Ebene mit gemeinsam genutzten Metadaten, Zugriffsrichtlinien, föderiertem Data Engineering und Interoperabilität zur Laufzeit.
Die Implementierung eines offenen Tabellenformats und eines standardisierten API-Zugriffs vereinfacht den Datenzugriff und bietet gleichzeitig Flexibilität. Offene Lakehouse-Architekturen sind hier wichtig, da sie einheitliche Echtzeitansichten der Daten über verschiedene Engines hinweg bieten – insbesondere für agentische Workflows, die auf zuverlässigem Retrieval-Augmented Generation (RAG) und Schlussfolgerungen basieren.
Nachdem die Daten verbunden sind, besteht die Herausforderung nun darin, den Mitarbeitenden zu vermitteln, welche Daten vorhanden sind und wie sie verwendet werden. Das beginnt mit Entdeckung: automatische Identifizierung von Datenquellen in Cloud- und On-Premises-Systemen und Aktivierung der Metadaten – Tabellennamen, Felder, Formate und mehr. Tools wie Cloudera Octopai Data Lineage scannen ETL-Skripte, führen ein Reverse Engineering der Pipeline-Logik durch und erfassen, wie Daten systemübergreifend von der Quelle bis zum endgültigen Ziel bewegt und transformiert werden, wobei alle Abhängigkeiten auf diesem Weg erfasst werden.
Diese Informationen bilden die Grundlage für die Lineage, die zeigt, wie Datensätze zusammenhängen und wie sie sich im Laufe der Zeit verändern. Die Daten-Lineage ist wichtig, wenn Sie ein Ergebnis validieren, eine Empfehlung oder eine Agentenaktion erklären oder eine fehlerhafte Ausgabe zu ihrer Quelle zurückverfolgen müssen. Dadurch werden Transparenz und Vertrauen in die Systeme geschaffen, mit denen die Agenten interagieren.
Schließlich bringt die Katalogisierung diese Informationen in eine nutzbare Struktur. Ein zentraler Metadatenspeicher hilft sowohl Menschen als auch Agenten dabei, das zu finden, was sie benötigen, Beziehungen zwischen Datensätzen zu verstehen und Richtlinien aufzuzeigen, die Einfluss darauf haben, wie mit Daten umgegangen werden soll. Ein aussagekräftiger Katalog fungiert wie ein Blueprint – er liefert einen Wissensgraphen, der den Mitarbeitenden eine klare, navigierbare Karte des Datenbestands des Unternehmens bietet. Er erfasst die technischen, betrieblichen und geschäftlichen Metadaten einschließlich aller Geschäftsdefinitionen und der Geschäftslogik, die erforderlich sind, um die Daten zu verstehen und Maßnahmen zu ergreifen.
Durch Kontextualisierung können Agenten mehr als nur Informationen abrufen. Dadurch können sie Muster erkennen, bessere Fragen stellen und Entscheidungen mit einem tieferen Verständnis für das Umfeld treffen, in dem sie tätig sind.
Der letzte Schritt beim Aufbau agentischer Systeme umfasst die Befähigung der KI, Maßnahmen zu ergreifen, die nachvollziehbar, sicher und auf den richtigen Informationen basierend sind. Hier kommt es auf die architektonischen Entscheidungen an – Schutzmechanismen, Beobachtbarkeit und kontrollierter Zugriff bestimmen, ob Agenten sich in entscheidenden Momenten vorhersehbar verhalten.
Wir haben festgestellt, dass es hilfreich ist, gängige Context-Engineering-Techniken den zugrunde liegenden Datenherausforderungen zuzuordnen, die sie lösen sollen. Hier sind einige Beispiele, wie sie sich in der Praxis zeigen:
Herausforderung der Datenbereitschaft |
Context-Engineering-Technik |
Der Ansatz von Cloudera |
Sensible Daten, die in Prompts auftauchen |
Prompt-Engineering |
Schnelle Gateways zum Schwärzen sensibler Daten |
Ungeordnete, unstrukturierte Daten oder veraltete Vektorindizes |
RAG |
Kontrollierte und sichere Streaming-Datenpipelines in Echtzeit |
Fehlende Lineage, brüchige Trainingssätze |
Feinabstimmung |
Verbessern Sie die Erklärbarkeit von KI durch Lineage-Tracking |
Agenten, die ihre Grenzen überschreiten, undurchsichtige Entscheidungen |
Tool-/API-Zugriff |
Metadaten-Tagging, autonome Datenklassifizierung, detaillierte Zugriffsrechte und vollständige Audit-Trails für jeden Systemaufruf |
Agenten können nicht auf internes Unternehmenswissen zugreifen |
Modellkontextprotokolle (MCPs) |
Kontrollierter Zugriff auf Apache Iceberg-gestützte Kontexte mit REST-Katalogen |
Die Wahl der richtigen Technik hängt von der Rolle des Agenten, der Datensensitivität und der Betriebsumgebung ab. Nachfolgend sind gängige Anwendungsfälle für Unternehmen und die empfohlenen Kombinationen aufgeführt, die sich in der Praxis bewährt haben:
Anwendungsfall |
Empfohlene Methode(n) |
Interner Wissensassistent |
RAG + Vektordatenbank + Prompt-Engineering-Fallback |
Vertriebsunterstützungs-Bot mit CRM-Daten (Customer Relationship Management) |
Funktionsaufruf + Geschäftskontext-Injektion |
Produktspezifischer Supportmitarbeiter |
Feinabstimmung oder gemeinsamer Kontext von RAG + MCP |
Datenanalyse-Workflow mit mehreren Agenten zur Gewinnung von Erkenntnissen |
LangGraph + MCP + Tool-Zugriff + segmentierter Speicher |
Dokumentenverständnis (PDF, Excel) |
Multimodale Eingaben + Vorverarbeitungspipelines |
Dieser Ansatz für den Verbrauch stellt sicher, dass Agenten mit Präzision, Sicherheit und Ausrichtung auf Geschäftsziele arbeiten.
Bei Cloudera beschäftigen wir uns seit Jahren mit den Komplexitäten von Unternehmensdaten: Wir überbrücken Silos, setzen Governance durch, bauen sichere Pipelines für KI und Analysen auf und machen die Daten-Lineage in hybriden Umgebungen sichtbar. Wenn also agentische KI-Muster aufkamen, fingen wir nicht bei Null an. Wir wussten, wo der Kontext zu finden ist und wie er mit den richtigen Schutzmechanismen sicher erfasst werden kann.
Mit Cloudera Octopai Data Lineage können Teams Datenflüsse automatisch abbilden, Abhängigkeiten nachverfolgen und Metadaten in Cloud- und On-Premises-Umgebungen katalogisieren. Durch die Kombination von Data Catalogs, Beobachtbarkeit und Zugriffskontrolle können Agenten sicherer und intelligenter mit Systemen interagieren. Teams gewinnen Transparenz, Governance und Vertrauen – entscheidend für die Skalierung dieser Workflows im gesamten Unternehmen.
Damit diese Komponenten nutzbar sind, haben wir diese Funktionen in unser offebes Data Lakehouse und Cloudera AI Studios integriert und bieten Unternehmen damit die Grundlage für die Entwicklung, Bereitstellung und Verwaltung sicherer agentischer Systeme in der Produktion.
Erfahren Sie mehr darüber, wie Cloudera Sie bei der Bereitstellung Ihrer KI-Agenten mit dem richtigen Geschäftskontext, den sie benötigen, unterstützen kann.
This may have been caused by one of the following: