Cloudera im 4. Quartal 2025 als führender Anbieter für Data-Fabric-Plattformen ausgezeichnet von The Forrester Wave™

Lesen sie den Bericht
  • Cloudera Cloudera
  • | Business

    Stärkung der Unternehmens-KI durch strukturierte synthetische Daten: Wahrung der Privatsphäre und der statistischen Eigenschaften der Quelle

    Andreas Tsiartas headshot
    Robert Hryniewicz headshot

    Im Zeitalter der datengestützten KI benötigen Unternehmen hochwertige Datensätze zur Analyse oder zum Training von KI-Modellen, doch Datenschutzbestimmungen und ethische Bedenken schränken die Verwendung oder Weitergabe von Daten aus der Praxis ein. Wie können Unternehmen innovativ sein, ohne sensible Daten zu gefährden? 

    Bei Cloudera haben wir eine innovative Lösung entwickelt, die diese Lücke schließt. Das Synthetic Data Studio von Cloudera – Teil des Tool-Sets Cloudera AI Studio – ist ein Tool, das vollständig synthetische Datensätze erstellt, die die tatsächlichen Datenmuster eines Unternehmens nachahmen, sodass Unternehmen ohne Risiko für vertrauliche Informationen innovativ sein können.

    Wichtigste Schlussfolgerungen

    Der Ansatz von Cloudera zur Generierung synthetischer Daten bietet eine Blaupause für Unternehmen, die sensible strukturierte Daten nutzen oder weitergeben möchten. Der Ansatz veranschaulicht:

    • Datenschutz als Funktion: Synthetische Daten werden zu einem strategischen Vorteil, der Innovationen in eingeschränkten Bereichen ermöglicht.

    • Statistische Genauigkeit ist wichtig: Clustering und Seed-Anweisungen stellen sicher, dass synthetische Daten die nuancierten Beziehungen beibehalten, die Modelle wirksam machen

    • Skalierbarkeit für Unternehmens-KI: Automatisierte Workflows reduzieren die Kosten und die Zeit für die Generierung synthetischer Daten.

    Die geschäftliche Herausforderung: KI-Modelle optimal nutzen und gleichzeitig die Compliance gewährleisten

    Nehmen wir ein Finanzdienstleistungsunternehmen als Beispiel, das Kreditausfälle vorhersagen möchte. Die in diesem Bereich verfügbaren Daten aus der Praxis sind eine Fundgrube sensibler Daten: Einkommensniveaus, Beschäftigungsverhältnisse und Bonitätsbewertungen. Die Weitergabe solcher Daten an Dritte oder KI-Modelle ist mit zahlreichen regulatorischen und ethischen Hürden verbunden. 

    Herkömmliche Methoden zur Generierung synthetischer Daten stoßen oft an ihre Grenzen, da sie die differenzierten logischen Zusammenhänge zwischen Variablen – wie beispielsweise den Einfluss bestehender Schulden auf das Rückzahlungsverhalten – oder die logische Konsistenz zwischen Datenpunkten über Zeilen und Spalten hinweg nicht erfassen können. Unternehmen benötigen eine Lösung zur Generierung synthetischer Daten, die skalierbar ist, die statistische Integrität der Originaldaten bewahrt und die Einhaltung der Datenschutzstandards gewährleistet.  

    Die Lösung von Cloudera: Strukturierte synthetische Datengenerierung 

    Die Lösung von Cloudera folgt einem vierstufigen Workflow, der Clustering-Techniken, Cloudera Synthetic Data Studio und rigorose Validierung integriert. 

    Schritt 1: Profildaten

    Der Prozess beginnt mit Partitionierung und Clustering der Daten zur Erstellung statistischer Profile. Indem wir Kreditnehmer anhand ihres Risikos in Gruppen einteilen – beispielsweise in Antragsteller mit hohem Risiko versus Antragsteller mit niedrigem Risiko – und numerische Variablen wie Kredithöhen und Zinssätze weiter gruppieren, destillieren wir den Datensatz zu „Seed-Anweisungen“. 

    Die Seed-Anweisungen kodieren die statistischen Eigenschaften jeder Gruppe, z. B. Mittelwerte, Standardabweichungen und Korrelationen, und betten gleichzeitig Informationen über den Kreditnehmer ein, z. B. Bonitätsbewertungen oder Kreditstatus. Dieser Schritt stellt sicher, dass die synthetischen Daten die Struktur der Originaldaten übernehmen, ohne dass sensible Details offengelegt werden.  

    Schritt 2: Daten mit Cloudera Synthetic Data Studio generieren

    Nachdem diese Seed-Anweisungen festgelegt wurden, nutzt die nächste Phase die LLM-gestützte Generierung. Mithilfe fortschrittlicher Modelle wie Llama 3.3-70B-Instruct synthetisieren wir neue Datensätze, die sich an den statistischen Blaupausen in den Seed-Anweisungen orientieren. Cloudera Synthetic Data Studio agiert als kreative Kraft und generiert Daten, die die in den Seed-Anweisungen festgelegten Beziehungen und Muster beibehalten.

    Hier entfaltet sich die Magie: Das Modell generiert nicht einfach nur Zufallszahlen, sondern erstellt Daten, die die Komplexität realer Szenarien widerspiegeln, beispielsweise wie das Einkommen eines Kreditnehmers logischerweise dessen Rückzahlungsverhalten beeinflussen könnte.  

    Schritt 3: Daten filtern

    Allerdings entsprechen nicht alle generierten Daten der erforderlichen Qualität. Um die Genauigkeit zu gewährleisten, setzen wir einen innovativen LLM-as-a-Judge-Workflow ein. 

    In diesem Schritt werden synthetische Ergebnisse anhand einer Reihe von Kriterien bewertet, darunter Formatierungskonsistenz, logische Kohärenz (z. B. Gewährleistung der Übereinstimmung von Hypothekenkonten mit dem Status des Wohneigentums) und Realismus (z. B. Generierung plausibler Zinssätze). Nur Daten mit einer hohen Punktzahl – die einen Schwellenwert von 9 von 10 Punkten erreichen – werden gespeichert. Dieser Filterprozess dient als Qualitätsprüfung und gewährleistet, dass der endgültige Datensatz sowohl realistisch als auch statistisch robust ist.  

    Schritt 4: Daten validieren

    Die letzte Phase des Workflows umfasst die statistische und visuelle Validierung. Durch den Vergleich synthetischer Daten mit dem Originaldatensatz unter Verwendung von Metriken wie KL-Divergenz für kategorische Variablen und Mittelwert-/Standardabweichungsunterschiede für kontinuierliche Merkmale bestätigen wir, dass die synthetischen Daten die realen Verteilungen widerspiegeln. 

    Die Auswirkung: Datenschutz ohne Kompromisse

    Der Ansatz von Cloudera generiert Daten, die frei von personenbezogenen Daten (PII) und sensiblen Mustern sind, aber dennoch die statistische Genauigkeit beibehalten, die für das Training präziser Modelle erforderlich ist. So können Unternehmen synthetische Daten mit Systemen von Drittanbietern austauschen oder mit externen Partnern zusammenarbeiten, ohne Angst vor Datenschutzverletzungen oder behördlichen Strafen haben zu müssen.  

    Wie in Tabelle 1 dargestellt, haben wir festgestellt, dass bei Verwendung eines Llama 3.3 70B-Instruct-Modells zur Generierung strukturierter Kreditdaten (insgesamt 27 Spalten) 100 % der generierten Daten mit der erwarteten Ausgabe übereinstimmen, 97,2 % keine logischen spaltenübergreifenden Fehler enthalten, wenn sie mit einem LLM bewertet werden, die statistischen Mittelwerte um 12 % von der ursprünglichen Verteilung abweichen und die spaltenübergreifenden Korrelationen um 0,24 abweichen. 

    Ergebnisse der strukturierten Datengenerierung mit Llama 3.3-70B-Instruct

    Datenintegrität

    100% Formatgenauigkeit

    Die synthetischen Daten stimmen perfekt mit der Originalstruktur überein.

    Statistische Genauigkeit

    12 % mittlere Abweichung

    Die synthetischen Daten bilden die wichtigsten statistischen Eigenschaften der Originaldaten präzise nach.

    Spaltenübergreifende logische Konsistenz

    2,8 % logische Fehler

    Die generierten Daten spiegeln reale logische Zusammenhänge wider.

    Erhaltung der Korrelation zwischen Spalten

    0,24 % Korrelationsdifferenz

    Die wichtigsten Verbindungen zwischen den Merkmalen werden authentisch bewahrt.

    Tabelle 1: Ergebnisse der strukturierten Datengenerierung mit Llama 3.3-70B-Instruct.

    Fazit

    Da KI-Modelle immer komplexer und die Datenschutzbestimmungen strenger werden, wird die Nachfrage nach hochwertigen, datenschutzkonformen Daten weiter zunehmen. In den kommenden Jahren erwarten wir, dass strukturierte Methoden zur Datengenerierung Branchen wie das Gesundheitswesen und das Finanzwesen, in denen Datenschutz unverzichtbar ist, neu definieren werden. 

    Der strukturierte Ansatz von Cloudera für synthetische Daten zeigt, dass Unternehmen diese Anforderungen erfüllen können, ohne Kompromisse beim Datenschutz oder bei der Leistung eingehen zu müssen. Durch die Kombination von Clustering, Cloudera Synthetic Data Studio und rigorosen Bewertungen können Unternehmen das volle Potenzial strukturierter Daten ausschöpfen. 

    Wenn Sie mehr erfahren möchten, nehmen Sie an unserer Produkttour durch Cloudera AI Studios teil oder wenden Sie sich an unser Team unter ai_feedback@cloudera.com

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.