Im Zeitalter der datengestützten KI benötigen Unternehmen hochwertige Datensätze zur Analyse oder zum Training von KI-Modellen, doch Datenschutzbestimmungen und ethische Bedenken schränken die Verwendung oder Weitergabe von Daten aus der Praxis ein. Wie können Unternehmen innovativ sein, ohne sensible Daten zu gefährden?
Bei Cloudera haben wir eine innovative Lösung entwickelt, die diese Lücke schließt. Das Synthetic Data Studio von Cloudera – Teil des Tool-Sets Cloudera AI Studio – ist ein Tool, das vollständig synthetische Datensätze erstellt, die die tatsächlichen Datenmuster eines Unternehmens nachahmen, sodass Unternehmen ohne Risiko für vertrauliche Informationen innovativ sein können.
Wichtigste SchlussfolgerungenDer Ansatz von Cloudera zur Generierung synthetischer Daten bietet eine Blaupause für Unternehmen, die sensible strukturierte Daten nutzen oder weitergeben möchten. Der Ansatz veranschaulicht:
|
Nehmen wir ein Finanzdienstleistungsunternehmen als Beispiel, das Kreditausfälle vorhersagen möchte. Die in diesem Bereich verfügbaren Daten aus der Praxis sind eine Fundgrube sensibler Daten: Einkommensniveaus, Beschäftigungsverhältnisse und Bonitätsbewertungen. Die Weitergabe solcher Daten an Dritte oder KI-Modelle ist mit zahlreichen regulatorischen und ethischen Hürden verbunden.
Herkömmliche Methoden zur Generierung synthetischer Daten stoßen oft an ihre Grenzen, da sie die differenzierten logischen Zusammenhänge zwischen Variablen – wie beispielsweise den Einfluss bestehender Schulden auf das Rückzahlungsverhalten – oder die logische Konsistenz zwischen Datenpunkten über Zeilen und Spalten hinweg nicht erfassen können. Unternehmen benötigen eine Lösung zur Generierung synthetischer Daten, die skalierbar ist, die statistische Integrität der Originaldaten bewahrt und die Einhaltung der Datenschutzstandards gewährleistet.
Die Lösung von Cloudera folgt einem vierstufigen Workflow, der Clustering-Techniken, Cloudera Synthetic Data Studio und rigorose Validierung integriert.
Der Prozess beginnt mit Partitionierung und Clustering der Daten zur Erstellung statistischer Profile. Indem wir Kreditnehmer anhand ihres Risikos in Gruppen einteilen – beispielsweise in Antragsteller mit hohem Risiko versus Antragsteller mit niedrigem Risiko – und numerische Variablen wie Kredithöhen und Zinssätze weiter gruppieren, destillieren wir den Datensatz zu „Seed-Anweisungen“.
Die Seed-Anweisungen kodieren die statistischen Eigenschaften jeder Gruppe, z. B. Mittelwerte, Standardabweichungen und Korrelationen, und betten gleichzeitig Informationen über den Kreditnehmer ein, z. B. Bonitätsbewertungen oder Kreditstatus. Dieser Schritt stellt sicher, dass die synthetischen Daten die Struktur der Originaldaten übernehmen, ohne dass sensible Details offengelegt werden.
Nachdem diese Seed-Anweisungen festgelegt wurden, nutzt die nächste Phase die LLM-gestützte Generierung. Mithilfe fortschrittlicher Modelle wie Llama 3.3-70B-Instruct synthetisieren wir neue Datensätze, die sich an den statistischen Blaupausen in den Seed-Anweisungen orientieren. Cloudera Synthetic Data Studio agiert als kreative Kraft und generiert Daten, die die in den Seed-Anweisungen festgelegten Beziehungen und Muster beibehalten.
Hier entfaltet sich die Magie: Das Modell generiert nicht einfach nur Zufallszahlen, sondern erstellt Daten, die die Komplexität realer Szenarien widerspiegeln, beispielsweise wie das Einkommen eines Kreditnehmers logischerweise dessen Rückzahlungsverhalten beeinflussen könnte.
Allerdings entsprechen nicht alle generierten Daten der erforderlichen Qualität. Um die Genauigkeit zu gewährleisten, setzen wir einen innovativen LLM-as-a-Judge-Workflow ein.
In diesem Schritt werden synthetische Ergebnisse anhand einer Reihe von Kriterien bewertet, darunter Formatierungskonsistenz, logische Kohärenz (z. B. Gewährleistung der Übereinstimmung von Hypothekenkonten mit dem Status des Wohneigentums) und Realismus (z. B. Generierung plausibler Zinssätze). Nur Daten mit einer hohen Punktzahl – die einen Schwellenwert von 9 von 10 Punkten erreichen – werden gespeichert. Dieser Filterprozess dient als Qualitätsprüfung und gewährleistet, dass der endgültige Datensatz sowohl realistisch als auch statistisch robust ist.
Die letzte Phase des Workflows umfasst die statistische und visuelle Validierung. Durch den Vergleich synthetischer Daten mit dem Originaldatensatz unter Verwendung von Metriken wie KL-Divergenz für kategorische Variablen und Mittelwert-/Standardabweichungsunterschiede für kontinuierliche Merkmale bestätigen wir, dass die synthetischen Daten die realen Verteilungen widerspiegeln.
Der Ansatz von Cloudera generiert Daten, die frei von personenbezogenen Daten (PII) und sensiblen Mustern sind, aber dennoch die statistische Genauigkeit beibehalten, die für das Training präziser Modelle erforderlich ist. So können Unternehmen synthetische Daten mit Systemen von Drittanbietern austauschen oder mit externen Partnern zusammenarbeiten, ohne Angst vor Datenschutzverletzungen oder behördlichen Strafen haben zu müssen.
Wie in Tabelle 1 dargestellt, haben wir festgestellt, dass bei Verwendung eines Llama 3.3 70B-Instruct-Modells zur Generierung strukturierter Kreditdaten (insgesamt 27 Spalten) 100 % der generierten Daten mit der erwarteten Ausgabe übereinstimmen, 97,2 % keine logischen spaltenübergreifenden Fehler enthalten, wenn sie mit einem LLM bewertet werden, die statistischen Mittelwerte um 12 % von der ursprünglichen Verteilung abweichen und die spaltenübergreifenden Korrelationen um 0,24 abweichen.
Ergebnisse der strukturierten Datengenerierung mit Llama 3.3-70B-Instruct |
|||
Datenintegrität |
100% Formatgenauigkeit |
Die synthetischen Daten stimmen perfekt mit der Originalstruktur überein. |
|
Statistische Genauigkeit |
12 % mittlere Abweichung |
Die synthetischen Daten bilden die wichtigsten statistischen Eigenschaften der Originaldaten präzise nach. |
|
Spaltenübergreifende logische Konsistenz |
2,8 % logische Fehler |
Die generierten Daten spiegeln reale logische Zusammenhänge wider. |
|
Erhaltung der Korrelation zwischen Spalten |
0,24 % Korrelationsdifferenz |
Die wichtigsten Verbindungen zwischen den Merkmalen werden authentisch bewahrt. |
|
Tabelle 1: Ergebnisse der strukturierten Datengenerierung mit Llama 3.3-70B-Instruct.
Da KI-Modelle immer komplexer und die Datenschutzbestimmungen strenger werden, wird die Nachfrage nach hochwertigen, datenschutzkonformen Daten weiter zunehmen. In den kommenden Jahren erwarten wir, dass strukturierte Methoden zur Datengenerierung Branchen wie das Gesundheitswesen und das Finanzwesen, in denen Datenschutz unverzichtbar ist, neu definieren werden.
Der strukturierte Ansatz von Cloudera für synthetische Daten zeigt, dass Unternehmen diese Anforderungen erfüllen können, ohne Kompromisse beim Datenschutz oder bei der Leistung eingehen zu müssen. Durch die Kombination von Clustering, Cloudera Synthetic Data Studio und rigorosen Bewertungen können Unternehmen das volle Potenzial strukturierter Daten ausschöpfen.
Wenn Sie mehr erfahren möchten, nehmen Sie an unserer Produkttour durch Cloudera AI Studios teil oder wenden Sie sich an unser Team unter ai_feedback@cloudera.com.
This may have been caused by one of the following: