ClouderaNOW: Erfahren Sie mehr über KI-Agenten, Cloud-Bursting und Data Fabrics für KI | 8. April

Jetzt registrieren

1. Juli 2025 | Business

Privacy-First Enterprise AI-Innovation mit Cloudera Synthetic Data Studio

8 Minute Lesezeit • von Andreas Tsiartas , Khauneesh Saigal , und Yi-Hsun Tsai

Die Herausforderung von Datenschutz, Datenqualität und Datenzugriff für KI-Anwendungen

Unternehmen stehen vor einem Dilemma: Sie müssen ihre Geschäftsprozesse mit KI automatisieren, um wettbewerbsfähig zu bleiben und Kosten zu senken, während sie gleichzeitig strenge Datenschutzbestimmungen wie die Datenschutz-Grundverordnung (DSGVO) oder den California Consumer Privacy Act (CCPA) einhalten müssen. Darüber hinaus sind sie mit den hohen Kosten cloudbasierter Large Language Models (LLMs) und einem Mangel an qualitativ hochwertigen, offenen und jederzeit verfügbaren Daten belastet. Gleichzeitig müssen sie den Zugriff auf unternehmenseigene Informationen und sensible Kundeninteraktionen – Tickets für den technischen Support, Finanzunterlagen oder Gesundheitsdaten – verwalten, die vertraulich behandelt werden müssen und nicht weitergegeben oder offengelegt werden dürfen.

Dies stellt die KI-Entwickler vor mehrere Herausforderungen. Erstens besteht bei der Verwendung von Rohdaten für das Modelltraining das Risiko rechtlicher Sanktionen aufgrund von Nichteinhaltung. Zweitens führt die gemeinsame Nutzung von Daten mit Cloud-basierten LLMs zu Sicherheitslücken im Datenschutz. Drittens führt der Mangel an zugänglichen, qualitativ hochwertigen Daten zu Genauigkeitslücken in KI-Modellen. Das Ergebnis? Stillstand bei Innovationen, verpasste Chancen und eine wachsende Kluft zwischen dem Potenzial von KI und ihrer praktischen Umsetzung in Unternehmen.

Bei Cloudera setzen wir uns für die Unterstützung von Unternehmen ein, damit diese das volle Potenzial der KI ausschöpfen können, ohne dabei Kompromisse bei Datenschutz oder Budgets eingehen zu müssen. Im Rahmen dieser Mission haben wir Cloudera AI Studios veröffentlicht, das fortschrittliche KI für alle zugänglich macht, sowohl für technische als auch für nicht-technische Anwender. Dazu werden modulare, codefreie Tools mit hoher Code-Erweiterbarkeit bereitgestellt, die Entwickler durch den Lebenszyklus der generativen KI (Gen AI) führen.

Cloudera Synthetic Data Studio ist Teil dieses Toolsets und unterstützt Unternehmen bei der Anpassung leistungsstarker KI-Modelle unter Einhaltung gesetzlicher Vorschriften und unter Wahrung der betrieblichen Effizienz. Mit Synthetic Data Studios können Benutzer hochwertige synthetische Daten generieren, um offene Sprachmodelle für bestimmte Anwendungsfälle zu optimieren, die Leistung von Retrieval-Augmented Generation (RAG) oder agentenbasierten Systemen zu bewerten, KI-gestützte Datenerweiterungen durchzuführen und vieles mehr – ohne vertrauliche Informationen preisgeben zu müssen.

Übersicht über Synthetic Data Studio

Synthetic Data Studio ist ein strategischer Wegbereiter für Unternehmen, die sich in der Komplexität moderner KI zurechtfinden müssen. Durch die Kombination eines datenschutzorientierten Designs mit fortschrittlichen KI-Workflows ermöglicht Synthetic Data Studio Teams, präzise Modelle mit synthetischen Daten zu trainieren, die aus Beispielen aus Praxis gewonnen wurden. Dieser Ansatz beseitigt Risiken der Datenexposition und stellt die Einhaltung gesetzlicher Vorschriften sicher.

Das Studio ermöglicht Unternehmen außerdem die Skalierung von KI-Anwendungen für verschiedene Anwendungsfälle, vom Kundensupport bis zur Betrugserkennung. So können Teams RAG-, Agenten- und andere Systeme anhand von Daten aus proprietären Dokumenten testen. Um die Qualität sicherzustellen, werden synthetische Datensätze mithilfe eines LLM-as-a-Judge bewertet, wobei nur die Ergebnisse mit der höchsten Qualität für nachgelagerte Workflows beibehalten werden.

Intuitive Arbeitsabläufe zur Gewährleistung der Modellgenauigkeit und -zuverlässigkeit

Der Workflow des Studios ist intuitiv und leistungsstark. Ausgehend von einer No-Code-/Low-Code-Schnittstelle können Teams LLMs mit der Generierung synthetischer Daten beauftragen, die Muster aus der Praxis widerspiegeln. Beispielsweise können Kundensupport-Teams synthetische Supporttickets erstellen, die echte technische Fragen oder Serviceanfragen widerspiegeln. Das System unterstützt mehrere Synthesemethoden, wie etwa die Freiformgenerierung, die überwachte Optimierung und die Modellausrichtung, und ermöglicht die Erdungsgenerierung mithilfe privater Dokumente, um die kontextuelle Relevanz aufrechtzuerhalten.

Sobald sie generiert sind, werden synthetische Datensätze einer strengen Bewertung unterzogen. Ein ausgewählter LLM fungiert als Richter und bewertet die Daten anhand benutzerdefinierter Kriterien, um sicherzustellen, dass nur Ergebnisse von höchster Qualität beibehalten werden. Dieser Schritt der Qualitätskontrolle ist entscheidend für die Aufrechterhaltung der Genauigkeit und Zuverlässigkeit des Modells. Darüber hinaus dürfen menschliche Bewerter eingreifen und die generierten Daten weiter filtern, um noch hochwertigere Ergebnisse zu erzielen.

Schließlich werden die Datensätze automatisch in Cloudera AI Workbench-Projekte für nachfolgende Workflows integriert. Für Unternehmen, die eine externe Integration benötigen, können Datensätze auch in Formaten wie JSON oder CSV exportiert werden, um sie mit Plattformen wie Hugging Face zu verwenden.

Offene, skalierbare Architektur zur Integration von Tools von Drittanbietern und Gewährleistung der Zuverlässigkeit

Die LLM-unabhängige Architektur von Synthetic Data Studio unterstützt die Flexibilität und nutzt sowohl AWS Bedrock als auch Cloudera AI Inference, wodurch es fortgeschrittene Technologien wie Wissensdestillation, Freiform-Datengenerierung, überwachte Optimierung, bestärkendes Lernen und Präferenzoptimierung (KTO, DPO, PPO, ORPO) unterstützt, um Schlussfolgerungsmodelle für agentenbasierte Systeme zu erstellen. Diese Anpassungsfähigkeit wird mit skalierbarer Leistung durch parallele Verarbeitung und Fallback-Mechanismen kombiniert, die Zuverlässigkeit auch bei großen Datensätzen sicherstellen.

Die nahtlose Integration mit CI/CD-Pipelines über die Cloudera AI Workbench Jobs API stellt sicher, dass die Workflows zur Generierung und Erweiterung synthetischer Daten mit den DevOps-Praktiken von Unternehmen übereinstimmen. Diese Integration verringert die Reibung und beschleunigt die Wertschöpfungszeit für KI-Projekte.

Und die Integration mit anderen Cloudera AI Studios, wie dem Fine-Tuning Studio, optimiert die Workflows weiter. Ob zur Verbesserung von Modellen, zum Testen von agentenbasierten Systemen oder zur Optimierung für bestimmte Anwendungsfälle – Synthetic Data Studio bietet die Tools, um die Entwicklung zu beschleunigen, ohne die Sicherheit zu beeinträchtigen.

Anwendungsfälle und Auswirkungen: 95 % Reduzierung der Bearbeitungszeit

Der wahre Wert von Synthetic Data Studio wird bei der Anwendung in praktischen Szenarien deutlich. Zum Beispiel hat das Kundensupport-Team von Cloudera das Studio genutzt, um qualitativ hochwertige Datensätze für die Wissensdestillation in ein kleineres LLM zu generieren, und die Ergebnisse waren transformativ. Laut internen Tests wurde die Verarbeitungszeit für die Analyse von Support-Tickets im Vergleich zu einem größeren LLM um 95 % reduziert. Das destillierte Modell erreichte eine Gewinnrate von 70 % gegenüber größeren LLMs (wie Goliath-120B), und der Bedarf an Rechenressourcen sank deutlich, was einen 11-fachen Durchsatz für Echtzeit-Analysen ermöglichte.

Die Vielseitigkeit des Studios geht über den Kundensupport hinaus. Im Finanzsektor können synthetische Transaktionsdaten verwendet werden, um Modelle für Kreditentscheidungen zu trainieren, ohne Kundendaten offenzulegen. In der Softwareentwicklung verbessern synthetische Kodierungsprobleme und -lösungen die Leistung von LLMs bei der Codegenerierung. Zur Einhaltung gesetzlicher Vorschriften können Teams Modelle anhand benutzerdefinierter Kriterien testen, um die Einhaltung von Standards sicherzustellen.

Die Zukunft der privaten KI mit Cloudera Synthetic Data Studio

Synthetic Data Studio ist eine Blaupause für Unternehmen, wie sie mit KI innovativ sein und gleichzeitig ihre Daten schützen können. Durch die Demokratisierung des Zugriffs auf Methoden zur Generierung synthetischer Daten, z. B. Wissensdestillation, ermöglicht Cloudera Unternehmen Folgendes:

Kosten senken: Verwenden Sie kleinere, destillierte Modelle, die auf spezifische Anwendungsfälle spezialisiert sind.
Mit Zuversicht im Wettbewerb bestehen: Nutzen Sie modernste KI unter Einhaltung gesetzlicher Vorschriften.
Ethisch handeln: Schaffen Sie Vertrauen, indem Sie sicherstellen, dass der Datenschutz ein Wettbewerbsvorteil bleibt.

In der Geschäftswelt, in der Vertrauen und Compliance von größter Bedeutung sind, bietet Synthetic Data Studio einen Weg in die Zukunft. Dabei geht es nicht nur darum, die Herausforderungen von heute zu lösen, sondern Unternehmen in die Lage zu versetzen, die KI-Revolution von morgen verantwortungsbewusst anzuführen.

Als nächste Schritte entdecken Sie Synthetic Data Studio hier.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Mehr von diesem Autor ›

Khauneesh Saigal

Staff Software Engineer –Gen AI/ML, Cloudera

Mehr von diesem Autor ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Mehr von diesem Autor ›

Verwandt

24. Juni 2026 | Technisch

Wie Datensouveränität die KI-Strategie in regulierten Branchen prägt

7 Minute Lesezeit • Dario Perez

Sie sind bereit?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.