Cloudera Data Hub: Cloudbasierter Analyseservice

Übersicht

Stellen Sie eine breite Palette von Analysen in der Public Cloud schnell und einfach bereit.

Cloudera Data Hub ist ein leistungsstarker Analysedienst für Cloudera in der Cloud, der hochwertige Analysen vom Edge zur KI in einem vertrauten Cluster-Modell in der Cloud vereinfacht und beschleunigt. Data Hub unterstützt die größte Bandbreite an analytischen Workloads – einschließlich Streaming-, ETL-, Data-Mart-, Datenbank- und KI-Workloads. So können Sie ganz einfach lokal verfügbare Workloads in die Cloud verschieben oder direkt in der Cloud erstellen.

Die umfassende Cloud-Lösung basiert auf Cloudera Runtime, einer Suite integrierter Open-Source-Technologien, und baut auf SDX auf. Sie bietet eine umfangreiche Auswahl an Cluster-Formen, Workload-Typen, vorgefertigten Vorlagen und Konfigurationsoptionen und bietet Benutzern, die mit traditionellen Architekturen vertraut sind, damit eine intuitive, anpassbare Erfahrung.

Data-Hub-Anwendungsfälle

Ihre Umstellung auf die Cloud erleichtern

Dank einer Plattform, die sowohl Public als auch Private Clouds bietet, können Sie lokale Cloudera-Workloads problemlos in die Public Cloud verlagern:

Verbesserte Leistung, zuverlässige Governance und Verfügbarkeit der Public Cloud
Die Flexibilität, Ihre Workloads in beiden Bereitstellungsmodellen zu optimieren
Die Vorteile eines vertrauten Formfaktors mit einem herkömmlichen Cluster-Modell erleichtern Ihren Wechsel in die Cloud
Ein nahtloser Migrationspfad zu den containerbasierten Erfahrungen von Cloudera

Komplexe Multi-Analyse-Workloads schnell bereitstellen

Beschleunigen Sie die Bereitstellung komplexer Workloads in der Public Cloud über den gesamten Datenlebenszyklus hinweg mit folgenden Aspekten:

Einer Cloud-basierten Architektur, mit der Sie eine Vielzahl von flexiblen, benutzerdefinierten Analyse-Workloads einsetzen können
Ein intuitives Erlebnis mit vertrauten knotenbasierten Clustern, unabhängig davon, ob Sie einen vorlagenbasierten Ansatz wählen oder Ihre eigenen Workloads erstellen
Ein hohes Maß an Anpassungsmöglichkeiten, die es Ihnen ermöglichen, Workloads gemäß Ihren spezifischen Geschäftsanforderungen bereitzustellen

Workloads auswählen

Data Mart in Echtzeit
Data Engineering für komplexe Pipelines
Streaming in der Hybrid Cloud
Operative Datenbank

Data Mart in Echtzeit

Analysen großer Mengen schnell einströmender Daten ermöglichen

Mit der Echtzeit-Data-Mart-Vorlage im Data Hub können Sie Millionen von Datensätzen pro Sekunde akquirieren – bei Bedarf direkt mit Aktualisierungen. Die Daten stehen sofort im optimalen Format für Abfragen zur Verfügung. Dieses Muster ist ideal für Zeitreihenanwendungen, Ereignisanalysen, CDC-Abgleiche und Echtzeit-Datenverarbeitungspipelines. Die Vorlage enthält die analytische Speicher-Engine Apache Kudu, Apache Impala für eine schnelle SQL-Ausführung, Cloudera Data Explorer (ehemals Hue) für die SQL-Entwicklung und -Analyse und Apache Spark Streaming für die Verarbeitung und Analyse von Datenströmen.

Data Engineering für komplexe Pipelines

Daten anreichern, transformieren und laden

Mit Data Hub können Sie Daten anreichern, transformieren und bereinigen, um durchgängige Datenpipelines mit hoher Flexibilität und Anpassungsfähigkeit zu erstellen, auszuführen und zu verwalten. Die Vorlage für das Data Engineering ermöglicht es Ihnen, eine breite Palette von Datenverarbeitungs-Workloads auszuführen, einschließlich der Hintergrund- und Echtzeitverarbeitung von Datenströmen mit Apache Spark und Hive.

Streaming in der Hybrid Cloud

Echtzeitanalysen erfassen, verarbeiten und erstellen

Data Flow für Data Hub ist eine umfassende Edge-to-Cloud-Streaming-Datenplattform, mit der Sie manche Herausforderung von Streaming-Daten in hybriden Umgebungen mit Apache NiFi und Kafka bewältigen können. Sie ermöglicht es Benutzern, das lokale Streaming-Erlebnis von Cloudera Data Flow auf die Cloud zu erweitern, ohne dass dafür umfangreiche Ressourcen für Entwicklung, Konfiguration und Wartung benötigt werden.

Mehr über DataFlow-Cloud-Services erfahren

Operative Datenbank

Erstellen Sie hochgradig zuverlässige Anwendungen der Enterprise-Klasse.

Mit Data Hub können Sie hochleistungsfähige NoSQL-Datenbanken mit Unterstützung für ANSI-SQL betreiben. Dies bietet beispiellose Skalierbarkeit und Leistung für geschäftskritische operative Anwendungen mit Apache HBase. Die operative Datenbank bietet eine Schemaunterstützung, die weiterentwickelt werden kann. Sie ermöglicht es Entwicklern, die Leistungsstärke von Daten zu nutzen und gleichzeitig im Anwendungsdesign flexibel zu bleiben. Außerdem bietet sie eine automatische Skalierung auf Basis der Workload-Auslastung des Clusters, um Auslastung und Kosten der Infrastruktur zu optimieren.

Wichtigste Merkmale

Data Hub ist für alle Benutzer geeignet, die Flexibilität, Skalierbarkeit und Benutzerfreundlichkeit wünschen. Sie können damit Mitarbeiterrollen neu anordnen, die GPU-Unterstützung konfigurieren, die Einstellungen für die Ressourcenverwaltung anpassen und Cluster optimieren, um komplexe Anwendungsfälle für Multifunktionsanalysen nach Maß zu implementieren.

Data-Hub-Cluster können mit vorgefertigten oder benutzerdefinierten Konfigurationsoptionen für die Infrastruktur schnell bereitgestellt und außer Betrieb genommen werden. Vorkonfigurierte Cluster-Definitionen mit Cloud-Anbieter-spezifischen Einstellungen und Cluster-Vorlagen mit Cloudera-Runtime-Servicekonfigurationen ermöglichen Ihnen eine schnelle Bereitstellung von Workload-Clustern für präskriptive Anwendungsfälle. Sie können auch Ihre eigenen Cluster-Definitionen und Vorlagen zur späteren Wiederverwendung speichern.

Data Hub ermöglicht es Ihnen, Ihre älteren Workloads in einem vertrauten Formfaktor einfach in ein Cloud-Modell zu verschieben. Die Cloud-basierte Architektur entkoppelt Daten aus der Recheninfrastruktur und die Datenbereitstellungsschicht wird von den Rohdaten abstrahiert. Durch diese entkoppelte Architektur werden Flexibilität, Agilität, Datenschutz und Skalierbarkeit erheblich verbessert.

Mehrere Cluster können mühelos für gemeinsam genutzte Daten bereitgestellt werden, sodass Kunden neue Anwendungen starten können, die sich mit angemessener Sicherheit und Governance vollständig isolieren lassen, ohne vorhandene Produktionsanwendungen zu unterbrechen.

Data Hub wird durch Cloudera SDX gestützt, was Ihnen die Sicherung und Regulierung von Plattform- und Metadaten ermöglicht sowie die Steuerung von Funktionen mit dedizierten, integrierten Schnittstellen zur Verwaltung. Richtlinien für Datensicherheit, Governance und Kontrolle werden einmal festgelegt und überall konsequent durchgesetzt, um Betriebskosten und Geschäftsrisiken zu minimieren und gleichzeitig eine vollständige Auswahl und Flexibilität der Infrastruktur zu ermöglichen.

Data Hub wurde mit Cloudera Runtime aufgebaut, der zentralen Open-Source-Software-Distribution in Cloudera, die etwa 50 Open-Source-Projekte umfasst. Mit Runtime können Sie die richtigen Open-Source-Tools nutzen, um Ihre Workloads und Anwendungen zu erstellen.