Apache Crunch

Die Apache Crunch Java-Bibliothek bietet ein Framework zum Schreiben, Testen und Ausführen von MapReduce-Pipelines. Ziel ist es, Pipelines, die aus vielen benutzerdefinierten Funktionen bestehen, einfach zu schreiben, leicht zu testen und effizient auszuführen.

Die Apache Crunch™ -Bibliothek basiert auf Hadoop MapReduce und Apache Spark und ist eine einfache Java-API für Aufgaben wie das Zusammenführen und die Datenaggregation, deren Implementierung in MapReduce-Anwendungen mühsam ist. Die APIs sind besonders hilfreich bei der Verarbeitung von Daten, die nicht auf natürliche Weise in ein relationales Modell passen, z. B. Zeitreihen, serialisierte Objektformate wie Protokollpuffer oder Avro-Datensätze sowie HBase-Zeilen und -Spalten. Für Scala-Benutzer gibt es die Scrunch-API, die auf den Java-APIs aufbaut und eine REPL (Read-Eval-Print-Schleife) zum Erstellen von MapReduce-Pipelines enthält.

Mehr erfahren

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.