Apache Crunch
Die Apache Crunch Java-Bibliothek bietet ein Framework zum Schreiben, Testen und Ausführen von MapReduce-Pipelines. Ziel ist es, Pipelines, die aus vielen benutzerdefinierten Funktionen bestehen, einfach zu schreiben, leicht zu testen und effizient auszuführen.
Die Apache Crunch™ -Bibliothek basiert auf Hadoop MapReduce und Apache Spark und ist eine einfache Java-API für Aufgaben wie das Zusammenführen und die Datenaggregation, deren Implementierung in MapReduce-Anwendungen mühsam ist. Die APIs sind besonders hilfreich bei der Verarbeitung von Daten, die nicht auf natürliche Weise in ein relationales Modell passen, z. B. Zeitreihen, serialisierte Objektformate wie Protokollpuffer oder Avro-Datensätze sowie HBase-Zeilen und -Spalten. Für Scala-Benutzer gibt es die Scrunch-API, die auf den Java-APIs aufbaut und eine REPL (Read-Eval-Print-Schleife) zum Erstellen von MapReduce-Pipelines enthält.