Apache Oozie

Der Blueprint für Enterprise Hadoop umfasst die ursprünglichen Datenspeicherungs- und Datenverarbeitungsebenen von Apache™ Hadoop sowie Komponenten für Dienste, die Unternehmen in einer modernen Datenarchitektur benötigen: Datenintegration und -verwaltung, Sicherheit und Betrieb. Apache Oozie bietet einige der operativen Dienste für einen Hadoop-Cluster, insbesondere für die Jobplanung innerhalb des Clusters.

Was genau macht Oozie

Apache Oozie ist eine Java-Web-Anwendung zur Planung von Apache Hadoop-Aufgaben. Oozie kombiniert mehrere Aufgaben hintereinander zu einer logischen Arbeitseinheit. Es ist in den Hadoop-Stack mit YARN als Architekturzentrum integriert und unterstützt Hadoop-Jobs für Apache MapReduce, Apache Pig, Apache Hive und Apache Sqoop. Oozie kann zudem systemspezifische Jobs planen, wie etwa Java-Programme oder Shell-Skripte.

Apache Oozie ist ein Tool für Hadoop-Vorgänge, mit dem Cluster-Administratoren komplexe Datenumwandlungen aus mehreren Komponenten-Tasks erstellen können. Auf diese Weise hat man eine bessere Kontrolle über Aufträge, was zudem das Wiederholen dieser Aufträge in festgelegten Intervallen erleichtert. Im Kern hilft Oozie Administratoren dabei, Hadoop voll auszuschöpfen.

Es gibt zwei grundlegende Arten von Oozie-Jobs:

  • Oozie Workflow Jobs sind DAGs (Directed Acyclical Graphs), die eine Abfolge von auszuführenden Aktionen angeben. Der Workflow-Job muss warten
  • Oozie Coordinator Jobs sind wiederkehrende Oozi-Workflow-Jobs, die durch Zeit und Datenverfügbarkeit ausgelöst werden.

Oozie Bundle liefert eine Möglichkeit, mehrere Koordinator- und Workflow-Jobs zu packen und den Lebenszyklus dieser Jobs zu verwalten.

So funktioniert Oozie

Ein Oozie Workflow ist eine Sammlung von Aktionen, die in einem DAG (Directed Acyclic Graph) angeordnet sind. Steuerknoten definieren die Job-Chronologie und legen Regeln für den Beginn und das Ende eines Workflows fest. Auf diese Weise steuert Oozie den Workflow-Ausführungspfad mit Entscheidungs-, Verzweigungs- und Synchronisationsknoten. Aktionsknoten lösen die Ausführung von Aufgaben aus.

Oozie löst Workflow-Aktionen aus, die jedoch von Hadoop MapReduce ausgeführt werden. Auf diese Weise kann Oozie andere Funktionalitäten im Hadoop-Stack nutzen, um Lasten auszugleichen und Fehler zu beheben.

Oozie erkennt den Abschluss von Aufgaben durch Rückruf und Abfrage. Wenn Oozie eine Aufgabe startet, stellt es der Aufgabe eine eindeutige Rückruf-HTTP-URL zur Verfügung und benachrichtigt damit diese URL, sobald diese abgeschlossen ist. Wenn die Aufgabe die Rückruf-URL nicht aufruft, kann Oozie die Aufgabe zur Fertigstellung abfragen.

Häufig müssen Oozie-Workflows in regelmäßigen Zeitabständen ausgeführt werden, jedoch in Abstimmung mit unvorhersehbaren Datenverfügbarkeiten oder Ereignissen. Unter diesen Umständen können Sie mit Oozie Coordinator Workflow-Ausführungs-Trigger in Form von Daten-, Zeit- oder Ereignisprädikaten modellieren. Der Workflow-Job wird gestartet, nachdem diese Prädikate erfüllt wurden.

Oozie Coordinator kann zudem mehrere Workflows verwalten, die vom Ergebnis nachfolgender Workflows abhängen. Die Ausgaben nachfolgender Workflows werden zur Eingabe für den nächsten Workflow. Diese Kette wird als „Datenanwendungs-Pipeline“ bezeichnet.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.