Apache Phoenix

Apache Phoenix ist eine quelloffene, massiv parallele, relationale Datenbank-Engine, die OLTP für Hadoop mit Apache HBase als Hintergrundspeicher unterstützt. Entwickler haben die Möglichkeit, mit der bekannten SQL-Oberfläche in Echtzeit auf große Datenmengen zuzugreifen.

  • Standard-SQL- und JDBC-APIs mit vollständigen ACID-Transaktionsfunktionen
  • Unterstützung für Schema-on-Read (mit späterer Bindung) mit vorhandenen Daten in HBase
  • Zugriff auf Daten, die in anderen Hadoop-Produkten, wie etwa Spark, Hive, Pig, Flume und MapReduce, gespeichert und produziert wurden

Was genau macht Phoenix

Apache HBase bietet zufälligen Echtzeitzugriff auf Daten in Hadoop. Es ist optimal auf das Hadoop-Ökosystem ausgerichtet. Apache Phoenix abstrahiert den zugrunde liegenden Datenspeicher, da Sie die Daten mit Standard-SQL über den JDBC-Treiber abfragen können. Apache Phoenix bietet Funktionen, wie etwa Sekundärindizes, mit denen Sie die Abfragen beschleunigen können, ohne sich auf bestimmte Row Key Designs verlassen zu müssen.

Darüber hinaus ist Apache Phoenix beim Ausführen von Aggregationsabfragen auf Knoten, auf denen Daten gespeichert sind, massiv parallel. Auf diese Weise erübrigt sich weitgehend die Notwendigkeit, Daten über das Netzwerk zu senden.

Feature Description
Familiar Query data with a SQL-based language
Fast Real-time queries
Reliable Built on top of proven data store HBase
Platform agnostic Hortonworks’ Phoenix provides ODBC connector drivers, allowing you to connect to your dataset using familiar BI tools.

So funktioniert Phoenix

Phoenix bietet schnellen Zugriff auf große Datenmengen. Der vollständige Tabellenscan von 100 Millionen Zeilen dauert in der Regel 20 Sekunden (schmale Tabelle in einem mittelgroßen Cluster). Diese Zeit beträgt nur wenige Millisekunden, wenn die Abfrage Filter für Schlüsselspalten enthält. Bei Filtern für andere Spalten oder für nicht führende Schlüsselspalten können Sie Sekundärindizes hinzufügen. Das führt zu einer Leistung, die der Filterung nach Schlüsselspalten entspricht, indem eine Kopie der Tabelle mit indizierten Spalten Teil des Schlüssels ist.

Warum ist Phoenix auch bei einem vollständigen Scan schnell:

  1. Phoenix zerlegt Ihre Abfrage über Regionsgrenzen und führt sie auf dem Client mithilfe einer konfigurierbaren Anzahl von Threads parallel aus
  2. Die Aggregation wird in einem Coprozessor auf der Serverseite durchgeführt, wobei die Datenmenge, die an den Client zurückgesendet wird, reduziert wird, anstatt alles zurückzusenden.

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.