Video: Impala Hadoop Tutorial | Cloudera Impala Hands On | Hadoop Impala Architecture | COSO IT 2024
Cloudera is een toonaangevende Apache Hadoop-software- en -serviceprovider in de big data-markt. Net als Apache Drill probeert de Impala-technologie van Cloudera de reactietijd van interactieve query's voor Hadoop-gebruikers te verbeteren. Apache Hive heeft een vertrouwd en krachtig zoekmechanisme voor Hadoop-gebruikers opgeleverd, maar de responstijden voor zoekopdrachten zijn vaak onaanvaardbaar vanwege de afhankelijkheid van Hive op MapReduce. Cloudera's antwoord op dit probleem is Impala.
Cloudera heeft een MPP-queryengine ontwikkeld, geschreven in C ++, om de MapReduce-laag te vervangen door Apache Hive. In tegenstelling tot Dremel en Drill, besloot Cloudera dat een native C ++ MPP-engine - in plaats van een Java-engine - het antwoord was voor snelle, interactieve Hadoop-query's.
Merk op dat Impala HiveQL gebruikt als een programmeerinterface, en Impala's Query Exec-motoren zich op dezelfde locatie bevinden als HDFS-gegevensknooppunten, in overeenstemming met de Hadoop-benadering van het co-lokaliseren van gegevens met verwerkingstaken. Impala kan HBase ook als data store gebruiken. In die zin is Impala een uitbreiding op Apache Hadoop, een zeer performant alternatief voor het Hive-on-top-of-MapReduce-model.
Cloudera en Twitter leidden de ontwikkeling van het nieuwe Hadoop-bestandsformaat, dat kan worden gebruikt met Impala en is beschikbaar als open source op GitHub. Het bestandsformaat Parquet biedt een robuust kolommedium voor het opslaan van gegevens in Hadoop. Het ondersteunt zeer efficiënte compressie en codering en is effectief voor het opslaan van geneste gegevensstructuren.
U vindt de Impala-technologie van Cloudera, die ook werd geïnspireerd door de Dremel-uitvinding van Google.