SQL Access en Apache Hive - dummies - Persoonlijke financiën 2024

Video: Enable SQL/JDBC Access to Apache Geode/GemFire Using Apache Calcite - Christian Tzolov 2024

Apache Hive is onbetwist de meest uitgebreide interface voor gegevensvragen in de Hadoop-community. Oorspronkelijk waren de ontwerpdoelen voor Hive niet bedoeld voor volledige SQL-compatibiliteit en hoge prestaties, maar moesten ze een eenvoudige, enigszins vertrouwde interface bieden voor ontwikkelaars die batch-query's tegen Hadoop moesten uitvoeren.

Deze vrij fragmentarische aanpak werkt niet meer, dus de vraag groeit naar echte SQL-ondersteuning en goede prestaties. Hortonworks reageerde op deze vraag door het Stinger-project op te zetten, waarbij het zijn ontwikkelaarsbronnen investeerde in het verbeteren van Hive om sneller te zijn, te schalen op een petabyte-niveau en om beter te voldoen aan SQL-standaarden. Dit werk moest in drie fasen worden opgeleverd.

In Fasen 1 en 2 zag u een aantal optimalisaties voor hoe query's werden verwerkt en ondersteuning voor traditionele SQL-gegevenstypen toegevoegd; de toevoeging van het ORCFile-formaat voor efficiëntere verwerking en opslag; en integratie met YARN voor betere prestaties.

In fase 3 vinden de echt belangrijke evoluties plaats, die Hive ontkoppelen van MapReduce. Concreet gaat het om de release van Apache Tez, een alternatief verwerkingsmodel voor Hadoop, ontworpen voor interactieve workloads.

Naast het Stinger-project is Hortonworks toonaangevend op een ambitieus initiatief om Hive in staat te stellen om bewerkingsgegevens op rijniveau te ondersteunen met volledige naleving van de ACID-eigenschappen voor databasesystemen: atomiciteit, consistentie, isolatieniveaus en duurzaamheid.