Video: Hive Tutorial | Hive Architecture | Hive Tutorial For Beginners | Hive In Hadoop | Simplilearn 2024
Om een lang verhaal kort te maken, biedt Hive Hadoop een brug naar de RDBMS-wereld en biedt een SQL-dialect dat bekend staat als Hive Query Language (HiveQL) en dat kan worden gebruikt om SQL-achtige taken uit te voeren. Dat is het grote nieuws, maar er is meer bij Hive dan je op het eerste gezicht lijkt, of meer toepassingen van deze nieuwe technologie dan je kunt presenteren in een standaard elevator pitch.
Hive maakt bijvoorbeeld ook het concept bekend als enterprise datawarehouse (EDW) augmentation, een leidende use case voor Apache Hadoop, waar datawarehouses worden opgezet als RDBMS's die speciaal zijn gebouwd voor data-analyse en rapportage.
Sommige deskundigen zullen nu beweren dat Hadoop (met Hive, HBase, Sqoop en de verschillende vrienden) de EDW kan vervangen. Apache Hadoop is echter een geweldige toevoeging voor de onderneming en kan vergroten en bestaande EDW's aanvullen. Hive, HBase en Sqoop maken EDW-augmentatie mogelijk.
Nauw verbonden met RDBMS / EDW-technologie is technologie voor het extraheren, transformeren en laden (ETL). Om te begrijpen wat ETL doet, helpt het om te weten dat gegevens in veel gebruik niet onmiddellijk in de relationele database kunnen worden geladen - het moet eerst worden geëxtraheerd uit de oorspronkelijke bron, worden omgezet in een geschikt formaat en vervolgens worden geladen in de RDBMS of EDW.
Een bedrijf of organisatie kan bijvoorbeeld ongestructureerde tekstgegevens extraheren uit een internetforum, de gegevens transformeren in een gestructureerde indeling die zowel waardevol als nuttig is, en vervolgens de gestructureerde gegevens in de EDW laden.
Je kunt zien dat Hive op zichzelf een krachtige ETL-tool is, samen met de grote speler in dit rijk: Apache Pig. Nogmaals, gebruikers kunnen proberen Hive en Pig in te stellen als de nieuwe ETL-tools voor het datacenter. (Laat ze het proberen.)
Evenals het debat over EDW versus Apache Hadoop, zijn deze Apache Hadoop-technologieën geen directe vervanging s voor bestaande ETL-tools, maar zijn het krachtige nieuwe ETL-tools om te gebruiken gebruikt indien van toepassing.
En last but not least, Apache Hive biedt krachtige analytische hulpmiddelen, allemaal in het kader van HiveQL. Deze tools moeten er bekend uitzien en vertrouwd aan voelen voor IT-professionals die begrijpen hoe SQL moet worden gebruikt.