Video: How to Install Hadoop on Windows 2024
Hadoop is meer dan MapReduce en HDFS (Hadoop Distributed File System): het is ook een familie van verwante projecten (een ecosysteem, echt) voor gedistribueerd computergebruik en grootschalige gegevensverwerking. De meeste (maar niet alle) van deze projecten worden gehost door de Apache Software Foundation. De tabel somt een aantal van deze projecten op.
Projectnaam | Beschrijving |
---|---|
Ambari | Een geïntegreerde set Hadoop-beheertools voor
installeren, bewaken en onderhouden van een Hadoop-cluster. Ook opgenomen zijn gereedschappen om slaafknopen toe te voegen of te verwijderen. |
Avro | Een raamwerk voor efficiënte serialisatie (een soort
transformatie) van gegevens in een compact binair formaat |
Flume | Een datastroomservice voor het verplaatsen van grote volumes log > data in Hadoop
HBase |
Een gedistribueerde kolomvormige database die HDFS gebruikt voor zijn | onderliggende opslag. Met HBase kunt u gegevens opslaan in extreem
grote tabellen met variabele kolomstructuren. HCatalog |
Een service voor het leveren van een relationele weergave van gegevens die zijn opgeslagen in | Hadoop, inclusief een standaardaanpak voor tabelgegevens
Hive |
Een gedistribueerd datawarehouse voor gegevens die zijn opgeslagen in HDFS; | biedt ook een querytaal die is gebaseerd op SQL
(HiveQL) Hue |
Een Hadoop-beheerinterface met handige GUI-hulpmiddelen voor | browsebestanden, die Hive- en Pig-query's uitvoeren en Oozie ontwikkelen < workflows
Mahout Een bibliotheek met computerleren statistische algoritmen die |
geïmplementeerd zijn in MapReduce en native kunnen worden uitgevoerd op Hadoop | Oozie
Een workflowbeheertool die de planning en kan afhandelen > Hadoop-toepassingen met elkaar koppelen |
Pig | Een platform voor de analyse van zeer grote gegevenssets met
op HDFS en met een infrastructuurlaag bestaande uit een compilator |
die reeksen MapReduce-programma's en een language layer | bestaande uit de querytaal met de naam Pig Latin
Sqoop Een tool voor het efficiënt verplaatsen van grote hoeveelheden gegevens tussen relationele databases en HDFS |
ZooKeeper | Een eenvoudige interface naar de gecentraliseerde coördinatie van services
(zoals naamgeving, configuratie en synchronisatie) voor ons ed door |
gedistribueerde applicaties |
Het Hadoop-ecosysteem en zijn commerciële distributies blijven evolueren, waarbij nieuwe of verbeterde technologieën en gereedschappen de hele tijd opduiken. De afbeelding toont de verschillende Hadoop-ecosysteemprojecten en hoe ze zich tot elkaar verhouden: |