Video: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Omdat veel bestaande Hadoop-implementaties nog geen gebruik maken van Yet Another Resource Negotiator (YARN), moet je snel bekijken hoe Hadoop zijn gegevensverwerking vóór de dagen heeft beheerd van Hadoop 2. Concentreer je op de rol die JobTracker-master daemons en TaskTracker-slaafdaemons hebben gespeeld bij het verwerken van MapReduce.
Het hele punt van het gebruik van gedistribueerde systemen is om computerbronnen te kunnen inzetten in een netwerk van op zichzelf staande computers op een manier die fouttolerant, eenvoudig en goedkoop is.
In een gedistribueerd systeem zoals Hadoop, waar je een cluster van zelfstandige compute-knooppunten hebt die allemaal parallel werken, gaat een grote mate van complexiteit gepaard met het zorgen dat alle stukjes samenwerken. Als zodanig hebben deze systemen typisch verschillende lagen om verschillende taken af te handelen om parallelle gegevensverwerking te ondersteunen.
Dit concept, bekend als de scheiding van punten van zorg, zorgt ervoor dat als u bijvoorbeeld de toepassingsprogrammeur bent, u zich geen zorgen hoeft te maken over de specifieke details voor, laten we zeggen, de failover van kaart taken. In Hadoop bestaat het systeem uit deze vier verschillende lagen, zoals weergegeven:
-
Gedistribueerde opslag: Het Hadoop Distributed File System (HDFS) is de opslaglaag waar de gegevens, tussentijdse resultaten en eindresultaten worden opgeslagen.
-
Resourcemanagement: Naast de schijfruimte hebben alle slave-knooppunten in het Hadoop-cluster CPU-cycli, RAM en netwerkbandbreedte. Een systeem zoals Hadoop moet in staat zijn om deze bronnen te verdelen, zodat meerdere applicaties en gebruikers het cluster op voorspelbare en afstembare manieren kunnen delen. Deze taak wordt uitgevoerd door de JobTracker-daemon.
-
Processing framework: De MapReduce-processtroom definieert de uitvoering van alle applicaties in Hadoop 1. Dit begint met de kaartfase; gaat verder met aggregatie met shuffle, sorteren of samenvoegen; en eindigt met de reducerende fase. In Hadoop 1 wordt dit ook beheerd door de JobTracker-daemon, waarbij de lokale uitvoering wordt beheerd door TaskTracker-daemons die op de slave-knooppunten worden uitgevoerd.
-
Application Programming Interface (API): Voor Hadoop 1 ontwikkelde applicaties moesten worden gecodeerd met de MapReduce API. In Hadoop 1 bieden de Hive- en Pig-projecten programmeurs eenvoudiger interfaces voor het schrijven van Hadoop-applicaties, en onder de motorkap compenseert hun code tot MapReduce.
In de wereld van Hadoop 1 (de enige wereld die je tot voor kort had), draaide alle gegevensverwerking rond MapReduce.