Video: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
In een Hadoop-universe zijn slaveknooppunten waar Hadoop-gegevens worden opgeslagen en waar gegevensverwerking plaatsvindt. Met de volgende services kunnen slave-knooppunten gegevens opslaan en verwerken:
-
NodeManager: Coördineert de bronnen voor een afzonderlijke slaafknoop en rapporteert terug naar de Resource Manager.
-
ApplicationMaster: Volgt de voortgang van alle taken die worden uitgevoerd op het Hadoop-cluster voor een specifieke toepassing. Voor elke clienttoepassing implementeert de Resource Manager een exemplaar van de ApplicationMaster-service in een container op een slaafknooppunt. (Houd er rekening mee dat elk knooppunt met de NodeManager-service zichtbaar is voor Resource Manager.)
-
Container: Een verzameling van alle bronnen die nodig zijn om afzonderlijke taken voor een toepassing uit te voeren. Wanneer een toepassing op het cluster wordt uitgevoerd, plant Resource Manager de taken voor de toepassing om als containerdiensten op de slaafknooppunten van het cluster te worden uitgevoerd.
-
TaskTracker: beheert de afzonderlijke kaart en vermindert taken die worden uitgevoerd op een slave-knooppunt voor Hadoop 1-clusters. In Hadoop 2 is deze service verouderd en vervangen door YARN-services.
-
DataNode: Een HDFS-service waarmee de NameNode blokken op het slave-knooppunt opslaat.
-
RegionServer: Slaat gegevens op voor het HBase-systeem. In Hadoop 2 gebruikt HBase Hoya, waardoor regioServer-exemplaren in containers kunnen worden uitgevoerd.
Hier voert elk slaafknooppunt altijd een DataNode-instantie uit (waardoor HDFS gegevensblokken op het slaafknooppunt kan opslaan en ophalen) en een NodeManager-instantie (die de Resource Manager in staat stelt applicatietaken toe te wijzen aan het slaafknooppunt voor verwerking). De containerprocessen zijn individuele taken voor toepassingen die op het cluster worden uitgevoerd.
Elke actieve toepassing heeft een speciale ApplicationMaster-taak, die ook in een container wordt uitgevoerd en de uitvoering van alle taken bijhoudt die in het cluster worden uitgevoerd totdat de toepassing is voltooid.
Met HBase op Hadoop 2 wordt het containermodel nog steeds gevolgd, zoals u kunt zien:
HBase op Hadoop 2 wordt geïnitieerd door de Hoya Application Master, die containers voor de HMaster-services aanvraagt. (U hebt meerdere HMaster-services nodig voor redundantie.) De Hoya Application Master vraagt ook bronnen aan voor RegionServers, die eveneens in speciale containers worden uitgevoerd.
De volgende afbeelding toont de services die zijn geïmplementeerd op Hadoop 1-slaafknooppunten.
Voor Hadoop 1 voert elk slaafknooppunt altijd een DataNode-instantie uit (waardoor HDFS gegevensblokken op het slaafknooppunt kan opslaan en ophalen) en een TaskTracker-instantie (die de JobTracker in staat stelt om toewijzingen toe te wijzen en taken naar het slaafknooppunt te verminderen om te verwerken).
Slave-knooppunten hebben een vast aantal kaartsleuven en verminderen sleuven voor respectievelijk het uitvoeren van kaarten en het verminderen van taken. Als uw cluster HBase gebruikt, moet een aantal van uw slave-nodes een RegionServer-service uitvoeren. Hoe meer gegevens u in HBase opslaat, des te meer instanties u van RegioServer nodig hebt.
De hardware-criteria voor slave-knooppunten wijken nogal af van die voor masterknooppunten; in feite komen de criteria niet overeen met die in traditionele hardware-referentiearchitecturen voor dataservers. Een groot deel van de drukte rondom Hadoop is te wijten aan het gebruik van commodity-hardware in de ontwerpcriteria van Hadoop-clusters, maar houd er rekening mee dat commodity -hardware niet verwijst naar hardware van consumentenkwaliteit.
Hadoop-slaafknopen vereisen nog steeds hardware van professionele kwaliteit, maar aan het lagere eind van het kostenspectrum, met name voor opslag.