Inhoudsopgave:
Video: Edge Node in Hadoop Cluster | Gateway Node in Hadoop Cluster | HadoopAdmin | Cloudera Hadoop Admin 2024
Edge-knooppunten de interface tussen het Hadoop-cluster en het externe netwerk. Om deze reden worden ze soms gateway -knooppunten genoemd. Meestal worden randknooppunten gebruikt om clienttoepassingen en clusterbeheerprogramma's uit te voeren.
Ze worden ook vaak gebruikt als verzamelruimten voor gegevens die worden overgebracht naar de Hadoop-cluster. Als zodanig werken Oozie, Pig, Sqoop en managementtools zoals Hue en Ambari daar goed. De afbeelding toont de processen die u kunt uitvoeren op Edge-knooppunten.
Randknooppunten worden vaak over het hoofd gezien in Hadoop-hardwarearchitectuurbesprekingen. Deze situatie is ongelukkig omdat randknooppunten een belangrijk doel dienen in een Hadoop-cluster en ze hardwarevereisten hebben die verschillen van hoofdknooppunten en slaafknooppunten.
Over het algemeen is het een goed idee om implementaties van beheerhulpprogramma's op hoofdknooppunten en slaafknooppunten te minimaliseren om ervoor te zorgen dat kritieke Hadoop-services zoals de NameNode zo min mogelijk concurrentie hebben voor hulpbronnen.
U moet voorkomen dat een hulpprogramma voor gegevensoverdracht zoals Sqoop op iets anders dan een edge-knooppunt wordt geplaatst, omdat de hoge volumes voor gegevensoverdracht het vermogen van Hadoop-services op hetzelfde knooppunt om te communiceren zouden kunnen bedreigen. De berichten die Hadoop-diensten uitwisselen zijn hun levensbloed, dus een hoge latentie betekent dat het hele knooppunt kan worden afgesloten van het cluster.
De figuur toont twee randknooppunten, maar voor veel Hadoop-clusters zou een enkelvoudig knooppunt volstaan. Extra randknooppunten zijn meestal nodig wanneer het volume gegevens dat in of uit het cluster wordt overgedragen te groot is voor een enkele server.
Aanbevolen opslagruimte
Gebruik opslagruimte van enterprise class voor edge-knooppunten in een Hadoop-cluster. Voor edge-knooppunten gericht op beheerhulpprogramma's en actieve clienttoepassingen, gebruikt u vier 900 GB SAS-schijven, samen met een RAID HDD-controller die is geconfigureerd voor RAID 1 + 0.
Randknooppunten die gericht zijn op het opnemen van gegevens hebben duidelijk veel meer opslagruimte nodig, dus u kunt schijven toevoegen aan het randknooppunt. Gebruik in dit geval LFF SAS-schijven omdat er veel hogere capaciteiten beschikbaar zijn in vergelijking met kleinere SAS-schijven met een bepaalde factor.
Aanbevolen processors
Een edge-knooppunt voor algemeen gebruik kan goed worden bediend door een processorconfiguratie die lijkt op die voor slave-knooppunten, met name een server met twee sockets met Ivy Bridge-processoren die zijn geklokt tussen 2 en 2. 5 GHz.
Aanbevolen geheugen
Voor de meeste workloads op randknooppunten is 48 GB RAM voldoende.
Aanbevolen netwerk
Om communicatie tussen het externe netwerk en het Hadoop-cluster mogelijk te maken, moeten edge nodes multi-homed zijn in het private subnet van het Hadoop-cluster en in het bedrijfsnetwerk.
Een multi-homed computer is een computer met speciale verbindingen met meerdere netwerken. Dit is een praktische illustratie van waarom edge-knooppunten perfect geschikt zijn voor interactie met de wereld buiten het Hadoop-cluster. Het is een uitstekende oefening om je Hadoop-cluster in een eigen subnet te houden, dus deze randknooppunten fungeren als een gecontroleerd venster binnen het cluster.
Voor edge-knooppunten die dienen voor het uitvoeren van clienttoepassingen of beheertools, worden twee paar gebonden 1 GbE-netwerkverbindingen aanbevolen: één paar om verbinding te maken met de Hadoop-cluster en een ander paar voor het externe netwerk.
Randknooppunten die zijn georiënteerd op het verwerken van hoge inkomende en uitgaande gegevensoverdrachtsnelheden zullen twee (of meer) paren van verbonden 10GbE netwerkconnectoren nodig hebben: één paar om verbinding te maken met de Hadoop-cluster en een ander paar voor het externe netwerk of specifieke gegevensinvoerbronnen.