Huis Persoonlijke financiën Slave-knooppunten in het Hadoop Distributed File System (HDFS) - dummies

Slave-knooppunten in het Hadoop Distributed File System (HDFS) - dummies

Inhoudsopgave:

Video: Hadoop Rack Awareness 2024

Video: Hadoop Rack Awareness 2024
Anonim

In een Hadoop-cluster voert elk gegevensknooppunt (ook wel een slaafknoop genoemd) een achtergrondproces genaamd DataNode. Dit achtergrondproces (ook bekend als daemon ) houdt de gegevenssegmenten bij die het systeem opslaat op zijn computer. Het spreekt regelmatig met de meesterserver voor HDFS (bekend als de NameNode) om te rapporteren over de status en gezondheid van de lokaal opgeslagen gegevens.

Gegevensblokken worden opgeslagen als onbewerkte bestanden in het lokale bestandssysteem. Vanuit het perspectief van een Hadoop-gebruiker, heb je geen idee welke van de slave-knooppunten de stukken van het bestand heeft die je moet verwerken. Vanuit Hadoop zie je geen gegevensblokken of hoe ze over het cluster worden verspreid - alles wat je ziet is een lijst met bestanden in HDFS.

De complexiteit van hoe de bestandsblokken over het cluster worden verspreid, is voor u verborgen - u weet niet hoe ingewikkeld het allemaal is, en u hoeft niet nodig te hebben weten. Eigenlijk weten de slaafknopen zelf niet eens wat zich in de gegevensblokken bevindt die ze opslaan. Het is de NameNode-server die de toewijzingen kent van welke datablokken de bestanden vormen die zijn opgeslagen in HDFS.

Beter leven door redundantie

Een kernontwerpprincipe van HDFS is het concept van het minimaliseren van de kosten van de afzonderlijke slaafknopen door gebruik te maken van standaardhardwarecomponenten. Voor massaal schaalbare systemen is dit idee een verstandige reden omdat kosten snel escaleren wanneer u honderden of duizenden slaafknooppunten nodig heeft. Het gebruik van goedkopere hardware heeft echter tot gevolg dat individuele componenten niet zo betrouwbaar zijn als duurdere hardware.

Wanneer u opslagopties kiest, overweeg dan de impact van het gebruik van commodity-schijven in plaats van duurdere drives van bedrijfskwaliteit. Stel u voor dat u een cluster met 750 knooppunten hebt, waarbij elk knooppunt 12 vaste schijven heeft die zijn bestemd voor HDFS-opslag.

Gebaseerd op een jaarlijkse uitvalpercentage (AFR) van 4 procent voor standaardschijfstations (een gegeven harde schijf heeft een kans van 4 procent om in een bepaald jaar te mislukken, met andere woorden), zal uw cluster waarschijnlijk een harde schijf ervaren falen elke dag van het jaar.

Omdat er zoveel slaafknooppunten kunnen zijn, is hun falen ook een veel voorkomend verschijnsel in grotere clusters met honderden of meer knooppunten. Met deze informatie in het achterhoofd is HDFS ontworpen in de veronderstelling dat alle hardwarecomponenten, zelfs op het niveau van de slave node, onbetrouwbaar zijn.

HDFS overwint de onbetrouwbaarheid van individuele hardwarecomponenten door middel van redundantie: dat is het idee achter die drie kopieën van elk bestand dat is opgeslagen in HDFS, verspreid over het systeem.Meer specifiek, elk bestandsblok opgeslagen in HDFS heeft in totaal drie replica's. Als één systeem breekt met een specifiek bestand dat u nodig hebt, kunt u zich tot de andere twee wenden.

Het ontwerp van de slave-knooppuntserver schetsen

Om een ​​balans te vinden tussen belangrijke factoren als totale eigendomskosten, opslagcapaciteit en prestaties, moet u het ontwerp van uw slaafknooppunten zorgvuldig plannen.

U ziet nu gewoonlijk slave-knooppunten waarbij elk knooppunt doorgaans 12 tot 16 lokaal aangesloten harde schijven van 3 TB heeft. Slave-knooppunten gebruiken redelijk snelle dual-socket CPU's met elk zes tot acht kernen - geen snelheidsduivels, met andere woorden. Dit gaat gepaard met 48 GB RAM. Kortom, deze server is geoptimaliseerd voor dichte opslag.

Omdat HDFS een bestandssysteem op gebruikersniveau-niveau is, is het belangrijk om het lokale bestandssysteem op de slave-knooppunten te optimaliseren voor gebruik met HDFS. In dit opzicht is een belangrijke beslissing bij het instellen van uw servers het kiezen van een bestandssysteem voor de Linux-installatie op de slaafknooppunten.

Ext3 is het meest gebruikte bestandssysteem, omdat het al een aantal jaren de meest stabiele optie is. Neem echter een kijkje op Ext4. Het is de volgende versie van Ext3 en deze is lang genoeg beschikbaar geweest om algemeen als stabiel en betrouwbaar te worden beschouwd.

Wat nog belangrijker is voor onze doeleinden, het heeft een aantal optimalisaties voor het verwerken van grote bestanden, waardoor het een ideale keuze is voor HDFS-slaveknoopservers.

Gebruik de Linux Logical Volume Manager (LVM) niet - dit is een extra laag tussen het Linux-bestandssysteem en HDFS, waardoor Hadoop zijn prestaties niet kan optimaliseren. Met name aggregeert LVM schijven, hetgeen het bronbeheer dat HDFS en YARN mogelijk maken, belemmert op basis van de manier waarop bestanden op de fysieke schijfeenheden worden gedistribueerd.

Slave-knooppunten in het Hadoop Distributed File System (HDFS) - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...