Huis Persoonlijke financiën De Shuffle-fase van Hadoop's MapReduce Application Flow - dummies

De Shuffle-fase van Hadoop's MapReduce Application Flow - dummies

Video: Hadoop Processing Frameworks 2024

Video: Hadoop Processing Frameworks 2024
Anonim

Na de kaartfase en vóór het begin van de fase Reduce is een overdrachtproces, bekend als shuffle en sort . Hier worden de gegevens van de mapper-taken voorbereid en verplaatst naar de knooppunten waar de reducertaken zullen worden uitgevoerd. Wanneer de mapper-taak is voltooid, worden de resultaten gesorteerd op sleutel, gepartitioneerd als er meerdere verloopstukken zijn en vervolgens naar schijf geschreven.

U ziet dit concept in de volgende afbeelding, die de MapReduce-gegevensverwerkingsstroom en de interactie met de fysieke componenten van de Hadoop-cluster laat zien. (Eén snelle opmerking: gegevens in het geheugen worden weergegeven door witte vierkanten en gegevens die op de schijf zijn opgeslagen, worden weergegeven door grijze vierkanten.)

Om het algemene MapReduce-proces te versnellen, worden de gegevens onmiddellijk verplaatst naar de nodes van de reducerende taken, om een ​​overvloed aan netwerkactiviteit te voorkomen wanneer de laatste mappertaak zijn werk voltooit. Deze overdracht vindt plaats terwijl de mapper-taak wordt uitgevoerd, omdat de uitgangen voor elk record - onthouden - worden opgeslagen in het geheugen van een wachtende verlooptaak. (U kunt configureren of dit gebeurt - of niet gebeurt - en ook het aantal betrokken threads.)

Houd er rekening mee dat hoewel de taak van een reducer de meeste uitvoer van de mappertaak heeft, de verwerking van de taak verminderen kan pas beginnen nadat alle mapper-taken zijn voltooid.

Om scenario's te voorkomen waarbij de prestaties van een MapReduce-taak worden belemmerd door een trage mapper-taak die wordt uitgevoerd op een slecht presterende slave-node, gebruikt het MapReduce-framework een concept met de naam speculatieve uitvoering .

In het geval dat sommige mapper-taken langzamer worden uitgevoerd dan redelijk wordt geacht, zal de applicatiemaster dubbele taken uitvoeren (in Hadoop 1 doet de JobTracker dit). Welke taak het eerst wordt voltooid - het duplicaat of het origineel - de resultaten worden op schijf opgeslagen en de andere taak wordt gedood. Als u uw taken goed in de gaten houdt en u zich afvraagt ​​waarom er meer mapper-taken zijn die u verwacht, is dit waarschijnlijk de reden.

De uitvoer van mapper-taken wordt niet naar HDFS geschreven, maar naar een lokale schijf op het slave-knooppunt waar de mapper-taak werd uitgevoerd. Als zodanig wordt het niet gerepliceerd in het Hadoop-cluster.

Afgezien van het comprimeren van de uitvoer, kunt u mogelijk de prestaties verbeteren door een combinatietaak uit te voeren. Deze eenvoudige tactiek, die hier wordt getoond, omvat het uitvoeren van een lokale vermindering van de uitvoer voor individuele mapper-taken.

In de meeste gevallen is er geen extra programmering nodig, omdat u het systeem kunt vertellen om de verloopfunctie te gebruiken. Als u uw reductiefunctie niet gebruikt, moet u ervoor zorgen dat de uitgang van de combinerfunctie identiek is aan die van de reductiefunctie.

Het is aan het MapReduce-framework of de combiner-functie één keer, meerdere keren of nooit moet worden uitgevoerd. Het is dus van cruciaal belang dat de code van de combiner ervoor zorgt dat de eindresultaten niet worden beïnvloed door meerdere runs. Het uitvoeren van de combiner kan een prestatievoordeel opleveren door de hoeveelheid tussentijdse gegevens die anders over het netwerk zouden moeten worden overgedragen, te verminderen.

Dit verlaagt ook de hoeveelheid verwerking die de reducer-taken zouden moeten uitvoeren. U voert hier een extra taak uit, dus het is mogelijk dat enige prestatiewinst te verwaarlozen is of zelfs tot slechtere algehele prestaties kan leiden. Uw kilometerstand kan variëren, dus test dit zorgvuldig.

Nadat alle resultaten van de mapper-taken zijn gekopieerd naar de knooppunten van de reducerende taken, worden deze bestanden samengevoegd en gesorteerd.

De Shuffle-fase van Hadoop's MapReduce Application Flow - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...