Huis Persoonlijke financiën De Map-fase van Hadoop MapReduce Application Flow - dummies

De Map-fase van Hadoop MapReduce Application Flow - dummies

Video: Como colocar válvula em lata de gás 2024

Video: Como colocar válvula em lata de gás 2024
Anonim

Een MapReduce-toepassing verwerkt de gegevens in invoersplitsingen op basis van op recordbasis en dat elke record door MapReduce wordt begrepen als een sleutel / waarde paar. Nadat de invoersplitsingen zijn berekend, kunnen de mapper-taken beginnen met de verwerking ervan - dat wil zeggen, direct nadat de planningsfaciliteit van Resource Manager hen hun verwerkingsresources toewijst. (In Hadoop 1 wijst de JobTracker mapper-taken toe aan specifieke verwerkingsslots.)

De mapper-taak verwerkt zelf de invoersplitsing per record - in de figuur wordt dit alleenstaande record vertegenwoordigd door het sleutel / waarde-paar. In het geval van onze vluchtgegevens, wanneer de invoersplitsingen worden berekend (met behulp van de standaard bestandsverwerkingsmethode voor tekstbestanden), is de aanname dat elke rij in het tekstbestand één record is.

Voor elk record vertegenwoordigt de tekst van de rij zelf de waarde en de bytecompensatie van elke rij vanaf het begin van de splitsing wordt als de sleutel beschouwd.

U vraagt ​​zich misschien af ​​waarom het rijnummer niet wordt gebruikt in plaats van de byte-offset. Wanneer u bedenkt dat een zeer groot tekstbestand wordt opgesplitst in vele individuele gegevensblokken en wordt verwerkt als vele splitsingen, is het rijnummer een risicovol concept.

Het aantal regels in elke splitsing varieert, dus het is onmogelijk om het aantal rijen voorafgaand aan het proces dat wordt verwerkt te berekenen. Met de byte-offset kunt u echter precies zijn, omdat elk blok een vast aantal bytes heeft.

Als een mapper-taak elke record verwerkt, genereert deze een nieuw sleutel / waarde-paar: de sleutel en de waarde hier kunnen volledig verschillen van het invoerpaar. De uitvoer van de mapper-taak is de volledige verzameling van al deze sleutel / waardeparen.

Voordat het laatste uitvoerbestand voor elke mappertaak wordt geschreven, wordt de uitvoer gepartitioneerd op basis van de sleutel en gesorteerd. Deze partitionering betekent dat alle waarden voor elke toets gegroepeerd zijn.

In het geval van de redelijk eenvoudige voorbeeldtoepassing, is er slechts één enkel verloopstuk, dus alle uitvoer van de mappertaak wordt naar een enkel bestand geschreven. Maar in gevallen met meerdere verloopstukken, kan elke mappertaak ook meerdere uitvoerbestanden genereren.

De verdeling van deze uitvoerbestanden is gebaseerd op de partitioneringssleutel. Als er bijvoorbeeld slechts drie verschillende partitiesleutels worden uitgevoerd voor de mapper-taken en u drie verloopstukken voor de taak hebt geconfigureerd, zijn er drie mapper-uitvoerbestanden. In dit voorbeeld, als een bepaalde mapper-taak een invoersplitsing verwerkt en de uitvoer genereert met twee van de drie sleutels, zijn er slechts twee uitvoerbestanden.

Altijd de uitvoerbestanden van uw maptaken comprimeren. Het grootste voordeel is hier in prestatiewinst, omdat het schrijven van kleinere uitvoerbestanden de onvermijdelijke kosten minimaliseert van het overbrengen van de mapper-uitvoer naar de knooppunten waar de verloopstukken worden uitgevoerd.

De standaardpartitioneringsmodule is in de meeste situaties meer dan voldoende, maar soms wilt u mogelijk aanpassen hoe de gegevens worden gepartitioneerd voordat deze door de verkleintellers worden verwerkt. U wilt bijvoorbeeld dat de gegevens in uw resultatensets worden gesorteerd op basis van de sleutel en hun waarden, ook wel secundair genoemd.

Hiertoe kunt u de standaardpartitionering overschrijven en deze zelf implementeren. Dit proces vereist echter enige zorgvuldigheid, omdat u ervoor wilt zorgen dat het aantal records in elke partitie uniform is. (Als een verloopstuk veel meer gegevens moet verwerken dan de andere verloopstukken, wacht u totdat uw MapReduce-taak is voltooid, terwijl het enkele overbodige verloopstuk door de onevenredig grote gegevensset ploetert.)

Met tussenliggende bestanden van uniform formaat gebruikt u kan beter gebruik maken van het parallellisme dat beschikbaar is in MapReduce-verwerking.

De Map-fase van Hadoop MapReduce Application Flow - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...