Huis Persoonlijke financiën Hadoop MapReduce voor Big Data - dummies

Hadoop MapReduce voor Big Data - dummies

Inhoudsopgave:

Video: TrendsVerwachting voor Big Data 2024

Video: TrendsVerwachting voor Big Data 2024
Anonim

Om de mogelijkheden van Hadoop MapReduce volledig te begrijpen, is het belangrijk om onderscheid te maken tussen MapReduce (het algoritme) en een implementatie van MapReduce. Hadoop MapReduce is een implementatie van het algoritme dat is ontwikkeld en wordt onderhouden door het Apache Hadoop-project.

Het is handig om over deze implementatie na te denken als een MapReduce-engine, want dat is precies hoe het werkt. Je levert input (brandstof), de motor converteert de input snel en efficiënt naar output en je krijgt de antwoorden die je nodig hebt.

Hadoop MapReduce bevat verschillende fases, elk met een belangrijke reeks bewerkingen die helpen om je doel te bereiken om de antwoorden te krijgen die je nodig hebt van big data. Het proces begint met een gebruikersverzoek om een ​​MapReduce-programma uit te voeren en gaat door totdat de resultaten worden teruggeschreven naar de HDFS.

HDFS en MapReduce voeren hun werk uit op knooppunten in een cluster dat wordt gehost op racks met basisservers. Om de discussie te vereenvoudigen, toont het diagram slechts twee knooppunten.

Maak de big data klaar

Wanneer een client vraagt ​​om een ​​MapReduce-programma uit te voeren, is de eerste stap het lokaliseren en lezen van het invoerbestand met de onbewerkte gegevens. Het bestandsformaat is volledig willekeurig, maar de gegevens moeten worden geconverteerd naar iets dat het programma kan verwerken. Dit is de functie van InputFormat en RecordReader. InputFormat bepaalt hoe het bestand in kleinere stukjes zal worden opgedeeld voor verwerking met behulp van de functie InputSplit.

Vervolgens wijst het een RecordReader toe om de onbewerkte gegevens voor verwerking op de kaart te transformeren. Verschillende soorten RecordReaders worden bij Hadoop geleverd en bieden een breed scala aan conversie-opties. Deze functie is een van de manieren waarop Hadoop de enorme verscheidenheid aan gegevenstypen beheert die worden gevonden in big data-problemen.

Laat de big data map beginnen

Je gegevens bevinden zich nu in een vorm die acceptabel is om in kaart te brengen. Voor elk invoerpaar wordt een apart exemplaar van de map geroepen om de gegevens te verwerken. Maar wat doet het met de verwerkte uitvoer en hoe kunt u ze bijhouden?

Map heeft twee extra mogelijkheden om de vragen te beantwoorden. Omdat kaart en minder nodig zijn om samen te werken om uw gegevens te verwerken, moet het programma de uitvoer van de onafhankelijke kaartenmakers verzamelen en doorgeven aan de reducers. Deze taak wordt uitgevoerd door een OutputCollector. Een Reporter-functie biedt ook informatie verzameld van kaarttaken, zodat u weet wanneer of de kaarttaken voltooid zijn.

Al dit werk wordt tegelijkertijd uitgevoerd op meerdere knooppunten in het Hadoop-cluster.Mogelijk hebt u gevallen waarin de uitvoer van bepaalde mappingprocessen moet worden verzameld voordat de reducers kunnen beginnen. Of, sommige van de tussenresultaten moeten mogelijk worden verwerkt voordat ze worden verkleind.

Bovendien kan een deel van deze uitvoer zich bevinden op een knooppunt dat verschilt van het knooppunt waar de verloopstukken voor die specifieke uitvoer worden uitgevoerd. Het verzamelen en schuiven van tussenresultaten wordt uitgevoerd door een partitioner en een soort. De toewijzingstaken leveren de resultaten op een specifieke partitie op als invoer voor het verminderen van taken.

Nadat alle kaarttaken zijn voltooid, worden de tussentijdse resultaten verzameld in de partitie en vindt er een herverdeling plaats, waarbij de uitvoer wordt gesorteerd voor optimale verwerking door reductie.

Verkleinen en combineren voor big data

Voor elk uitvoerpaar wordt reduc geroepen om zijn taak uit te voeren. Op vergelijkbare wijze als kaart, verzamelt reduceren zijn uitvoer terwijl alle taken worden verwerkt. Verkleinen kan niet beginnen voordat alle toewijzingen zijn voltooid. De uitvoer van verkleinen is ook een sleutel en een waarde. Hoewel dit noodzakelijk is om te reduceren om zijn werk te doen, is dit misschien niet het meest effectieve uitvoerformaat voor uw toepassing.

Hadoop biedt een OutputFormat-functie en deze lijkt erg veel op InputFormat. OutputFormat neemt het sleutel / waarde-paar en organiseert de uitvoer voor schrijven naar HDFS. De laatste taak is om de gegevens daadwerkelijk naar HDFS te schrijven. Dit wordt uitgevoerd door RecordWriter en het werkt op dezelfde manier als RecordReader behalve in omgekeerde volgorde. Het neemt de OutputFormat-gegevens en schrijft dit naar HDFS in de vorm die nodig is voor de vereisten van het programma.

De coördinatie van al deze activiteiten werd in eerdere versies van Hadoop beheerd door een taakplanner. Deze scheduler was rudimentair en naarmate de mix van banen veranderde en groeide, was het duidelijk dat een andere aanpak noodzakelijk was. De primaire tekortkoming in de oude planner was het gebrek aan middelenbeheer. De nieuwste versie van Hadoop heeft deze nieuwe mogelijkheid.

Hadoop MapReduce is het hart van het Hadoop-systeem. Het biedt alle mogelijkheden die u nodig hebt om grote gegevens in beheersbare brokken te splitsen, de gegevens parallel aan uw gedistribueerde cluster te verwerken en de gegevens vervolgens beschikbaar te maken voor gebruikersconsumptie of aanvullende verwerking. En het doet al dit werk op een zeer veerkrachtige, fouttolerante manier. Dit is nog maar het begin.

Hadoop MapReduce voor Big Data - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...