Video: 4 Fases Van Persoonlijke Ontwikkeling 2024
De fase Reduceert de processen sleutels en hun individuele zoeklijsten, zodat wat normaal wordt geretourneerd naar de clienttoepassing, een set sleutel- / waardeparen is. Hier is de blow-by-blow tot nu toe: een grote dataset is opgesplitst in kleinere stukken, invoersplitsingen genoemd, en individuele exemplaren van mapper-taken hebben elk van deze taken verwerkt.
In sommige gevallen is deze enkele verwerkingsfase alles wat nodig is om de gewenste toepassingsuitvoer te genereren. Als u bijvoorbeeld een basistransformatiebewerking uitvoert op de gegevens - bijvoorbeeld het converteren van alle tekst naar hoofdletters of het extraheren van sleutelframes uit videobestanden - is de enige fase alles wat u nodig hebt. (Dit staat trouwens bekend als een kaart -taak.)
Maar in veel andere gevallen is de taak slechts voor de helft af als de mapper-taken hun uitvoer hebben geschreven. De resterende taak bestaat erin alle tussentijdse resultaten samen te stellen tot een enkel, uniform antwoord.
Vergelijkbaar met de mapper-taak, die elk record één voor één verwerkt, verwerkt het verloopstuk elke toets afzonderlijk. Normaal gesproken retourneert het reductiemiddel een sleutel / waarde-paar voor elke sleutel die het verwerkt. Deze sleutel / waardeparen kunnen echter zo groot of zo klein zijn als u wilt.
Wanneer de reducertaken zijn voltooid, retourneert elk van hen een resultatenbestand en slaat dit op in HDFS (Hadoop Distributed File System). Zoals hier weergegeven, repliceert het HDFS-systeem deze resultaten automatisch.
Waar Resource Manager (of JobTracker als u Hadoop 1 gebruikt) zijn best doet om resources toe te wijzen aan mapper-taken om ervoor te zorgen dat invoersplitsingen lokaal worden verwerkt, is er geen dergelijke strategie voor taken voor reducer. Er wordt van uitgegaan dat mapper-taakresultaatsets moeten worden overgedragen via het netwerk om te worden verwerkt door de reducertaken.
Dit is een redelijke implementatie omdat, met honderden of zelfs duizenden mapper-taken, er geen praktische manier zou zijn om taken te reduceren om dezelfde locatieprioriteit te hebben.