Big Data beheren met Hadoop: HDFS en MapReduce - dummies

Video: hadoop yarn architecture 2024

Een deel van Big Data For Dummies Cheat Sheet

Hadoop, een open source softwareframework, gebruikt HDFS (het Hadoop Distributed File System) en MapReduce om big data te analyseren op clusters van goederen hardware, dat wil zeggen in een gedistribueerde computeromgeving.

Het Hadoop Distributed File System (HDFS) is ontwikkeld om bedrijven toe te staan grotere hoeveelheden gegevens eenvoudig en pragmatisch te beheren. Hadoop maakt het mogelijk grote problemen op te splitsen in kleinere elementen, zodat analyse snel en kosteneffectief kan worden uitgevoerd. HDFS is een veelzijdige, veerkrachtige, geclusterde benadering voor het beheren van bestanden in een big data-omgeving.

HDFS is niet de eindbestemming voor bestanden. Het is eerder een data-service die een unieke reeks mogelijkheden biedt die nodig zijn wanneer datavolumes en -snelheid hoog zijn.

MapReduce is een softwarematig raamwerk waarmee ontwikkelaars programma's kunnen schrijven die enorme hoeveelheden ongestructureerde gegevens parallel kunnen verwerken in een gedistribueerde groep processors. MapReduce is door Google ontworpen als een manier om efficiënt een reeks functies tegen een grote hoeveelheid gegevens in batch-modus uit te voeren.

Het onderdeel "kaart" distribueert het programmeringsprobleem of de taken over een groot aantal systemen en behandelt de plaatsing van de taken op een manier die de belasting in evenwicht brengt en herstel van fouten beheert. Nadat de verdeelde berekening is voltooid, aggregeert een andere functie met de naam "verkleinen" alle elementen weer samen om een resultaat te bieden. Een voorbeeld van MapReduce gebruik zou zijn om te bepalen hoeveel pagina's van een boek zijn geschreven in elk van de 50 verschillende talen.