Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Hadoop is een opensource gegevensverwerkingstool die is ontwikkeld door de Apache Software Foundation. Hadoop is momenteel het startprogramma voor het verwerken van enorme hoeveelheden en verschillende soorten gegevens, omdat het is ontworpen om grootschalig computergebruik betaalbaarder en flexibeler te maken. Met de komst van Hadoop is massale gegevensverwerking geïntroduceerd bij aanzienlijk meer mensen en meer organisaties.
Hadoop kan u een geweldige oplossing bieden voor het verwerken, verwerken en groeperen van massastromen van gestructureerde, semi-gestructureerde en ongestructureerde gegevens. Door Hadoop in te stellen en in gebruik te nemen, krijgt u een relatief betaalbare manier om te beginnen met het gebruiken van inzichten uit alle gegevens van uw organisatie, in plaats van alleen te blijven vertrouwen op de transactionele gegevensset die u ergens in een oud gegevensmagazijn hebt zitten.
Hadoop is een van de meest populaire programma's die beschikbaar zijn voor grootschalige computervereisten. Hadoop biedt een kaart-en-verminderlaag die in staat is om de gegevensverwerkingsvereisten van de meeste big data-projecten aan te pakken.
Soms worden de gegevens te groot en snel, zelfs voor Hadoop om te verwerken. In deze gevallen wenden organisaties zich tot alternatieve, meer aangepaste MapReduce-implementaties.
Hadoop gebruikt clusters van hardware voor het opslaan van gegevens. Hardware in elk cluster is verbonden en deze hardware bestaat uit commodity -servers : goedkope, laag presterende generieke servers die krachtige computermogelijkheden bieden wanneer ze parallel worden uitgevoerd via een gedeeld cluster. Deze commodity-servers worden ook knooppunten genoemd. Gemotoriseerd computergebruik zorgt voor een drastische verlaging van de kosten voor het verwerken en opslaan van big data.
Hadoop bestaat uit de volgende twee componenten:
-
Een gedistribueerd verwerkingsraamwerk: Hadoop gebruikt Hadoop MapReduce als het gedistribueerde verwerkingsraamwerk. Nogmaals, een gedistribueerd verwerkingsraamwerk is een krachtig raamwerk waar verwerkingstaken worden verdeeld over clusters van knooppunten, zodat grote gegevensvolumes zeer snel over het systeem als geheel kunnen worden verwerkt.
-
Een gedistribueerd bestandssysteem: Hadoop gebruikt het Hadoop Distributed File System (HDFS) als zijn gedistribueerde bestandssysteem.
De workloads van applicaties die op Hadoop worden uitgevoerd, worden verdeeld over de knooppunten van de Hadoop-cluster en de uitvoer wordt vervolgens op de HDFS opgeslagen. Het Hadoop-cluster kan bestaan uit duizenden knooppunten. Om de kosten van invoer / uitvoer (I / O) -processen laag te houden, worden Hadoop MapReduce-taken zo dicht mogelijk bij de gegevens uitgevoerd.
Dit betekent dat de processoren voor het verminderen van taken zo dicht mogelijk bij de taakgegevens van de uitgaande kaart worden geplaatst die moeten worden verwerkt. Dit ontwerp vergemakkelijkt het delen van computationele vereisten in big data processing.
Hadoop ondersteunt ook hiërarchische organisatie. Sommige van de knooppunten zijn geclassificeerd als hoofdknooppunten en andere zijn gecategoriseerd als slaven. De masterservice, beter bekend als JobTracker , is ontworpen om verschillende slavenservices te beheren. Slave-services (ook TaskTrackers genoemd) worden één voor elk knooppunt gedistribueerd. De JobTracker bestuurt de TaskTrackers en wijst Hadoop MapReduce taken aan hen toe.
In een nieuwere versie van Hadoop, bekend als Hadoop 2, is een resourcemanager genaamd Hadoop YARN toegevoegd. Met betrekking tot MapReduce in Hadoop fungeert YARN als een geïntegreerd systeem dat functies voor resourcebeheer en planning uitvoert.
Hadoop verwerkt gegevens in batch. Als u dus werkt met realtime streaminggegevens, kunt u Hadoop niet gebruiken om uw problemen met big data aan te pakken. Dit gezegd hebbende, het is erg handig voor het oplossen van veel andere soorten big data-problemen.