Huis Persoonlijke financiën Wat is Hadoop? - dummies

Wat is Hadoop? - dummies

Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024

Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Anonim

Hadoop is een opensource gegevensverwerkingstool die is ontwikkeld door de Apache Software Foundation. Hadoop is momenteel het startprogramma voor het verwerken van enorme hoeveelheden en verschillende soorten gegevens, omdat het is ontworpen om grootschalig computergebruik betaalbaarder en flexibeler te maken. Met de komst van Hadoop is massale gegevensverwerking geïntroduceerd bij aanzienlijk meer mensen en meer organisaties.

Hadoop kan u een geweldige oplossing bieden voor het verwerken, verwerken en groeperen van massastromen van gestructureerde, semi-gestructureerde en ongestructureerde gegevens. Door Hadoop in te stellen en in gebruik te nemen, krijgt u een relatief betaalbare manier om te beginnen met het gebruiken van inzichten uit alle gegevens van uw organisatie, in plaats van alleen te blijven vertrouwen op de transactionele gegevensset die u ergens in een oud gegevensmagazijn hebt zitten.

Hadoop is een van de meest populaire programma's die beschikbaar zijn voor grootschalige computervereisten. Hadoop biedt een kaart-en-verminderlaag die in staat is om de gegevensverwerkingsvereisten van de meeste big data-projecten aan te pakken.

Soms worden de gegevens te groot en snel, zelfs voor Hadoop om te verwerken. In deze gevallen wenden organisaties zich tot alternatieve, meer aangepaste MapReduce-implementaties.

Hadoop gebruikt clusters van hardware voor het opslaan van gegevens. Hardware in elk cluster is verbonden en deze hardware bestaat uit commodity -servers : goedkope, laag presterende generieke servers die krachtige computermogelijkheden bieden wanneer ze parallel worden uitgevoerd via een gedeeld cluster. Deze commodity-servers worden ook knooppunten genoemd. Gemotoriseerd computergebruik zorgt voor een drastische verlaging van de kosten voor het verwerken en opslaan van big data.

Hadoop bestaat uit de volgende twee componenten:

  • Een gedistribueerd verwerkingsraamwerk: Hadoop gebruikt Hadoop MapReduce als het gedistribueerde verwerkingsraamwerk. Nogmaals, een gedistribueerd verwerkingsraamwerk is een krachtig raamwerk waar verwerkingstaken worden verdeeld over clusters van knooppunten, zodat grote gegevensvolumes zeer snel over het systeem als geheel kunnen worden verwerkt.

  • Een gedistribueerd bestandssysteem: Hadoop gebruikt het Hadoop Distributed File System (HDFS) als zijn gedistribueerde bestandssysteem.

De workloads van applicaties die op Hadoop worden uitgevoerd, worden verdeeld over de knooppunten van de Hadoop-cluster en de uitvoer wordt vervolgens op de HDFS opgeslagen. Het Hadoop-cluster kan bestaan ​​uit duizenden knooppunten. Om de kosten van invoer / uitvoer (I / O) -processen laag te houden, worden Hadoop MapReduce-taken zo dicht mogelijk bij de gegevens uitgevoerd.

Dit betekent dat de processoren voor het verminderen van taken zo dicht mogelijk bij de taakgegevens van de uitgaande kaart worden geplaatst die moeten worden verwerkt. Dit ontwerp vergemakkelijkt het delen van computationele vereisten in big data processing.

Hadoop ondersteunt ook hiërarchische organisatie. Sommige van de knooppunten zijn geclassificeerd als hoofdknooppunten en andere zijn gecategoriseerd als slaven. De masterservice, beter bekend als JobTracker , is ontworpen om verschillende slavenservices te beheren. Slave-services (ook TaskTrackers genoemd) worden één voor elk knooppunt gedistribueerd. De JobTracker bestuurt de TaskTrackers en wijst Hadoop MapReduce taken aan hen toe.

In een nieuwere versie van Hadoop, bekend als Hadoop 2, is een resourcemanager genaamd Hadoop YARN toegevoegd. Met betrekking tot MapReduce in Hadoop fungeert YARN als een geïntegreerd systeem dat functies voor resourcebeheer en planning uitvoert.

Hadoop verwerkt gegevens in batch. Als u dus werkt met realtime streaminggegevens, kunt u Hadoop niet gebruiken om uw problemen met big data aan te pakken. Dit gezegd hebbende, het is erg handig voor het oplossen van veel andere soorten big data-problemen.

Wat is Hadoop? - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...