Huis Persoonlijke financiën Uw Hadoop-cluster op maat maken

Uw Hadoop-cluster op maat maken

Video: Introduction to Hadoop 2024

Video: Introduction to Hadoop 2024
Anonim

De grootte van een gegevensverwerkingssysteem is evenzeer een wetenschap als deze is een kunst. Met Hadoop overweegt u dezelfde informatie als u zou doen met een relationele database, maar het belangrijkste is dat u moet weten hoeveel gegevens u hebt, de verwachte groeipercentages kunt schatten en een bewaarbeleid moet opstellen (hoe lang om de gegevens te bewaren).

De antwoorden op deze vragen dienen als uw vertrekpunt, dat onafhankelijk is van technologie-gerelateerde vereisten.

Nadat u hebt bepaald hoeveel gegevens je moet opslaan, je kunt beginnen met factoring in Hadoop-specifieke overwegingen. Stel dat je een telecombedrijf hebt en hebt vastgesteld dat je 750 terabytes (TB) aan opslagruimte nodig hebt voor de logbestanden van het call detail record (CDR). < U bewaart deze gegevens om te voldoen aan overheidsvoorschriften, maar u kunt ze ook analyseren t o zie churnpatronen en monitor de netwerkgezondheid, bijvoorbeeld. Om te bepalen hoeveel opslagruimte u nodig heeft, en als gevolg daarvan hoeveel rekken en slave-knooppunten u nodig heeft, voert u uw berekeningen uit met deze factoren in gedachten:

Replicatie:
  • De standaardreplicatiefactor voor gegevens in HDFS is 3. De 500 terabytes aan CDR-gegevens voor het telecombedrijf in het voorbeeld worden dan 1500 terabytes. Wisselruimte:

  • Elke analyse of verwerking van de gegevens door MapReduce heeft 25 procent extra ruimte nodig voor het opslaan van tussentijdse en definitieve resultaatsets. (Het telecombedrijf heeft nu 1875 terabytes aan opslagruimte nodig.)

    Compressie:
  • Het telecombedrijf slaat de CDR's op in een gecomprimeerde vorm, waarbij de gemiddelde compressieverhouding naar verwachting 3: 1 is. U hebt nu 625 terabytes nodig. Aantal slave-knooppunten:

  • Ervan uitgaande dat elk slaafknooppunt twaalf 3TB-schijven heeft die zijn toegewijd aan HDFS, heeft elk slaafknooppunt 36 terabytes aan onbewerkte HDFS-opslagruimte beschikbaar, zodat het bedrijf 18 slave-knooppunten nodig heeft. Aantal racks:

  • Omdat elk slaafknooppunt 2RU gebruikt en het bedrijf in het voorbeeld drie masterknooppunten (elk 1RU) en twee TOR-schakelaars (1 RU per stuk) nodig heeft, hebt u in totaal 41RU nodig. Het is 1RU minder dan de totale capaciteit van een standaard rack, dus een enkel rack is voldoende voor deze implementatie. Hoe dan ook, er is geen ruimte voor groei in dit cluster, dus is het verstandig om een ​​tweede rack (en twee extra ToR-switches) te kopen en de slave-knooppunten te verdelen tussen de twee racks.

    Testen:

  • Het onderhouden van een testcluster met een kleinere schaalweergave van het productiecluster is een standaardpraktijk. Het hoeft niet enorm te zijn, maar u wilt minstens vijf gegevensknooppunten zodat u een juiste weergave van het gedrag van Hadoop krijgt.Zoals met elke testomgeving, moet deze worden geïsoleerd op een ander netwerk dan het productiecluster. Back-up en noodherstel:

  • Net als elk productiesysteem moet het telecombedrijf ook rekening houden met back-up- en noodherstelvereisten. Dit bedrijf zou zo ver kunnen gaan dat er een mirror-cluster ontstaat om ervoor te zorgen dat ze een warme standby hebben voor hun hele systeem. Dit is duidelijk de duurste optie, maar is geschikt voor omgevingen waar constante uptime cruciaal is. Aan de goedkoopste kant van het spectrum (afgezien van helemaal geen back-up maken van de gegevens), kon het telecombedrijf regelmatig een back-up maken van alle gegevens (inclusief de gegevens zelf, toepassingen, configuratiebestanden en metagegevens) die werden opgeslagen in hun productiecluster. inpakken. Met tape zijn de gegevens niet onmiddellijk toegankelijk, maar wordt een noodherstelinspanning mogelijk in het geval dat de hele Hadoop-clusterproductie mislukt.

    Net als bij uw eigen computer, vertraagt ​​het systeem aanzienlijk wanneer de vaste schijf groot genoeg is. Hadoop is geen uitzondering. Ook presteert een harde schijf beter wanneer deze minder dan 85 tot 90 procent vol is. Met deze informatie in het achterhoofd, als prestaties belangrijk voor u zijn, moet u de swap-space factor verhogen van 25 tot 33 procent.

Uw Hadoop-cluster op maat maken <dummy's

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...