Video: Introduction to Hadoop 2024
De grootte van een gegevensverwerkingssysteem is evenzeer een wetenschap als deze is een kunst. Met Hadoop overweegt u dezelfde informatie als u zou doen met een relationele database, maar het belangrijkste is dat u moet weten hoeveel gegevens u hebt, de verwachte groeipercentages kunt schatten en een bewaarbeleid moet opstellen (hoe lang om de gegevens te bewaren).
De antwoorden op deze vragen dienen als uw vertrekpunt, dat onafhankelijk is van technologie-gerelateerde vereisten.
Nadat u hebt bepaald hoeveel gegevens je moet opslaan, je kunt beginnen met factoring in Hadoop-specifieke overwegingen. Stel dat je een telecombedrijf hebt en hebt vastgesteld dat je 750 terabytes (TB) aan opslagruimte nodig hebt voor de logbestanden van het call detail record (CDR). < U bewaart deze gegevens om te voldoen aan overheidsvoorschriften, maar u kunt ze ook analyseren t o zie churnpatronen en monitor de netwerkgezondheid, bijvoorbeeld. Om te bepalen hoeveel opslagruimte u nodig heeft, en als gevolg daarvan hoeveel rekken en slave-knooppunten u nodig heeft, voert u uw berekeningen uit met deze factoren in gedachten:
-
De standaardreplicatiefactor voor gegevens in HDFS is 3. De 500 terabytes aan CDR-gegevens voor het telecombedrijf in het voorbeeld worden dan 1500 terabytes. Wisselruimte:
-
Elke analyse of verwerking van de gegevens door MapReduce heeft 25 procent extra ruimte nodig voor het opslaan van tussentijdse en definitieve resultaatsets. (Het telecombedrijf heeft nu 1875 terabytes aan opslagruimte nodig.)
-
Het telecombedrijf slaat de CDR's op in een gecomprimeerde vorm, waarbij de gemiddelde compressieverhouding naar verwachting 3: 1 is. U hebt nu 625 terabytes nodig. Aantal slave-knooppunten:
-
Ervan uitgaande dat elk slaafknooppunt twaalf 3TB-schijven heeft die zijn toegewijd aan HDFS, heeft elk slaafknooppunt 36 terabytes aan onbewerkte HDFS-opslagruimte beschikbaar, zodat het bedrijf 18 slave-knooppunten nodig heeft. Aantal racks:
-
Omdat elk slaafknooppunt 2RU gebruikt en het bedrijf in het voorbeeld drie masterknooppunten (elk 1RU) en twee TOR-schakelaars (1 RU per stuk) nodig heeft, hebt u in totaal 41RU nodig. Het is 1RU minder dan de totale capaciteit van een standaard rack, dus een enkel rack is voldoende voor deze implementatie. Hoe dan ook, er is geen ruimte voor groei in dit cluster, dus is het verstandig om een tweede rack (en twee extra ToR-switches) te kopen en de slave-knooppunten te verdelen tussen de twee racks.
Testen:
-
Het onderhouden van een testcluster met een kleinere schaalweergave van het productiecluster is een standaardpraktijk. Het hoeft niet enorm te zijn, maar u wilt minstens vijf gegevensknooppunten zodat u een juiste weergave van het gedrag van Hadoop krijgt.Zoals met elke testomgeving, moet deze worden geïsoleerd op een ander netwerk dan het productiecluster. Back-up en noodherstel:
-
Net als elk productiesysteem moet het telecombedrijf ook rekening houden met back-up- en noodherstelvereisten. Dit bedrijf zou zo ver kunnen gaan dat er een mirror-cluster ontstaat om ervoor te zorgen dat ze een warme standby hebben voor hun hele systeem. Dit is duidelijk de duurste optie, maar is geschikt voor omgevingen waar constante uptime cruciaal is. Aan de goedkoopste kant van het spectrum (afgezien van helemaal geen back-up maken van de gegevens), kon het telecombedrijf regelmatig een back-up maken van alle gegevens (inclusief de gegevens zelf, toepassingen, configuratiebestanden en metagegevens) die werden opgeslagen in hun productiecluster. inpakken. Met tape zijn de gegevens niet onmiddellijk toegankelijk, maar wordt een noodherstelinspanning mogelijk in het geval dat de hele Hadoop-clusterproductie mislukt.
Net als bij uw eigen computer, vertraagt het systeem aanzienlijk wanneer de vaste schijf groot genoeg is. Hadoop is geen uitzondering. Ook presteert een harde schijf beter wanneer deze minder dan 85 tot 90 procent vol is. Met deze informatie in het achterhoofd, als prestaties belangrijk voor u zijn, moet u de swap-space factor verhogen van 25 tot 33 procent.