Gegevens comprimeren in Hadoop - dummies - Persoonlijke financiën 2024

De enorme datavolumes die realiteit zijn in een typische Hadoop-implementatie, maken compressie tot een noodzaak. Datacompressie bespaart u beslist veel opslagruimte en zal de beweging van die gegevens in uw cluster zeker versnellen. Zoals te verwachten, zijn er een aantal beschikbare compressieschema's, codecs genaamd, die u kunt overwegen.

In een Hadoop-implementatie ondervindt u (mogelijk) een behoorlijk groot aantal afzonderlijke slaafknooppunten, die elk een aantal grote schijfstations hebben. Het is niet ongebruikelijk dat een individueel slaafknooppunt meer dan 45 TB ruwe opslagruimte beschikbaar heeft voor HDFS.

Hoewel Hadoop-slaafknooppunten zijn ontworpen om goedkoop te zijn, zijn ze niet gratis, en met grote hoeveelheden gegevens die de neiging hebben om met toenemende snelheden te groeien, is compressie een voor de hand liggend hulpmiddel om extreem te beheersen gegevensvolumes.

Allereerst enkele basistermen: A codec, , wat een verkorte vorm is van co mpressor / dec ompressor, is technologie (software of hardware, of beide) voor het comprimeren en decomprimeren van gegevens; het is de implementatie van een compressie / decompressie-algoritme.

U moet weten dat sommige codecs iets ondersteunen dat splitsbare compressie wordt genoemd en dat codecs verschillen in zowel de snelheid waarmee ze gegevens kunnen comprimeren en decomprimeren als de mate waarin ze deze kunnen comprimeren.

Splitsbare compressie is een belangrijk concept in een Hadoop-context. De manier waarop Hadoop werkt, is dat bestanden worden gesplitst als ze groter zijn dan de blokgrootte-instelling van het bestand en individuele bestandssplitsingen parallel kunnen worden verwerkt door verschillende mappers.

Bij de meeste codecs kunnen tekstbestandssplitsingen niet worden gedecomprimeerd, onafhankelijk van andere splitsingen uit hetzelfde bestand, dus die codecs zouden niet-splitsbaar zijn, dus MapReduce-verwerking is beperkt tot één mapper.

Omdat het bestand slechts in zijn geheel kan worden gedecomprimeerd en niet als afzonderlijke delen die zijn gebaseerd op splitsingen, kan een dergelijk bestand niet parallel worden verwerkt en kunnen de prestaties een enorme klap opbrengen als een taak wacht op één mapper om meerdere datablokken verwerken die niet onafhankelijk van elkaar kunnen worden gedecomprimeerd.

Splitsbare compressie is slechts een factor voor tekstbestanden. Voor binaire bestanden comprimeren Hadoop-compressiecodecs gegevens binnen een binair gecodeerde container, afhankelijk van het bestandstype (bijvoorbeeld een SequenceFile, Avro of ProtocolBuffer).

Over prestaties gesproken, er zijn kosten (in termen van verwerkingsbronnen en tijd) verbonden aan het comprimeren van de gegevens die naar uw Hadoop-cluster worden geschreven.

Met computers, zoals met het leven, is niets gratis. Wanneer u gegevens comprimeert, wisselt u verwerkingscycli in voor schijfruimte. En wanneer die gegevens worden gelezen, zijn er ook kosten verbonden aan het decomprimeren van de gegevens. Ben zeker om de voordelen van opslagbesparingen te wegen tegen de extra prestatiesoverhead.

Als het invoerbestand naar een MapReduce-taak gecomprimeerde gegevens bevat, wordt de tijd die nodig is om die gegevens uit HDFS te lezen, verminderd en de werkprestaties verbeterd. De invoergegevens worden automatisch gedecomprimeerd wanneer het wordt gelezen door MapReduce.

De extensie van de extensie van de invoer bepaalt welke ondersteunde codec wordt gebruikt om de gegevens automatisch te decomprimeren. Bijvoorbeeld a. gz extensie identificeert het bestand als een gzip-gecomprimeerd bestand.

Het kan ook handig zijn om de tussenliggende uitvoer van de kaartfase in de MapReduce-verwerkingsstroom te comprimeren. Omdat de uitvoer van de kaartfunctie naar de schijf wordt geschreven en over het netwerk wordt verzonden om taken te verminderen, kan het comprimeren van de uitvoer leiden tot aanzienlijke prestatieverbeteringen.

En als u de MapReduce-uitvoer wilt opslaan als geschiedenisbestanden voor toekomstig gebruik, kan het comprimeren van deze gegevens de hoeveelheid benodigde ruimte in HDFS aanzienlijk verminderen.

Er zijn veel verschillende compressie-algoritmen en -hulpmiddelen, en hun kenmerken en sterke punten variëren. De meest voorkomende afweging is tussen compressieverhoudingen (de mate waarin een bestand wordt gecomprimeerd) en comprimeer / decomprimeer snelheden. Het Hadoop-framework ondersteunt verschillende codecs. Het framework comprimeert en decomprimeert op transparante wijze de meeste invoer- en uitvoerbestandsformaten.

De volgende lijst identificeert enkele algemene codecs die worden ondersteund door het Hadoop-framework. Zorg ervoor dat u de codec kiest die het beste overeenkomt met de vereisten van uw specifieke use-case (bijvoorbeeld, met workloads waarbij de verwerkingssnelheid belangrijk is, koos een codec met hoge decompressiesnelheden):

Gzip: Een compressie utility dat is overgenomen door het GNU-project, Gzip (afkorting van GNU zip) genereert gecomprimeerde bestanden met een. gz extensie. U kunt de opdracht gunzip gebruiken om bestanden te decomprimeren die zijn gemaakt door een aantal compressieprogramma's, waaronder Gzip.
Bzip2: Vanuit het oogpunt van bruikbaarheid zijn Bzip2 en Gzip vergelijkbaar. Bzip2 genereert een betere compressieverhouding dan Gzip, maar het is veel langzamer. In feite is Bzip2 van alle beschikbare compressie-codecs in Hadoop verreweg de langzaamste.

Als u een archief instelt dat u zelden hoeft in te checken en er veel ruimte is, is Bzip2 misschien de moeite van het overwegen waard.
Snappy: De Snappy-codec van Google biedt bescheiden compressieverhoudingen, maar snelle compressie- en decompressiesnelheden. (In feite heeft het de snelste decompressiesnelheden, wat het hoogst wenselijk maakt voor datasets die waarschijnlijk vaak worden ondervraagd.)

De Snappy-codec is geïntegreerd in Hadoop Common, een set van gemeenschappelijke hulpprogramma's die andere Hadoop-subprojecten ondersteunen. U kunt Snappy gebruiken als add-on voor recentere versies van Hadoop die nog geen Snappy-codec-ondersteuning bieden.
LZO: Net als Snappy biedt LZO (afkorting van Lempel-Ziv-Oberhumer, het trio van computerwetenschappers dat met het algoritme kwam) bescheiden compressieratio's, maar snelle compressie- en decompressiesnelheden. LZO is gelicenseerd onder de GNU Public License (GPL).

LZO ondersteunt splitbare compressie, waarmee parallelle verwerking van gecomprimeerde tekstbestandssplitsingen door uw MapReduce-taken mogelijk is. LZO moet een index maken wanneer het een bestand comprimeert, omdat bij compressielengtes met variabele lengte een index nodig is om de mapper te vertellen waar het gecomprimeerde bestand veilig kan worden gesplitst. LZO is alleen echt wenselijk als je tekstbestanden wilt comprimeren.

Hadoop Codecs

Codec	Bestandsextensie	Splitsbaar?	Mate van compressie	Compressiesnelheid
Gzip	. gz	Nee	Medium	Medium
Bzip2	. bz2	Ja	hoog	Slow
Snappy	. snappy	Nee	Medium	Fast
LZO	. lzo	Nee, tenzij geïndexeerd	Medium	Fast

Alle compressie-algoritmen moeten compromissen sluiten tussen de mate van compressie en de compressiesnelheid die ze kunnen bereiken. De codecs die worden weergegeven geven u enige controle over wat de balans tussen de compressieverhouding en de snelheid op compressietijd zou moeten zijn.

Met Gzip kunt u bijvoorbeeld de compressiesnelheid regelen door een negatief geheel getal (of trefwoord) op te geven, waarbij -1 het snelste compressieniveau aangeeft en -9 het traagste compressieniveau aangeeft. Het standaard compressieniveau is -6.