Huis Persoonlijke financiën Hadoop als bestemming voor archiveringsgegevens - dummies

Hadoop als bestemming voor archiveringsgegevens - dummies

Video: Webinar: „Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data“ 2024

Video: Webinar: „Enterprise Readiness mit Hadoop - Infrastrukturen für Big Data“ 2024
Anonim

De goedkope kosten van opslag voor Hadoop plus de mogelijkheid om Hadoop-gegevens met SQL te ondervragen, maakt Hadoop tot de belangrijkste bestemming voor archiefgegevens. Deze gebruikscasus heeft een lage impact op uw organisatie omdat u uw Hadoop-vaardigheidsset kunt bouwen op gegevens die niet zijn opgeslagen op systemen die de prestaties van een bedrijf dekken.

Bovendien hoeft u niet hard te werken om bij de gegevens te komen. (Omdat gearchiveerde gegevens normaal worden opgeslagen op systemen met een laag gebruik, is het eenvoudiger om dat te bereiken dan gegevens die 'in de schijnwerpers staan' op systemen die prestatiemissies kritisch zijn, zoals datawarehouses.) Als u Hadoop al als landing gebruikt zone, je hebt de basis voor je archief! U bewaart gewoon wat u wilt archiveren en verwijdert wat u niet wilt.

Als je denkt aan de landingszone van de Hadoop, breidt het doorzoekbare archief, weergegeven in de figuur, de waarde van Hadoop uit en begint stukken te integreren die waarschijnlijk al in je onderneming voorkomen. Het is een geweldig voorbeeld van het vinden van schaalvoordelen en het afhalen van kosten met Hadoop.

Hier verbindt de archiefcomponent de bestemmingszone en het datawarehouse. De gegevens die worden gearchiveerd, zijn afkomstig uit het magazijn en worden vervolgens opgeslagen in het Hadoop-cluster, dat ook de bestemmingszone verzorgt. Kortom, u kunt dezelfde Hadoop-cluster gebruiken om gegevens te archiveren en als uw landingszone te fungeren.

De belangrijkste Hadoop-technologie die u zou gebruiken om de archivering uit te voeren, is Sqoop, die de te archiveren gegevens uit het datawarehouse naar Hadoop kan verplaatsen. U moet overwegen welk formulier u wilt dat de gegevens in uw Hadoop-cluster opnemen. Over het algemeen zijn gecomprimeerde Hive-bestanden een goede keuze.

U kunt de gegevens van de magazijnstructuren natuurlijk in een andere vorm transformeren (bijvoorbeeld een genormaliseerde vorm om overtolligheid te verminderen), maar dit is over het algemeen geen goed idee. Door de gegevens in dezelfde structuur te houden als in het magazijn, wordt het veel eenvoudiger om een ​​volledige datasetquery uit te voeren in de gearchiveerde gegevens in Hadoop en de actieve gegevens in het magazijn.

Het concept van het bevragen van zowel de actieve als gearchiveerde gegevenssets brengt nog een andere overweging naar voren: hoeveel gegevens moet u archiveren? Er zijn echt twee veelvoorkomende keuzes: archiveer alles terwijl gegevens worden toegevoegd en gewijzigd in het datawarehouse of archiveer alleen de gegevens die u als koud beschouwt.

Alles archiveren heeft het voordeel dat u eenvoudig query's vanuit één interface in de hele dataset kunt uitvoeren - zonder een volledig archief moet u een federatieve queryoplossing bedenken waarbij u de resultaten van het archief en het actieve datawarehouse.

Maar het nadeel is dat regelmatige updates van de hot data van uw datawarehouse hoofdpijn zouden veroorzaken voor het op Hadoop gebaseerde archief. De reden hiervoor is dat voor het wijzigen van gegevens in afzonderlijke rijen en kolommen het verwijderen en opnieuw catalogiseren van bestaande gegevenssets in de groothandel is vereist.

Nu archiveringsgegevens zijn opgeslagen in uw op Hadoop gebaseerde landingszone (aangenomen dat u een optie gebruikt zoals de eerder gecomprimeerde Hive-bestanden), kunt u hiernaar vragen. Dit is waar de SQL op Hadoop-oplossingen interessant kan worden.

Een uitstekend voorbeeld van wat mogelijk is, is dat de analysetools (rechts in de figuur) direct rapporten of analyses uitvoeren op de gearchiveerde gegevens die zijn opgeslagen in Hadoop. Dit is niet ter vervanging van het datawarehouse - Hadoop zou immers niet in staat zijn om de prestatiekenmerken van het magazijn te evenaren voor het ondersteunen van honderden of meer gelijktijdige gebruikers die complexe vragen stellen.

Het gaat er hier om dat u rapportagetools tegen Hadoop kunt gebruiken om te experimenteren en nieuwe vragen kunt stellen om te beantwoorden in een speciaal magazijn of op een speciale markt.

Wanneer u uw eerste op Hadoop gebaseerde project voor het archiveren van magazijngegevens start, breek de huidige processen dan niet totdat u ze volledig hebt getest op uw nieuwe Hadoop-oplossing. Met andere woorden, als uw huidige warehousingstrategie is om naar tape te archiveren, moet u dat proces op zijn plaats houden en de gegevens dubbel archiveren in Hadoop en tape totdat u het scenario volledig hebt getest (wat doorgaans het herstel van de magazijngegevens zou omvatten in geval van een magazijnstoring).

Hoewel u (op korte termijn) twee archiefrepository's onderhoudt, beschikt u over een robuuste infrastructuur die is getest en getest voordat u een beproefd en waar proces ontmantelt. Dit proces kan ervoor zorgen dat u in loondienst blijft - bij uw huidige werkgever.

Deze gebruikssituatie is eenvoudig omdat het bestaande magazijn niet wordt gewijzigd. Het bedrijfsdoel blijft hetzelfde: lagere opslag- en licentiekosten door zelden gebruikte gegevens naar een archief te migreren. Het verschil in dit geval is dat de technologie achter het archief Hadoop is in plaats van offline opslag, zoals tape.

Daarnaast zijn verschillende archiefleveranciers gestart met het opnemen van Hadoop in hun oplossingen (bijvoorbeeld door hun eigen archiefbestanden op HDFS te laten staan), dus verwacht dat de mogelijkheden op dit gebied snel uitbreiden.

Als u Hadoop-vaardigheden ontwikkelt (zoals het uitwisselen van gegevens tussen Hadoop en relationele databases en het opvragen van gegevens in HDFS), kunt u deze gebruiken om grotere problemen aan te pakken, zoals analyseprojecten, die extra waarde kunnen bieden voor de Hadoop-investering van uw organisatie.

Hadoop als bestemming voor archiveringsgegevens - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...