Huis Persoonlijke financiën De op Hadoop gebaseerde landingszone - dummies

De op Hadoop gebaseerde landingszone - dummies

Video: Rixt Altenburg van Nuon: Customer Insight via Data Lake 2024

Video: Rixt Altenburg van Nuon: Customer Insight via Data Lake 2024
Anonim

Wanneer u probeert uit te puzzelen wat een analyseomgeving is kan er in de toekomst uitzien, stuit je keer op keer op het patroon van de op Hadoop gebaseerde landingszone. Het is zelfs niet langer een toekomstgerichte discussie, omdat de landingszone de is geworden, zodat toekomstgerichte bedrijven nu proberen IT-kosten te besparen en een platform bieden voor innovatieve gegevensanalyse.

Wat is precies de landingszone? Op het meest basale niveau is de -landingszone slechts de centrale plaats waar gegevens in uw onderneming terechtkomen - wekelijkse extracties van gegevens uit operationele databases bijvoorbeeld of uit systemen die logbestanden genereren. Hadoop is om deze redenen een nuttige opslagplaats voor het landen van gegevens:

  • Het kan allerlei soorten gegevens verwerken.

  • Het is eenvoudig schaalbaar.

  • Het is goedkoop.

  • Nadat u gegevens in Hadoop hebt geïmporteerd, kunt u de gegevens op verschillende manieren opvragen, analyseren of verwerken.

Dit diagram toont slechts een deel van het verhaal en is geenszins compleet. U moet tenslotte weten hoe de gegevens van de landingszone naar het datawarehouse worden verplaatst, enzovoort.

Het uitgangspunt voor de discussie over de modernisering van een datawarehouse moet zijn hoe organisaties datawarehouses gebruiken en de uitdagingen waarmee IT-afdelingen worden geconfronteerd.

In de jaren tachtig van de vorige eeuw, toen organisaties hun operationele informatie in relationele databases (bijvoorbeeld verkooptransacties of supply chain-status) goed konden opslaan, begonnen bedrijfsleiders rapporten te ontvangen die waren gegenereerd op basis van deze relationele gegevens. De eerste relationele winkels waren operationele databases en waren ontworpen voor online transactieverwerking (OLTP), zodat records zo snel mogelijk konden worden ingevoegd, bijgewerkt of verwijderd.

Dit is een onpraktische architectuur voor rapportage en analyse op grote schaal, daarom zijn relationele online analytische verwerkingsbestanden (ROLAP) ontwikkeld om aan deze behoefte te voldoen. Dit leidde tot de ontwikkeling van een geheel nieuw soort RDBMS: een datawarehouse, dat een afzonderlijke entiteit is en samen met de operationele dataopslag van een organisatie leeft.

Dit komt neer op het gebruik van speciaal ontwikkelde tools voor meer efficiëntie: u beschikt over operationele dataopslag, die is ontworpen om transacties efficiënt te verwerken, en datawarehouses, die zijn ontworpen ter ondersteuning van herhaalde analyse en rapportage.

Datawarehouses staan ​​echter onder toenemende druk, en wel om de volgende redenen:

  • Toenemende vraag om langere gegevensperioden online te houden.

  • Toegenomen vraag naar verwerkingsbronnen om gegevens te transformeren voor gebruik in andere magazijnen en datamarts.

  • Toegenomen vraag naar innovatieve analyses, waarbij analisten vragen moeten stellen over de magazijngegevens, bovenop de reguliere rapportage die al wordt uitgevoerd. Dit kan een aanzienlijke extra verwerking tot gevolg hebben.

In de figuur ziet u dat het datawarehouse wordt gepresenteerd als de primaire resource voor de verschillende soorten analyses die aan de rechterkant van de figuur worden weergegeven. Hier zie je ook het concept van een landingszone weergegeven, waar Hadoop gegevens van verschillende inkomende gegevensbronnen zal opslaan.

Als u een Hadoop-bestemmingszone wilt inschakelen, moet u ervoor zorgen dat u gegevens van de verschillende gegevensbronnen naar HDFS kunt schrijven. Voor relationele databases zou een goede oplossing zijn om Sqoop te gebruiken.

Het landen van de gegevens is slechts het begin.

Wanneer u gegevens van veel bronnen naar uw bestemmingszone verplaatst, is een probleem dat u onvermijdelijk tegenkomt, de gegevenskwaliteit. Het is gebruikelijk dat bedrijven over veel operationele databases beschikken waar belangrijke details anders zijn, bijvoorbeeld dat een klant bekend staat als "D. deRoos "in een database en" Dirk deRoos "in een andere.

Een ander kwaliteitsprobleem ligt in systemen waarbij er veel wordt vertrouwd op handmatige invoer van gegevens, hetzij van klanten of personeel - hier is het niet ongebruikelijk om voornamen en achternamen te vinden die zijn omgeschakeld of andere onjuiste informatie in de gegevensvelden.

Problemen met gegevenskwaliteit zijn een groot probleem voor datawarehouse-omgevingen en daarom wordt er veel aandacht besteed aan opschonings- en validatiestappen wanneer gegevens van andere systemen worden verwerkt terwijl het in het magazijn wordt geladen. Het komt allemaal neer op vertrouwen : als de gegevens waar u vragen tegen stelt vies zijn, kunt u de antwoorden in uw rapporten niet vertrouwen.

Dus hoewel er een enorm potentieel is om toegang te hebben tot veel verschillende gegevenssets van verschillende bronnen in uw Hadoop-bestemmingszone, moet u rekening houden met de gegevenskwaliteit en hoeveel u de gegevens kunt vertrouwen.

De op Hadoop gebaseerde landingszone - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...