Big Data Analysis en het Data Warehouse - dummies

Je zult er waarde in vinden om de mogelijkheden van het datawarehouse en de big data-omgeving bij elkaar te brengen. U moet een hybride omgeving creëren waarin big data hand in hand kan werken met het datawarehouse.

Ten eerste is het belangrijk om te beseffen dat het datawarehouse zoals het vandaag is ontworpen op korte termijn niet zal veranderen.

Daarom is het pragmatischer om het datawarehouse te gebruiken voor wat het is ontworpen om te doen - zorg voor een goed uitgevoerde versie van de waarheid over een onderwerp dat het bedrijf wil analyseren. Het magazijn kan informatie bevatten over de productlijn van een bepaald bedrijf, zijn klanten, zijn leveranciers en de details van de transacties van een jaar.

De informatie die wordt beheerd in het datawarehouse of een datamart van de afdeling is zorgvuldig samengesteld, zodat de metagegevens juist zijn. Met de groei van nieuwe webgebaseerde informatie is het praktisch en vaak noodzakelijk om deze enorme hoeveelheid gegevens te analyseren in samenhang met historische gegevens. Hier komt het hybride model om de hoek kijken.

Bepaalde aspecten van het trouwen met het datawarehouse met big data kunnen relatief eenvoudig zijn. Veel van de big data-bronnen zijn bijvoorbeeld afkomstig van bronnen met hun eigen goed ontworpen metadata. Complexe e-commercesites bevatten duidelijk gedefinieerde data-elementen. Daarom werkt de informatiebeheerorganisatie bij het uitvoeren van analyses tussen het magazijn en de big data-bron met twee datasets met zorgvuldig ontworpen metadatamodellen die moeten worden gerationaliseerd.

Natuurlijk missen de informatiebronnen in sommige situaties expliciete metadata. Voordat een analist de historische transactiegegevens kan combineren met de minder gestructureerde big data, moet er werk worden verzet. Doorgaans zal een eerste analyse van petabytes aan gegevens interessante patronen onthullen die kunnen helpen bij het voorspellen van subtiele bedrijfsveranderingen of mogelijke oplossingen voor de diagnose van een patiënt.

De eerste analyse kan worden voltooid door gebruik te maken van hulpmiddelen zoals MapReduce met het Hadoop-gedistribueerde bestandssysteem. Op dit punt kun je beginnen te begrijpen of het in staat is om te helpen evalueren welk probleem wordt aangepakt.

In het analyseproces is het net zo belangrijk om onnodige gegevens te verwijderen als om gegevens te identificeren die relevant zijn voor de bedrijfscontext. Wanneer deze fase is voltooid, moeten de overblijvende gegevens worden getransformeerd, zodat definities van metadata nauwkeurig zijn. Op deze manier, wanneer de big data wordt gecombineerd met traditionele, historische gegevens uit het magazijn, zijn de resultaten nauwkeurig en zinvol.

De big data-integratie-lynchpin

Dit proces vereist een goed gedefinieerde strategie voor gegevensintegratie. Hoewel data-integratie een kritiek element is bij het beheer van big data, is het net zo belangrijk bij het maken van een hybride analyse met het datawarehouse. Het proces van het extraheren van gegevens en het transformeren ervan in een hybride omgeving lijkt in feite op hoe dit proces wordt uitgevoerd in een traditioneel datawarehouse.

In het datawarehouse worden gegevens geëxtraheerd uit traditionele bronsystemen zoals CRM- of ERP-systemen. Het is van cruciaal belang dat elementen uit deze verschillende systemen correct worden vergeleken.

Revisie van extractie, transformatie en belastingen voor datawarehouses

In het datawarehouse vindt u vaak een combinatie van relationele databasetabellen, platte bestanden en niet-relationele bronnen. Een goed geconstrueerd datawarehouse wordt zodanig ontworpen dat de gegevens worden omgezet in een gemeenschappelijk formaat, zodat query's nauwkeurig en consistent kunnen worden verwerkt. De geëxtraheerde bestanden moeten worden getransformeerd om overeen te komen met de bedrijfsregels en processen van het onderwerpgebied dat het datawarehouse is ontworpen om te analyseren.

Met andere woorden, de gegevens moeten worden geëxtraheerd uit de big data-bronnen, zodat deze bronnen veilig kunnen samenwerken en zinvolle resultaten kunnen opleveren. Bovendien moeten de bronnen worden getransformeerd, zodat ze nuttig zijn voor het analyseren van de relatie tussen de historische gegevens en de meer dynamische en realtime gegevens die afkomstig zijn van big data-bronnen.

Het laden van informatie in het big data-model zal anders zijn dan wat u zou verwachten in een traditioneel datawarehouse. Met datawarehouses verandert de data nooit nadat de gegevens zijn gecodificeerd. Een typisch datawarehouse zal het bedrijf een momentopname van gegevens bieden op basis van de noodzaak om een bepaald bedrijfsprobleem te analyseren dat monitoring vereist, zoals voorraad of verkoop.

De gedistribueerde structuur van big data leidt organisaties vaak eerst gegevens in een reeks knooppunten te laden en vervolgens de extractie en transformatie uit te voeren. Bij het creëren van een hybride van het traditionele datawarehouse en de big data-omgeving, kan de gedistribueerde aard van de big data-omgeving het vermogen van organisaties om grote hoeveelheden gegevens te analyseren in de context van het bedrijf drastisch veranderen.