Layer 4 van de Big Data Stack: Analytical Data Warehouses - dummies

Het datawarehouse, laag 4 van de big data-stack en de bijbehorende datamart, zijn lange tijd de primaire technieken geweest die organisaties gebruiken om gegevens te optimaliseren om besluitvormers te helpen. Doorgaans bevatten data warehouses en marts genormaliseerde data verzameld uit verschillende bronnen en geassembleerd om analyse van de business te vergemakkelijken.

Datawarehouses en marts vereenvoudigen het maken van rapporten en het visualiseren van ongelijksoortige gegevensitems. Ze zijn over het algemeen gemaakt van relationele databases, multidimensionale databases, platte bestanden en objectdatabases - in wezen elke opslagarchitectuur. In een traditionele omgeving, waar prestaties mogelijk niet de hoogste prioriteit hebben, wordt de keuze van de onderliggende technologie bepaald door de vereisten voor de analyse, rapportage en visualisatie van de bedrijfsgegevens.

Omdat de organisatie van de gegevens en de bereidheid ervan voor analyse van groot belang zijn, worden de meeste implementaties van gegevensmagazijnen actueel gehouden via batchverwerking. Het probleem is dat batch-geladen data warehouses en datamarts onvoldoende zijn voor veel big data-applicaties. De stress die wordt veroorzaakt door hogesnelheid-datastreams vereist waarschijnlijk een meer realtime benadering van big data-magazijnen.

Dit betekent niet dat u geen analytisch gegevensmagazijn of datamart wilt maken en voeden met batchprocessen. In plaats daarvan kunt u meerdere gegevensmagazijnen of datamarts hebben en de prestaties en schaal geven de tijdvereisten van de analisten en beleidsmakers weer.

Omdat veel data warehouses en datamarts bestaan uit data verzameld uit verschillende bronnen binnen een bedrijf, moeten ook de kosten in verband met het opschonen en normaliseren van de data worden aangepakt. Met big data vindt u enkele belangrijke verschillen:

Traditionele gegevensstromen (van transacties, toepassingen, enzovoort) kunnen veel ongelijksoortige gegevens opleveren.
Er zijn ook tientallen nieuwe gegevensbronnen, die allemaal enige mate van manipulatie vereisen voordat deze tijdig en nuttig voor het bedrijf kan zijn.
Inhoudsbronnen moeten ook worden gereinigd en hiervoor zijn mogelijk andere technieken nodig dan voor gestructureerde gegevens.

Historisch gezien werd de inhoud van datawarehouses en datamarts georganiseerd en geleverd aan bedrijfsleiders die verantwoordelijk zijn voor strategie en planning. Met big data maakt een nieuwe reeks teams gebruik van gegevens voor de besluitvorming.

Veel big data-implementaties bieden real-time mogelijkheden, zodat bedrijven in staat moeten zijn inhoud te leveren zodat personen met operationele rollen in staat zijn om problemen zoals klantenondersteuning, verkoopkansen en service-uitval in bijna realtime aan te pakken.Op deze manier helpen big data de actie van de backoffice naar de frontoffice te verplaatsen.

Bestaande analysetools en -technieken zullen zeer nuttig zijn bij het begrijpen van big data. Er is echter een vangst. De algoritmen die deel uitmaken van deze tools moeten kunnen werken met grote hoeveelheden potentieel realtime en ongelijksoortige gegevens. De infrastructuur moet aanwezig zijn om dit te ondersteunen.

En leveranciers die analysetools bieden, moeten er ook voor zorgen dat hun algoritmen werken in gedistribueerde implementaties. Vanwege deze complexiteit, kunt u een nieuwe klasse hulpprogramma's verwachten om big data beter te begrijpen.

Er zijn drie klassen hulpmiddelen in deze laag van de referentiearchitectuur. Ze kunnen onafhankelijk of gezamenlijk door beleidsmakers worden gebruikt om het bedrijf te helpen sturen. De drie klassen hulpprogramma's zijn als volgt:

Rapportage en dashboards: Deze hulpprogramma's bieden een & ldquo; gebruiksvriendelijke & rdquo; weergave van de informatie uit verschillende bronnen. Hoewel dit een steunpilaar is in de traditionele gegevenswereld, evolueert dit gebied nog steeds voor big data. Sommige van de tools die worden gebruikt, zijn traditionele tools die nu toegang kunnen krijgen tot de nieuwe soorten databases die gezamenlijk NoSQL worden genoemd (niet alleen SQL).
Visualisatie: Deze tools zijn de volgende stap in de evolutie van rapportage. De output heeft de neiging zeer interactief en dynamisch van aard te zijn. Een ander belangrijk onderscheid tussen rapporten en gevisualiseerde output is animatie. Zakelijke gebruikers kunnen de wijzigingen in de gegevens bekijken met behulp van een verscheidenheid aan verschillende visualisatietechnieken, waaronder mindmaps, heatmaps, infographics en verbindingsdiagrammen. Rapportage en visualisatie vinden plaats aan het einde van de bedrijfsactiviteit.
Analyse en geavanceerde analyse: Deze tools reiken naar het datawarehouse en verwerken de gegevens voor menselijke consumptie. Geavanceerde analyses moeten trends of gebeurtenissen expliciteren die transformatief, uniek of revolutionair zijn voor bestaande bedrijfspraktijken. Voorspellende analyses en sentimentanalyses zijn goede voorbeelden van deze wetenschap.