Gegevensgolven gebruiken voor grote gegevens - dummies

Soms worden bedrijven bij het naderen van big data geconfronteerd met enorme hoeveelheden gegevens en weinig idee van waar te gaan. Voer gegevensstreaming in. Wanneer een aanzienlijke hoeveelheid gegevens snel in bijna realtime moet worden verwerkt om inzicht te krijgen, zijn gegevens in beweging in de vorm van streaminggegevens het beste antwoord.

Wat zijn gegevens die niet in rust zijn? Dit zouden systemen zijn die actieve transacties beheren en daarom persistentie nodig hebben. In deze gevallen worden de gegevens opgeslagen in een operationeel gegevensarchief. In andere situaties zijn die transacties echter wel uitgevoerd en is het tijd om die gegevens doorgaans te analyseren in een datawarehouse of datamart.

Dit betekent dat de informatie batchgewijs en niet in realtime wordt verwerkt. Wanneer organisaties plannen maken voor hun toekomst, moeten ze veel gegevens kunnen analyseren, variërend van informatie over wat klanten kopen en waarom. Het is belangrijk om de voorlopende indicatoren van verandering te begrijpen. Met andere woorden: welke invloed hebben wijzigingen op de producten en services die een organisatie in de toekomst zal aanbieden?

Veel onderzoeksorganisaties gebruiken dit soort big data-analyse om nieuwe medicijnen te ontdekken. Het is mogelijk dat een verzekeringsmaatschappij de patronen van verkeersongevallen in een breed geografisch gebied met weerstatistieken wil vergelijken. In deze gevallen bestaat er geen voordeel om deze informatie op real-time snelheid te beheren. Het is duidelijk dat de analyse snel en praktisch moet zijn. Daarnaast zullen organisaties de gegevens analyseren om te zien of nieuwe patronen naar voren komen.

Streaminggegevens is een analytisch computerplatform dat gericht is op snelheid. Dit komt omdat deze toepassingen een continue stroom van vaak ongestructureerde gegevens vereisen om te worden verwerkt. Daarom worden gegevens continu geanalyseerd en in het geheugen omgezet voordat ze op een schijf worden opgeslagen. Het verwerken van datastromen werkt door het verwerken van "tijdvensters" van gegevens in het geheugen over een cluster van servers.

Dit komt overeen met de aanpak bij het beheren van gegevens in rust met gebruik van Hadoop. Het belangrijkste verschil is de kwestie van snelheid. In het Hadoop-cluster worden gegevens verzameld in batch-modus en vervolgens verwerkt. Snelheid is in Hadoop minder belangrijk dan bij gegevensstromen. Enkele sleutelprincipes die bepalen wanneer streams worden gebruikt, is het meest geschikt:

Wanneer het nodig is om een verkoopmogelijkheid op de detailhandel te bepalen op het moment van betrokkenheid, via sociale media of via op toestemmingen gebaseerde berichtenservice
Informatie verzamelen over de beweging rond een beveiligde site
Om te kunnen reageren op een gebeurtenis die onmiddellijk moet worden beantwoord, zoals een storing in de service of een wijziging in de medische conditie van een patiënt
Realtime berekening van kosten die afhankelijk zijn van variabelen zoals gebruik en beschikbare bronnen

Streaminggegevens zijn handig wanneer analyses in realtime moeten worden uitgevoerd terwijl de gegevens in beweging zijn.In feite neemt de waarde van de analyse (en vaak de gegevens) af met de tijd. Als u bijvoorbeeld niet onmiddellijk kunt analyseren en handelen, kan een verkoopkans verloren gaan of kan een bedreiging onopgemerkt blijven.

Hieronder volgen enkele voorbeelden die kunnen helpen verklaren hoe dit nuttig is.

Een elektriciteitscentrale moet een sterk beveiligde omgeving zijn, zodat onbevoegde personen zich niet bemoeien met het leveren van stroom aan klanten. Bedrijven plaatsen vaak sensoren rond de omtrek van een site om beweging te detecteren. Maar er kan een probleem zijn. Er bestaat een enorm verschil tussen een konijn dat zich haastig rond de site voortbeweegt en een auto die snel en doelbewust voorbijrijdt. Daarom moet de enorme hoeveelheid gegevens afkomstig van deze sensoren in realtime worden geanalyseerd, zodat er alleen een alarm klinkt als er daadwerkelijk gevaar bestaat.

Een telecommunicatiebedrijf in een zeer concurrerende markt wil ervoor zorgen dat stroomonderbrekingen zorgvuldig worden bewaakt, zodat een gedetecteerde daling van het serviceniveau kan worden geëscaleerd naar de juiste groep. Communicatiesystemen genereren enorme hoeveelheden gegevens die in realtime moeten worden geanalyseerd om de juiste actie te ondernemen. Een vertraging in het detecteren van een fout kan de klanttevredenheid ernstig beïnvloeden.

Het spreekt voor zich dat bedrijven te maken hebben met veel gegevens die in realtime moeten worden verwerkt en geanalyseerd. Daarom is de fysieke omgeving die dit reactievermogen ondersteunt van cruciaal belang. Voor streaming van data-omgevingen is doorgaans een geclusterde hardware-oplossing vereist en soms is een massaal parallelle verwerking nodig om de analyse af te handelen.

Een belangrijke factor bij het analyseren van gegevensstromen is het feit dat het een single-pass-analyse is. Met andere woorden, de analist kan de gegevens niet opnieuw analyseren nadat deze is gestreamd. Dit komt vaak voor in toepassingen waar u op zoek bent naar de afwezigheid van gegevens.

Als er meerdere passen nodig zijn, moeten de gegevens in een soort magazijn worden geplaatst waar aanvullende analyses kunnen worden uitgevoerd. Het is bijvoorbeeld vaak nodig om context vast te stellen. Hoe verhouden deze streaminggegevens zich tot historische gegevens? Deze correlatie kan u veel vertellen over wat er is veranderd en wat die verandering voor uw bedrijf kan betekenen.