Aanpassen van Business Intelligence-producten voor verwerking van grote gegevens - dummies

Traditionele Business Intelligence-producten waren niet echt ontworpen om met grote gegevens om te gaan, dus ze kunnen enige aanpassing vereisen. Ze zijn ontworpen om te werken met zeer gestructureerde, goed begrepen gegevens, vaak opgeslagen in een relationele gegevensrepository en weergegeven op uw desktop- of laptopcomputer. Deze traditionele business intelligence-analyse wordt meestal toegepast op snapshots van gegevens in plaats van de volledige hoeveelheid beschikbare gegevens. Wat is er anders aan big data-analyse?

Big data data

Big data bestaat uit gestructureerde, semi-gestructureerde en ongestructureerde data. Je hebt er vaak veel van en het kan behoorlijk ingewikkeld zijn. Wanneer u erover nadenkt om dit te analyseren, moet u zich bewust zijn van de potentiële kenmerken van uw gegevens:

het kan afkomstig zijn van niet-vertrouwde bronnen. Big data-analyse omvat vaak het verzamelen van gegevens uit verschillende bronnen. Deze kunnen zowel interne als externe gegevensbronnen omvatten. Hoe betrouwbaar zijn deze externe informatiebronnen? Hoe betrouwbaar zijn bijvoorbeeld gegevens van sociale media zoals een tweet? De informatie kan afkomstig zijn van een niet-geverifieerde bron. De integriteit van deze gegevens moet in de analyse worden beschouwd.
Het kan vies zijn. Dirty data verwijst naar onnauwkeurige, onvolledige of onjuiste gegevens. Dit kan het verkeerd spelden van woorden omvatten; een sensor die is gebroken, niet goed is gekalibreerd of op de een of andere manier is beschadigd; of zelfs dubbele gegevens. Dataskundigen discussiëren over waar de gegevens moeten worden schoongemaakt - dicht bij de bron of in realtime.

Natuurlijk zegt een school van denken dat de vuile gegevens helemaal niet moeten worden gereinigd omdat het interessante uitschieters kan bevatten. De reinigingsstrategie zal waarschijnlijk afhangen van de bron en het type gegevens en het doel van uw analyse. Als u bijvoorbeeld een spamfilter ontwikkelt, is het doel om de slechte elementen in de gegevens te detecteren, zodat u deze niet wilt opschonen.
De signaal / ruis-verhouding kan laag zijn. Met andere woorden, het signaal (bruikbare informatie) kan slechts een klein percentage van de gegevens zijn; het geluid is de rest. Een klein signaal uit lawaaierige gegevens kunnen extraheren, maakt deel uit van het voordeel van big data-analyse, maar u moet zich ervan bewust zijn dat het signaal inderdaad klein kan zijn.
Dit kan realtime zijn. In veel gevallen probeert u real-time datastreams te analyseren.

Big data-governance wordt een belangrijk onderdeel van de analytische vergelijking. Onder bedrijfsanalyse zullen verbeteringen moeten worden aangebracht in besturingsoplossingen om te zorgen dat de nieuwe gegevensbronnen waarheidsgetrouw zijn, vooral omdat deze wordt gecombineerd met bestaande vertrouwde gegevens die zijn opgeslagen in een magazijn.Gegevensbeveiliging en privacyoplossingen moeten ook worden verbeterd om het beheren / beheren van big data die is opgeslagen in nieuwe technologieën te ondersteunen.

Analytische algoritmen voor big data

Als u analyse van big data overweegt, moet u zich ervan bewust zijn dat wanneer u verder dan de desktop gaat, de gebruikte algoritmen vaak moeten worden aangepast, de interne code zonder de externe werking te beïnvloeden. Het mooie van een big data-infrastructuur is dat je een model kunt draaien dat vroeger uren of dagen in minuten kostte.

Hiermee kunt u honderden keren herhalen op het model. Als u echter een regressie uitvoert op een miljard rijen gegevens in een gedistribueerde omgeving, moet u rekening houden met de resourcevereisten met betrekking tot de hoeveelheid gegevens en de locatie in het cluster. Uw algoritmen moeten gegevensbewust zijn.

Bovendien beginnen leveranciers nieuwe analyses aan te bieden die zijn ontworpen om dicht bij de grote gegevensbronnen te worden geplaatst om de gegevens te analyseren. Deze benadering van het uitvoeren van analyses dichter bij de gegevensbronnen minimaliseert de hoeveelheid opgeslagen gegevens door alleen de hoogwaardige gegevens te behouden. Het stelt u ook in staat om de gegevens eerder te analyseren, wat van cruciaal belang is voor real-time besluitvorming.

Natuurlijk zullen analyses blijven evolueren. U hebt bijvoorbeeld realtime visualisatiemogelijkheden nodig om real-time gegevens weer te geven die voortdurend veranderen. Hoe plot je praktisch een miljard punten op een grafiekplot? Of, hoe werkt u met de voorspellende algoritmen zodat ze snel genoeg en diep genoeg analyses uitvoeren om een steeds groter wordende, complexe dataset te gebruiken? Dit is een gebied van actief onderzoek.

Ondersteuning voor Big data-infrastructuur

Het volstaat om te zeggen dat als u een platform zoekt, dit het volgende moet bereiken:

Integreer technologieën: De infrastructuur moet nieuwe big data-technologieën integreren met traditionele technologieën om alle soorten big data te kunnen verwerken en deze door traditionele analyses verbruikbaar te maken.
Bewaar grote hoeveelheden ongelijksoortige gegevens: Er kan een gehard Hadoop-systeem nodig zijn dat grote hoeveelheden gegevens in rust kan verwerken / opslaan / beheren, ongeacht of het gestructureerd, semigestructureerd of ongestructureerd is.
Gegevens in beweging verwerken: Een stroomberekeningscapaciteit kan nodig zijn om gegevens in beweging te verwerken die continu worden gegenereerd door sensoren, slimme apparaten, video, audio en logbestanden om real-time besluitvorming te ondersteunen.
Magazijngegevens: Mogelijk hebt u een oplossing nodig die is geoptimaliseerd voor operationele of diepe analytische werklasten om de groeiende hoeveelheden vertrouwde gegevens op te slaan en te beheren.

En natuurlijk hebt u de mogelijkheid nodig om de gegevens die u al hebt, samen met de resultaten van de big data-analyse te integreren.