Identificeer de gegevens die u nodig hebt voor uw grote gegevens - dummies

Maak een balans op van het type gegevens waarmee u te maken hebt in uw big data-project. Veel organisaties erkennen dat veel intern gegenereerde gegevens in het verleden nog niet optimaal benut zijn.

Door gebruik te maken van nieuwe tools krijgen organisaties nieuw inzicht in eerder ongebruikte bronnen van ongestructureerde gegevens in e-mails, klantendienstrecords, sensorgegevens en beveiligingslogboeken. Daarnaast bestaat er veel belangstelling voor het zoeken naar nieuw inzicht op basis van analyse van gegevens die voornamelijk extern zijn van de organisatie, zoals sociale media, locatie van mobiele telefoons, verkeer en weer.

De verkennende fase voor big data

In de vroege stadia van uw analyse, wilt u naar patronen in de gegevens zoeken. Alleen door het onderzoeken van zeer grote hoeveelheden gegevens kunnen nieuwe en onverwachte relaties en correlaties tussen elementen zichtbaar worden. Deze patronen kunnen bijvoorbeeld inzicht geven in de voorkeuren van klanten voor een nieuw product. Je hebt een platform nodig voor het organiseren van je big data om naar deze patronen te zoeken.

Hadoop wordt veel gebruikt als een onderliggende bouwsteen voor het vastleggen en verwerken van big data. Hadoop is ontworpen met functies die de verwerking van big data versnellen en het mogelijk maken om patronen in enorme hoeveelheden gegevens in relatief korte tijd te identificeren. De twee primaire componenten van Hadoop - Hadoop Distributed File System (HDFS) en MapReduce - worden gebruikt voor het beheren en verwerken van uw big data.

FlumeNG voor big data-integratie

Het is vaak nodig om extreem grote hoeveelheden streaminggegevens te verzamelen, samen te voegen en te verplaatsen om verborgen patronen in big data te zoeken. Traditionele integratietools zoals ETL zouden niet snel genoeg zijn om de grote datastromen op tijd te verplaatsen om resultaten voor analyse te leveren, zoals real-time fraudedetectie. FlumeNG laadt gegevens in realtime door uw gegevens naar Hadoop te streamen.

Flume wordt meestal gebruikt om grote hoeveelheden loggegevens van gedistribueerde servers te verzamelen. Het houdt alle fysieke en logische knooppunten in een Flume-installatie bij. Agentknooppunten worden op de servers geïnstalleerd en zijn verantwoordelijk voor het beheer van de manier waarop een enkele gegevensstroom wordt overgedragen en verwerkt van het beginpunt naar het bestemmingspunt.

Daarnaast worden collectors gebruikt om de gegevensstromen te groeperen in grotere streams die kunnen worden weggeschreven naar een Hadoop-bestandssysteem of een andere big data-opslagcontainer. Flume is ontworpen voor schaalbaarheid en kan voortdurend meer bronnen toevoegen aan een systeem om extreem grote hoeveelheden gegevens op een efficiënte manier te verwerken.De output van Flume kan worden geïntegreerd met Hadoop en Hive voor analyse van de gegevens.

Flume heeft ook transformatie-elementen voor gebruik op de gegevens en kan uw Hadoop-infrastructuur omzetten in een streamingbron van ongestructureerde gegevens.

Patronen in big data

U vindt veel voorbeelden van bedrijven die concurrentievoordelen van big data-analyse beginnen te realiseren. Voor veel bedrijven worden datastromen van sociale media steeds meer een integraal onderdeel van een digitale marketingstrategie. In de verkennende fase kan deze technologie worden gebruikt om snel enorme hoeveelheden streaminggegevens te doorzoeken en de trendpatronen te trekken die betrekking hebben op specifieke producten of klanten.

De codificatiefase voor big data

Met honderden winkels en vele duizenden klanten heeft u een herhaalbaar proces nodig om de sprong te maken van patroonidentificatie naar implementatie van nieuwe productselectie en meer gerichte marketing. Nadat u iets interessants heeft gevonden in uw big data-analyse, codificeert u het en maakt het deel uit van uw bedrijfsproces.

Om de relatie tussen uw big data-analyse en uw operationele gegevens te coderen, moet u de gegevens integreren.

Big data-integratie en incorporatiefase

Big data hebben grote invloed op vele aspecten van gegevensbeheer, inclusief data-integratie. Traditioneel was data-integratie gericht op de verplaatsing van gegevens via middleware, inclusief specificaties voor het doorgeven van berichten en vereisten voor API's (Application Programming Interfaces). Deze concepten voor gegevensintegratie zijn meer geschikt voor het beheren van gegevens in rust in plaats van gegevens in beweging.

De overgang naar de nieuwe wereld van ongestructureerde gegevens en streaminggegevens verandert de conventionele notie van gegevensintegratie. Als u uw analyse van streaminggegevens wilt opnemen in uw bedrijfsproces, hebt u geavanceerde technologie nodig die snel genoeg is om u in staat te stellen in realtime beslissingen te nemen.

Nadat uw big data-analyse is voltooid, hebt u een aanpak nodig waarmee u de resultaten van uw big data-analyse kunt integreren in uw bedrijfsproces en real-time zakelijke acties.

Bedrijven hebben hoge verwachtingen van echte bedrijfswaarde uit big data-analyse. Sterker nog, veel bedrijven willen graag een diepere analyse van intern gegenereerde big data, zoals beveiligingsloggegevens, die voorheen niet mogelijk was vanwege technologische beperkingen.

Technologieën voor zeer snel transport van zeer grote en snelle gegevens zijn een vereiste voor de integratie van verspreide big data-bronnen en tussen big data en operationele gegevens. Ongestructureerde gegevensbronnen moeten vaak snel worden verplaatst over grote geografische afstanden voor het delen en samenwerken.

Traditionele bronnen koppelen aan big data is een proces met meerdere fasen nadat u alle gegevens van het streamen van grote gegevensbronnen hebt bekeken en de relevante patronen hebt geïdentificeerd. Na het beperken van de hoeveelheid gegevens die u moet beheren en analyseren, moet u nu nadenken over integratie.