Ongestructureerde gegevens in een Big Data-omgeving - dummies

Ongestructureerde gegevens zijn gegevens die geen specifiek formaat voor big data bevatten. Als 20 procent van de gegevens die beschikbaar zijn voor ondernemingen gestructureerde gegevens zijn, is de overige 80 procent ongestructureerd. Ongestructureerde data zijn eigenlijk de meeste data die je tegenkomt. Tot voor kort ondersteunde de technologie echter niet echt veel, behalve het opslaan of handmatig analyseren.

Bronnen van ongestructureerde big data

Ongestructureerde gegevens zijn overal. In feite, de meeste individuen en organisaties hun leven rond ongestructureerde gegevens. Net als bij gestructureerde gegevens, worden ongestructureerde gegevens door de computer gegenereerd of door mensen gegenereerd.

Hier volgen enkele voorbeelden van door de machine gegenereerde ongestructureerde gegevens:

Satellietafbeeldingen: Dit omvat weergegevens of de gegevens die de overheid vastlegt in de beelden van satellietsurveillance. Denk maar aan Google Earth en je krijgt de foto.
Wetenschappelijke gegevens: Dit omvat seismische beelden, atmosferische gegevens en hoogenergetische fysica.
Foto's en video: Dit omvat beveiliging, bewaking en verkeersvideo.
Radar- of sonarmegevens: Dit omvat voertuig-, meteorologische en oceanografische seismische profielen.

De volgende lijst toont enkele voorbeelden van door de mens gegenereerde ongestructureerde gegevens:

Tekst intern voor uw bedrijf: Denk aan alle tekst in documenten, logboeken, enquêteresultaten en e-mails. Enterprise-informatie vertegenwoordigt tegenwoordig een groot percentage van de tekstinformatie in de wereld.
Sociale mediadata: Deze gegevens worden gegenereerd op basis van de sociale mediaplatforms zoals YouTube, Facebook, Twitter, LinkedIn en Flickr.
Mobiele gegevens: Dit omvat gegevens zoals tekstberichten en locatie-informatie.
website-inhoud: Dit komt van elke site die ongestructureerde inhoud levert, zoals YouTube, Flickr of Instagram.

En de lijst gaat maar door.

Sommige mensen denken dat de term ongestructureerde gegevens misleidend is, omdat elk document zijn eigen specifieke structuur of opmaak kan bevatten op basis van de software die het heeft gemaakt. Wat echter intern is aan het document, is echt ongestructureerd.

Verreweg, ongestructureerde data is het grootste deel van de data-vergelijking, en de use cases voor ongestructureerde data breiden zich snel uit. Alleen al aan de tekstkant kunnen tekstanalyses worden gebruikt om ongestructureerde tekst te analyseren en relevante gegevens te extraheren en die gegevens om te zetten in gestructureerde informatie die op verschillende manieren kan worden gebruikt.

Een populaire case voor big data-gebruik is bijvoorbeeld analyse van sociale media voor gebruik bij gesprekken met grote volumes klanten. Daarnaast worden ongestructureerde gegevens uit callcenternotities, e-mails, schriftelijke opmerkingen in een enquête en andere documenten geanalyseerd om het gedrag van klanten te begrijpen. Dit kan worden gecombineerd met sociale media van tientallen miljoenen bronnen om de klantervaring te begrijpen.

De rol van een CMS in big data management

Organisaties slaan enkele ongestructureerde gegevens op in databases. Ze maken echter ook gebruik van enterprise content management-systemen (CMS's) die de volledige levenscyclus van content kunnen beheren. Dit kan webinhoud, documentinhoud en andere vormenmedia omvatten.

Volgens de Association for Information and Image Management (AIIM), een non-profitorganisatie die educatie, onderzoek en best practices levert, omvat Enterprise Content Management (ECM) de "strategieën, methoden en hulpmiddelen voor het verzamelen, beheren, beheren inhoud en documenten opslaan, bewaren en afleveren met betrekking tot organisatieprocessen. "De technologieën in ECM omvatten documentbeheer, records management, imaging, workflow management, web content management en samenwerking.

Er is een hele industrie gegroeid rond het beheren van content en veel verkopers van contentmanagement schalen hun oplossingen uit om grote hoeveelheden ongestructureerde data te verwerken. Nieuwe technologieën evolueren echter ook om ongestructureerde gegevens te ondersteunen en om ongestructureerde gegevens te analyseren. Sommige hiervan ondersteunen zowel gestructureerde als ongestructureerde gegevens. Sommigen ondersteunen real-time streams. Deze omvatten technologieën zoals Hadoop, MapReduce en streaming.

Systemen die zijn ontworpen om inhoud op te slaan in de vorm van inhoudbeheersystemen zijn niet langer op zichzelf staande oplossingen. In plaats daarvan zullen ze waarschijnlijk deel uitmaken van een algehele oplossing voor gegevensbeheer. Uw organisatie kan bijvoorbeeld Twitter-feeds volgen die vervolgens een CMS-zoekopdracht programmatisch kunnen activeren.

Nu krijgt de persoon die de tweet heeft geactiveerd een antwoord terug dat een locatie biedt waar het individu het product kan vinden waarnaar hij of zij op zoek is. Het grootste voordeel is wanneer dit type interactie in realtime kan plaatsvinden. Het illustreert ook de waarde van het gebruik van real-time ongestructureerde, gestructureerde (klantgegevens over de persoon die tweette) en semi-gestructureerde (de werkelijke inhoud in de CMS) gegevens.

De realiteit is dat u waarschijnlijk een hybride aanpak zult gebruiken om uw problemen met big data op te lossen. Het heeft bijvoorbeeld geen zin om al uw nieuwsinhoud bijvoorbeeld in Hadoop op uw locatie te plaatsen, omdat deze verondersteld wordt ongestructureerde gegevens te beheren.