Video: Deb Roy: The birth of a word 2024
Deel van Big Data For Dummies Cheat-sheet
Ongestructureerde gegevens zijn anders dan gestructureerde gegevens omdat de structuur is onvoorspelbaar. Voorbeelden van ongestructureerde gegevens zijn documenten, e-mails, blogs, digitale afbeeldingen, video's en satellietbeelden. Het bevat ook enkele gegevens die zijn gegenereerd door machines of sensoren. In feite zijn ongestructureerde gegevens verantwoordelijk voor het merendeel van de gegevens die zich op het bedrijfsterrein van uw bedrijf bevinden, evenals extern van uw bedrijf in online privé- en openbare bronnen zoals Twitter en Facebook.
In het verleden waren de meeste bedrijven niet in staat om deze enorme hoeveelheid gegevens vast te leggen of op te slaan. Het was gewoon te duur of te overweldigend. Zelfs als bedrijven de gegevens konden vastleggen, beschikten ze niet over de tools om de gegevens eenvoudig te analyseren en de resultaten te gebruiken om beslissingen te nemen. Zeer weinig tools kunnen deze enorme hoeveelheden gegevens bevatten. De gereedschappen die bestonden waren complex in gebruik en leverden geen resultaten op binnen een redelijk tijdsbestek.
Uiteindelijk werden degenen die echt de enorme inspanning wilden doen om deze gegevens te analyseren gedwongen om met snapshots van gegevens te werken. Dit heeft het ongewenste effect dat belangrijke gebeurtenissen ontbreken omdat ze zich niet in een bepaalde momentopname bevonden.
Eén benadering die steeds meer wordt gewaardeerd als een manier om bedrijfswaarde uit ongestructureerde gegevens te halen, is tekstanalyse, het analyseren van ongestructureerde tekst, het extraheren van relevante informatie en het omzetten in gestructureerde informatie die vervolgens kan worden op verschillende manieren worden benut. De analyse- en extractieprocessen profiteren van technieken die hun oorsprong vinden in computationele taalkunde, statistiek en andere informatica-disciplines.