Inhoudsopgave:
Video: Wat is Big Data en hoe haal je er uit wat er in zit: de visie van Smart Information Solutions 2024
De term gestructureerde gegevens verwijst over het algemeen naar gegevens met een gedefinieerde lengte en indeling voor big data. Voorbeelden van gestructureerde gegevens zijn getallen, datums en groepen woorden en cijfers die tekenreeksen worden genoemd. De meeste experts zijn het erover eens dat dit soort gegevens goed is voor ongeveer 20 procent van de gegevens die er zijn. Gestructureerde gegevens zijn de gegevens waarmee u waarschijnlijk bent gewend. Het wordt meestal opgeslagen in een database.
Bronnen van gestructureerde big data
Hoewel dit misschien als een gewoonte lijkt te lijken, krijgen gestructureerde gegevens in werkelijkheid een nieuwe rol in de wereld van big data. De evolutie van technologie biedt nieuwere bronnen van gestructureerde gegevens die worden geproduceerd - vaak in realtime en in grote volumes. De gegevensbronnen zijn onderverdeeld in twee categorieën:
-
Computer- of computer gegenereerd: Door de computer gegenereerde gegevens hebben doorgaans betrekking op gegevens die zonder menselijke tussenkomst door een machine zijn gemaakt.
-
Door de mens gegenereerd: Dit zijn gegevens die mensen, in interactie met computers, leveren.
Sommige experts beweren dat er een derde categorie bestaat die een hybride is tussen machine en mens. Hier zijn we echter bezorgd over de eerste twee categorieën.
Door de machine gegenereerde gestructureerde gegevens kunnen de volgende zijn:
-
sensorgegevens: Voorbeelden omvatten ID-tags voor radiofrequenties, slimme meters, medische apparaten en gegevens van het Global Positioning System. Bedrijven zijn hierin geïnteresseerd voor supply chain management en voorraadbeheersing.
-
webloggegevens: Wanneer servers, toepassingen, netwerken, enz. Werken, vangen ze allerlei gegevens over hun activiteit. Dit kan grote hoeveelheden gegevens opleveren die bijvoorbeeld nuttig kunnen zijn om overeenkomsten op serviceniveau aan te gaan of om beveiligingsinbreuken te voorspellen.
-
POS-verkoopgegevens: Wanneer de kassier de streepjescode van een product dat u koopt veegt, worden alle gegevens die aan het product zijn gekoppeld gegenereerd.
-
Financiële gegevens: Veel financiële systemen zijn nu programmatisch; ze worden beheerd op basis van vooraf gedefinieerde regels die processen automatiseren. Beursgegevens zijn daar een goed voorbeeld van. Het bevat gestructureerde gegevens zoals het bedrijfssymbool en de dollarwaarde. Sommige van deze gegevens worden door de machine gegenereerd en sommige worden door de mens gegenereerd.
Voorbeelden van gestructureerde door de mens gegenereerde gegevens kunnen het volgende omvatten:
-
Invoergegevens: Dit is een gegeven dat een mens in een computer kan invoeren, zoals naam, leeftijd, inkomen, niet-gratis - antwoorden op enquêtes invullen, enzovoort. Deze gegevens kunnen nuttig zijn om basisgedrag van klanten te begrijpen.
-
Klikstreamgegevens: Gegevens worden gegenereerd elke keer dat u op een koppeling op een website klikt. Deze gegevens kunnen worden geanalyseerd om klantgedrag en koopgedrag te bepalen.
-
Aan gaming gerelateerde gegevens: Elke beweging die u in een spel maakt, kan worden opgeslagen. Dit kan handig zijn om te begrijpen hoe eindgebruikers door een spelportfolio gaan.
Samen met miljoenen andere gebruikers die dezelfde informatie indienen, is de grootte astronomisch. Bovendien hebben veel van deze gegevens een realtime component die nuttig kan zijn voor het begrijpen van patronen die het potentieel hebben om uitkomsten te voorspellen.
Waar het op neerkomt, is dat dit soort informatie krachtig kan zijn en voor veel doeleinden kan worden gebruikt.
De rol van relationele databases in big data
Data-persistentie verwijst naar hoe een database versies van zichzelf behoudt bij wijziging. De overgrootvader van persistente gegevensopslag is het relationele databasebeheersysteem . In de kinderschoenenperiode gebruikte de computerindustrie wat nu als primitieve technieken voor gegevenspersistentie wordt beschouwd.
Het relationele model is bedacht door Edgar Codd, een IBM-wetenschapper, in de jaren 1970 en werd gebruikt door IBM, Oracle, Microsoft en anderen. Het is nog steeds in gebruik en speelt een belangrijke rol in de evolutie van big data. Het begrijpen van de relationele database is belangrijk omdat andere soorten databases worden gebruikt met big data.
In een relationeel model worden de gegevens in een tabel opgeslagen. Deze database zou een schema bevatten, dat wil zeggen een structurele weergave van wat er in de database staat. In een relationele database definieert het schema bijvoorbeeld de tabellen, de velden in de tabellen en de relaties tussen de twee.
De gegevens worden opgeslagen in kolommen, één voor elk specifiek kenmerk. De gegevens worden ook opgeslagen in de rij. De eerste tabel slaat productinformatie op; de tweede slaat demografische informatie op. Elk heeft verschillende attributen. Elke tabel kan worden bijgewerkt met nieuwe gegevens en gegevens kunnen worden verwijderd, gelezen en bijgewerkt. Dit wordt vaak bereikt in een relationeel model met behulp van een gestructureerde query-taal (SQL).
Een ander aspect van het relationele model met behulp van SQL is dat tabellen kunnen worden opgevraagd met een gemeenschappelijke sleutel. De gemeenschappelijke sleutel in de tabellen is CustomerID.
U kunt een query indienen om bijvoorbeeld het geslacht te bepalen van klanten die een specifiek product hebben gekocht. Het ziet er ongeveer zo uit:
Selecteer CustomerID, State, Gender, Product from "demographic table", "product table" where Product = XXYY