Het maken van beheersbare big-datastructuren - dummies

Terwijl computers naar de commerciële markt verhuisden, werden gegevens opgeslagen in platte bestanden die geen structuur oplegden. Tegenwoordig vereisen big data beheersbare datastructuren. Wanneer bedrijven een niveau van gedetailleerd inzicht in klanten nodig hadden, moesten ze brute-force-methoden toepassen, inclusief zeer gedetailleerde programmeermodellen om waarde te creëren.

Later in de jaren zeventig veranderde de situatie met de uitvinding van het relationele gegevensmodel en het relationele databasebeheersysteem (RDBMS) dat structuur oplegde en een methode om de prestaties te verbeteren. Het belangrijkste is dat het relationele model een niveau van abstractie toevoegt, zodat programmeurs gemakkelijker kunnen voldoen aan de groeiende zakelijke eisen om waarde uit gegevens te halen.

Het relationele model bood een ecosysteem van hulpmiddelen van een groot aantal opkomende softwarebedrijven. Het vulde een groeiende behoefte om bedrijven te helpen hun gegevens beter te organiseren en transacties van de ene geografie naar de andere te kunnen vergelijken.

Daarnaast heeft het bedrijf managers geholpen die informatie, zoals inventaris, wilden kunnen bekijken en vergelijken met klantorderinformatie voor besluitvormingsdoeleinden. Maar er kwam een probleem uit deze exploderende vraag naar antwoorden: het opslaan van dit groeiende volume aan gegevens was duur en de toegang ertoe was traag. Om het nog erger te maken, bestond er veel gegevensduplicatie en was de werkelijke bedrijfswaarde van die gegevens moeilijk te meten.

Toen de hoeveelheid gegevens die organisaties moesten beheren, uit de hand liep, bood het datawarehouse een oplossing. Het datawarehouse stelde de IT-organisatie in staat om een subset van de gegevens die worden opgeslagen te selecteren, zodat het voor het bedrijf eenvoudiger zou zijn om inzichten te verkrijgen.

Het datawarehouse was bedoeld om bedrijven te helpen omgaan met steeds grotere hoeveelheden gestructureerde gegevens die ze nodig hadden om te kunnen analyseren door het volume van de gegevens terug te brengen tot iets kleiner en meer gericht op een bepaald deel van het bedrijf. Het voldeed aan de noodzaak om operationele beslissingsondersteunende verwerking en beslissingsondersteuning te scheiden - om prestatieredenen.

Magazijnen slaan vaak gegevens uit eerdere jaren op om de prestaties van de organisatie te begrijpen, trends te identificeren en gedragspatronen bloot te leggen. Het leverde ook een geïntegreerde bron van informatie uit verschillende databronnen die voor analyse kon worden gebruikt. Tegenwoordig kunnen zowel content management systemen als datawarehouses profiteren van verbeteringen in de schaalbaarheid van hardware, virtualisatietechnologieën en de mogelijkheid om geïntegreerde hardware- en softwaresystemen te creëren.

Soms waren deze data warehouses zelf te complex en groot en hadden ze niet de snelheid en wendbaarheid die het bedrijf vereiste. Het antwoord was een verdere verfijning van de gegevens die via datamarts werden beheerd. Deze datamarts waren gericht op specifieke zakelijke problemen en ondersteunden de zakelijke behoefte aan snelle zoekopdrachten. Het magazijn is geëvolueerd om opkomende technologieën zoals geïntegreerde systemen en datatoestellen te ondersteunen.

Datawarehouses en datamarts loste veel problemen op voor bedrijven die een consistente manier nodig hebben om enorme transactiegegevens te beheren. Maar als het ging om het beheren van grote hoeveelheden ongestructureerde of semi-gestructureerde gegevens, kon het magazijn niet voldoende evolueren om aan veranderende eisen te voldoen.

Om het allemaal nog ingewikkelder te maken, worden datawarehouses meestal batchgewijs gevoed, meestal wekelijks of dagelijks. Dit is prima voor planning, financiële rapportage en traditionele marketingcampagnes, maar is te traag voor steeds realtime zakelijke en consumentenomgevingen.

Hoe zouden bedrijven hun traditionele databeheeraanpak kunnen omvormen om het groeiende volume aan ongestructureerde gegevenselementen aan te kunnen? De oplossing kwam niet van de ene op de andere dag op. Terwijl bedrijven begonnen met het opslaan van ongestructureerde gegevens, begonnen leveranciers functies toe te voegen zoals BLOB's (binaire grote objecten).

In wezen zou een ongestructureerd gegevenselement worden opgeslagen in een relationele database als een aangrenzend stuk gegevens. Dit object kan worden gelabeld, maar je kunt niet zien wat zich in dat object bevond. Dit was duidelijk niet bedoeld om veranderende klant- of bedrijfsbehoeften op te lossen.

Voer het objectdatabasemanagementsysteem (ODBMS) in. De objectendatabase bewaarde de BLOB als een adresseerbare set stukjes zodat je kon zien wat erin zat. Anders dan de BLOB, die een onafhankelijke eenheid was die was toegevoegd aan een traditionele relationele database, bood de objectdatabase een uniforme aanpak voor het omgaan met ongestructureerde gegevens.

Objectdatabases bevatten een programmeertaal en een structuur voor de gegevenselementen, zodat het eenvoudiger is om verschillende gegevensobjecten te manipuleren zonder programmeren en complexe joins. De objectdatabases introduceerden een nieuw innovatieniveau dat heeft bijgedragen aan de tweede golf van gegevensbeheer.