Prioriteit toekennen aan Big Data Quality - dummies

Video: Why we make bad decisions | Dan Gilbert 2024

Het juiste perspectief krijgen op datakwaliteit kan een hele uitdaging zijn in de wereld van big data. Bij de meeste grote gegevensbronnen moet u ervan uitgaan dat u met gegevens werkt die niet schoon zijn. In feite is de overweldigende hoeveelheid schijnbaar willekeurige en niet-verbonden gegevens in stromen van sociale mediadata een van de dingen die het zo nuttig maken voor bedrijven.

U begint met het doorzoeken van petabytes aan gegevens zonder te weten wat u kunt vinden nadat u op zoek bent gegaan naar patronen in de gegevens. U moet accepteren dat er veel ruis in de gegevens zal voorkomen. Het is alleen door zoeken en patroon-matchen dat je enkele vonken van waarheid zult kunnen vinden temidden van een aantal erg vuile gegevens.

Natuurlijk hebben sommige big data-bronnen, zoals data van RFID-tags of sensoren, beter vastgestelde regels dan sociale media-gegevens. Sensorgegevens moeten redelijk schoon zijn, hoewel u wellicht enkele fouten zult verwachten. Het is altijd uw verantwoordelijkheid bij het analyseren van enorme hoeveelheden gegevens om het kwaliteitsniveau van die gegevens te plannen. U moet een tweefasige benadering van gegevenskwaliteit volgen:

Fase 1 : Zoek naar patronen in big data zonder rekening te houden met de gegevenskwaliteit.

Fase 2: Nadat u uw patronen hebt gevonden en resultaten hebt vastgelegd die belangrijk zijn voor het bedrijf, past u dezelfde gegevenskwaliteitsnormen toe die u toepast op uw traditionele gegevensbronnen. U wilt voorkomen dat big data wordt verzameld en beheerd die niet belangrijk is voor het bedrijf en mogelijk andere gegevenselementen in Hadoop of andere big data-platforms zou kunnen beschadigen.

Terwijl u begint de resultaten van uw big data-analyse in uw bedrijfsproces te integreren, moet u erkennen dat gegevens van hoge kwaliteit essentieel zijn voor een bedrijf om goede zakelijke beslissingen te nemen. Dit geldt voor zowel big data als traditionele data.

De kwaliteit van gegevens heeft betrekking op kenmerken van de gegevens, waaronder consistentie, nauwkeurigheid, betrouwbaarheid, volledigheid, tijdigheid, redelijkheid en geldigheid. Datakwaliteitsoftware zorgt ervoor dat gegevenselementen op dezelfde manier worden weergegeven in verschillende datastores of systemen om de consistentie van de gegevens te vergroten.

Eén gegevensarchief kan bijvoorbeeld twee regels gebruiken voor het adres van een klant en een andere gegevensopslag kan één regel gebruiken. Dit verschil in de manier waarop de gegevens worden weergegeven, kan leiden tot onnauwkeurige informatie over klanten, zoals dat één klant wordt geïdentificeerd als twee verschillende klanten.

Een bedrijf kan tientallen varianten van de bedrijfsnaam gebruiken wanneer het producten koopt.Data kwaliteitssoftware kan worden gebruikt om alle variaties van de bedrijfsnaam in uw verschillende datastores te identificeren en ervoor te zorgen dat u alles weet wat deze klant van uw bedrijf koopt.

Dit proces wordt genoemd en biedt één weergave van klant of product. Software voor gegevenskwaliteit vergelijkt gegevens op verschillende systemen en ruimt overtollige gegevens op of verwijdert deze. Het proces voor gegevenskwaliteit biedt het bedrijf informatie die gemakkelijker te gebruiken, te interpreteren en te begrijpen is.

Hulpprogramma's voor gegevensprofilering worden gebruikt in het proces voor gegevenskwaliteit om u te helpen de inhoud, structuur en toestand van uw gegevens te begrijpen. Ze verzamelen informatie over de kenmerken van de gegevens in een database of andere gegevensopslag om het proces van het omzetten van de gegevens in een meer vertrouwde vorm te starten. De tools analyseren de gegevens om fouten en inconsistenties te identificeren.

Ze kunnen aanpassingen maken voor deze problemen en fouten corrigeren. De hulpprogramma's controleren op acceptabele waarden, patronen en bereiken en helpen overlappende gegevens te identificeren. Het proces voor gegevensprofilering controleert bijvoorbeeld of de gegevens naar verwachting alfa- of numeriek zijn. De hulpprogramma's controleren ook op afhankelijkheden of om te zien hoe de gegevens zich verhouden tot gegevens uit andere databases.

Hulpprogramma's voor gegevensprofilering voor big data hebben een vergelijkbare functie als hulpprogramma's voor gegevensprofilering voor traditionele gegevens. Data-profileringstools voor Hadoop zullen u belangrijke informatie verschaffen over de gegevens in Hadoop-clusters. Deze tools kunnen worden gebruikt om overeenkomsten te zoeken en duplicaten te verwijderen. Als gevolg hiervan kunt u ervoor zorgen dat uw big data consistent is. Hadoop-tools zoals HiveQL en Pig Latin kunnen worden gebruikt voor het transformatieproces.