Huis Persoonlijke financiën Prioriteit toekennen aan Big Data Quality - dummies

Prioriteit toekennen aan Big Data Quality - dummies

Video: Why we make bad decisions | Dan Gilbert 2024

Video: Why we make bad decisions | Dan Gilbert 2024
Anonim

Het juiste perspectief krijgen op datakwaliteit kan een hele uitdaging zijn in de wereld van big data. Bij de meeste grote gegevensbronnen moet u ervan uitgaan dat u met gegevens werkt die niet schoon zijn. In feite is de overweldigende hoeveelheid schijnbaar willekeurige en niet-verbonden gegevens in stromen van sociale mediadata een van de dingen die het zo nuttig maken voor bedrijven.

U begint met het doorzoeken van petabytes aan gegevens zonder te weten wat u kunt vinden nadat u op zoek bent gegaan naar patronen in de gegevens. U moet accepteren dat er veel ruis in de gegevens zal voorkomen. Het is alleen door zoeken en patroon-matchen dat je enkele vonken van waarheid zult kunnen vinden temidden van een aantal erg vuile gegevens.

Natuurlijk hebben sommige big data-bronnen, zoals data van RFID-tags of sensoren, beter vastgestelde regels dan sociale media-gegevens. Sensorgegevens moeten redelijk schoon zijn, hoewel u wellicht enkele fouten zult verwachten. Het is altijd uw verantwoordelijkheid bij het analyseren van enorme hoeveelheden gegevens om het kwaliteitsniveau van die gegevens te plannen. U moet een tweefasige benadering van gegevenskwaliteit volgen:

Fase 1 : Zoek naar patronen in big data zonder rekening te houden met de gegevenskwaliteit.

Fase 2: Nadat u uw patronen hebt gevonden en resultaten hebt vastgelegd die belangrijk zijn voor het bedrijf, past u dezelfde gegevenskwaliteitsnormen toe die u toepast op uw traditionele gegevensbronnen. U wilt voorkomen dat big data wordt verzameld en beheerd die niet belangrijk is voor het bedrijf en mogelijk andere gegevenselementen in Hadoop of andere big data-platforms zou kunnen beschadigen.

Terwijl u begint de resultaten van uw big data-analyse in uw bedrijfsproces te integreren, moet u erkennen dat gegevens van hoge kwaliteit essentieel zijn voor een bedrijf om goede zakelijke beslissingen te nemen. Dit geldt voor zowel big data als traditionele data.

De kwaliteit van gegevens heeft betrekking op kenmerken van de gegevens, waaronder consistentie, nauwkeurigheid, betrouwbaarheid, volledigheid, tijdigheid, redelijkheid en geldigheid. Datakwaliteitsoftware zorgt ervoor dat gegevenselementen op dezelfde manier worden weergegeven in verschillende datastores of systemen om de consistentie van de gegevens te vergroten.

Eén gegevensarchief kan bijvoorbeeld twee regels gebruiken voor het adres van een klant en een andere gegevensopslag kan één regel gebruiken. Dit verschil in de manier waarop de gegevens worden weergegeven, kan leiden tot onnauwkeurige informatie over klanten, zoals dat één klant wordt geïdentificeerd als twee verschillende klanten.

Een bedrijf kan tientallen varianten van de bedrijfsnaam gebruiken wanneer het producten koopt.Data kwaliteitssoftware kan worden gebruikt om alle variaties van de bedrijfsnaam in uw verschillende datastores te identificeren en ervoor te zorgen dat u alles weet wat deze klant van uw bedrijf koopt.

Dit proces wordt genoemd en biedt één weergave van klant of product. Software voor gegevenskwaliteit vergelijkt gegevens op verschillende systemen en ruimt overtollige gegevens op of verwijdert deze. Het proces voor gegevenskwaliteit biedt het bedrijf informatie die gemakkelijker te gebruiken, te interpreteren en te begrijpen is.

Hulpprogramma's voor gegevensprofilering worden gebruikt in het proces voor gegevenskwaliteit om u te helpen de inhoud, structuur en toestand van uw gegevens te begrijpen. Ze verzamelen informatie over de kenmerken van de gegevens in een database of andere gegevensopslag om het proces van het omzetten van de gegevens in een meer vertrouwde vorm te starten. De tools analyseren de gegevens om fouten en inconsistenties te identificeren.

Ze kunnen aanpassingen maken voor deze problemen en fouten corrigeren. De hulpprogramma's controleren op acceptabele waarden, patronen en bereiken en helpen overlappende gegevens te identificeren. Het proces voor gegevensprofilering controleert bijvoorbeeld of de gegevens naar verwachting alfa- of numeriek zijn. De hulpprogramma's controleren ook op afhankelijkheden of om te zien hoe de gegevens zich verhouden tot gegevens uit andere databases.

Hulpprogramma's voor gegevensprofilering voor big data hebben een vergelijkbare functie als hulpprogramma's voor gegevensprofilering voor traditionele gegevens. Data-profileringstools voor Hadoop zullen u belangrijke informatie verschaffen over de gegevens in Hadoop-clusters. Deze tools kunnen worden gebruikt om overeenkomsten te zoeken en duplicaten te verwijderen. Als gevolg hiervan kunt u ervoor zorgen dat uw big data consistent is. Hadoop-tools zoals HiveQL en Pig Latin kunnen worden gebruikt voor het transformatieproces.

Prioriteit toekennen aan Big Data Quality - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...