Huis Persoonlijke financiën Kloppen uw gegevens? - dummies

Kloppen uw gegevens? - dummies

Inhoudsopgave:

Video: Online aanvraag: Verblijfsdocument beschadigd of verkeerde informatie 2024

Video: Online aanvraag: Verblijfsdocument beschadigd of verkeerde informatie 2024
Anonim

De meeste datasets bevatten een soort van metadata, wat in wezen een beschrijving is van de gegevens in de het dossier. Metagegevens bevatten meestal beschrijvingen van de indelingen, een indicatie van welke waarden in elk gegevensveld gelden en wat deze waarden betekenen.

Als u te maken krijgt met een nieuwe gegevensset, neem de metadata dan nooit voor nominale waarde. De aard van big data vereist dat de systemen die het genereren, zo veel mogelijk worden onderhouden. Daarom is het bijwerken van de metadata voor deze systemen bij het implementeren van wijzigingen niet altijd een topprioriteit. U moet bevestigen dat de gegevens echt zijn zoals de metagegevens beweren.

Uw bronnen controleren

Hoe vanzelfsprekend het ook klinkt, het is belangrijk dat u vertrouwen hebt in waar uw gegevens vandaan komen. Dit is vooral belangrijk wanneer u gegevens koopt. Duizenden verkopers bieden alle denkbare gegevens. En ze zijn niet allemaal even geloofwaardig.

Probeer voordat u gegevens koopt precies te begrijpen waar en hoe de leverancier deze verzamelt. Mysteriousness en vaagheid zijn rode vlaggen.

Neem geen verkopers op hun woord. Vertrouw niet uitsluitend op klanttevredenheidsposten op de website of op klantreferenties die door de leverancier worden verstrekt. Probeer indien mogelijk iemand op te sporen die de gegevens gebruikt of heeft gebruikt.

Als uw gegevens afkomstig zijn van interne systemen, is het nog steeds belangrijk om de bronnen te evalueren. Verschillende systemen hebben verschillende doeleinden en zijn daarom gericht op verschillende gegevens. Ze kunnen ook op verschillende tijdstippen gegevens verzamelen.

Het is bijvoorbeeld niet ongebruikelijk dat sommige hotelketens reserveringen boeken in een ander systeem dan dat ze gebruiken bij de receptie wanneer de gast incheckt. Het is mogelijk dat de gast deze ontvangt een kortingaanbieding tussen boeking en check-in. Dit betekent dat de kamerprijs in het reserveringssysteem mogelijk niet overeenkomt met het tarief in het systeem van de receptie. Bovendien kan de reservering worden geannuleerd en nooit bij de receptie komen!

Stel nu dat u een analyse van hotelinkomsten per stad uitvoert. Het is nogal belangrijk dat u weet dat uw kamerprijsgegevens afkomstig zijn van het systeem van de receptie in plaats van het reserveringssysteem. Maar wat als u probeert te analyseren hoeveel reserveringen zijn gegenereerd door de Super Bowl-commercial van uw bedrijf? In dit geval wilt u gegevens van het reserveringssysteem zien.

Het hotelvoorbeeld illustreert dat zelfs intrinsiek schone gegevens problematisch kunnen zijn. Zelfs als de gegevens kloppen en precies zijn wat het beweert te zijn, kan timing een probleem zijn.Gegevens veranderen in de loop van de tijd.

Controleren op indelingen

Zoals eerder in dit hoofdstuk is vermeld, is een van de dingen die uw metagegevens voor u zullen verschaffen enige indicatie van hoe de gegevens zijn opgemaakt. Met opgemaakt, bedoelen we hoe elk specifiek gegevenselement eruitziet. Is "Productcode" een teken of cijfer? Is "Startdatum" een datum of is het echt een datumstempel?

Datatypen zijn belangrijk in statistische analyse omdat ze bepalen welke statistieken en statistische procedures kunnen worden toegepast op welke gegevenselementen. Als u de gemiddelde waarde van een tekenveld als 'Voornaam' probeert te nemen, krijgt u elke keer een foutmelding.

Dit type metadata is meestal behoorlijk nauwkeurig. Het wordt over het algemeen opgeslagen door het systeem dat de gegevens bevat en kan automatisch worden gegenereerd. Het verifiëren van de formaten is over het algemeen vrij eenvoudig. Een dergelijke verificatie is in wezen een bijproduct van de validatie van gegevensreeksen die in de volgende sectie worden besproken. Maar er zijn gevallen waarin het een beetje moeilijker kan zijn.

We hebben zo'n scenario vaker gezien dan we ons kunnen herinneren. Het gebeurt soms dat wanneer een systeem voor het eerst wordt ontworpen, het ontwikkelteam enige flexibiliteit in de gegevensstructuren probeert te plaatsen om toekomstige uitbreidingen mogelijk te maken. Soms voegen ze gewoon een aantal lege (en brede) alfanumerieke gegevenskolommen toe aan het einde van elk record. Deze hulppijlen worden aanvankelijk nergens voor gebruikt.

Analisten zullen zich altijd vergissen aan de kant van het vragen om meer gegevens in plaats van minder - vaak alle gegevens in plaats van sommige. Dit gegeven, gecombineerd met de noodzaak om de gegevens snel te verkrijgen, resulteert soms in een gegevensdump van . Deze dump bevat over het algemeen de hulppijlen. In deze gevallen vertelt de metagegevens u iets als "Velden 1-11" zijn opgemaakt als "200 alfanumerieke tekens. "

Dergelijke informatie is praktisch nutteloos. Om een ​​gegevensveld als dit te begrijpen, moet je vrijwel je handen vies maken. Je kunt niet veel doen, behalve een paar tientallen records doorlopen en proberen een goed onderbouwde schatting te maken van wat er in het veld is. In de meeste gevallen zijn deze velden meestal leeg. Maar niet altijd. Het goede nieuws is dat als het veld daadwerkelijk wordt gebruikt, je ergens een programmeur moet kunnen vinden die weet waarvoor het wordt gebruikt.

Typecasting van uw gegevens

Een van de meest kritieke stappen bij het uitvoeren van een statistische analyse is ervoor zorgen dat uw gegevens zijn zoals ze zijn. Statistische procedures zullen onveranderlijk crashen als u hen geen geldige informatie over gegevensformaten verstrekt. Maar deze procedures zijn grotendeels blind voor problemen met de geldigheid van de gegevens.

Het is niet genoeg om te begrijpen hoe een gegevensveld wordt geformatteerd. Voordat u een gegevensset omzet in een statistische procedure, moet u weten wat de gegevens eigenlijk zijn in elk van de velden die u gebruikt.

De meeste gegevens vallen in een van de vier categorieën: nominaal, ordinaal, interval en ratio.Het gegevenstype bepaalt welk soort statistieken en statistische procedures kunnen worden toegepast op bepaalde gegevensvelden. U kunt bijvoorbeeld niet een gemiddelde van een veld als 'Achternaam' nemen.

Verwarrende gegevenstypen met gegevensindelingen zijn eenvoudig (en veel te vaak). Als u weet of een gegevensveld een teken, geheel getal of continu is, wordt het gegevenstype niet vermeld.

Tekenvelden worden soms gebruikt als tijdelijke aanduiding voor gegevens die in toekomstige releases van een systeem kunnen worden vastgelegd. Niets verhindert dat een dergelijk veld wordt gebruikt om monetaire of andere numerieke gegevens vast te leggen.

De meest voorkomende gegevenstypefout betreft het aannemen dat een numeriek veld, in het bijzonder een geheel getal met een waarde, feitelijk numerieke rangorde gegevens bevat. Het is heel gewoon voor bedrijven om numerieke codes ( nominale gegevens) te gebruiken om producten, regio's, winkels en verschillende andere entiteiten te vertegenwoordigen.

Vluchtcodes van luchtvaartmaatschappijen zijn hiervan een voorbeeld. Censusregio's zijn een andere. Zelfs creditcardnummers en burgerservicenummers worden meestal opgeslagen als gehele getallen. Maar al deze entiteiten zijn slechts identifiers. Het zijn nominale variabelen. Het gemiddelde creditcardnummer in de portefeuille van een bank is een betekenisloze statistiek.

Kloppen uw gegevens? - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...