Gegevens correct formatteren - dummies - Persoonlijke financiën 2024

Video: DBAN - Harde schijf wissen zodat geen gegevens kunnen worden teruggevonden 2024

Mensen gebruiken ervaring wanneer zij de gegevens interpreteren die zij zien, maar computers niet. Uw datamining-software zal zijn best doen om het soort gegevens in elke kolom te identificeren, maar gegevenstypen zijn vaak dubbelzinnig.

Wanneer u een lijst met ZIP-codes ziet, probeert u ze niet toe te voegen en af te trekken. Je weet dat ze plaatsen vertegenwoordigen. U begrijpt dit omdat u veel ervaring hebt met het bekijken en herkennen van ZIP Codes. Een computer kan een postcode interpreteren als een integer of continue meting. Uiteindelijk is het aan jou om het juiste formaat te definiëren.

Functies voor het instellen van gegevensindelingen en rollen (zoals het aanduiden van de afhankelijke variabele voor modellering) kunnen op verschillende plaatsen in uw datamining-applicatie worden begraven. U kunt de indelingen en de rol van variabelen in een gegevensbestand definiëren voordat u zelfs een dataminingtoepassing opent (de native gegevensindelingen voor Orange en Weka staan dit toe), als onderdeel van de import of ergens later in het proces.

U hebt hier mogelijk tools voor gebouwd, zoals de tools die in de volgende afbeeldingen worden getoond, of u kunt deze eigenschappen binnen andere procedures definiëren.

Elke datamining-applicatie heeft zijn eigen set variabele types en zijn eigen limieten over hoe elk type kan worden gebruikt. Sommige van deze limieten zijn in theorie gebaseerd. U kunt bijvoorbeeld alleen getallen toevoegen en aftrekken, geen letters. Maar anderen kunnen alleen een kwestie zijn van hoe de applicatie is ontworpen.

U kunt bijvoorbeeld vaststellen dat een bepaald modelleertool in één toepassing u in staat stelt zowel categorische als continue variabelen te voorspellen, maar een vergelijkbaar hulpmiddel in een andere toepassing kan het modelleren van slechts één of de ander mogelijk maken.