Video: SCAMMED - Award winning student short film 2024
Datamining stelt zeer strenge eisen aan de gegevensorganisatie. Het zijn geen exotische, complexe of moeilijke vereisten om elkaar te ontmoeten, maar ze zijn streng. De afbeelding toont een voorbeeld van gegevens die als een tabel in datamining-software worden bekeken.
Elke rij vertegenwoordigt één perceel onroerend goed. Informatie over de percelen van onroerend goed is georganiseerd in kolommen. De eerste kolom bevat het belastingidentificatienummer (TAXKEY), de tweede kolom bevat de geschatte waarde van de grond van een eerdere beoordeling (P_A_LAND), enzovoort.
Elke vermelding in een rij heeft betrekking op een bepaald perceel. Elke vermelding in een kolom is hetzelfde type informatie. Geen rijen of kolommen worden leeg gelaten om redenen die te maken hebben met stijl en leesbaarheid. Deze gegevens zijn goed georganiseerd om verschillen tussen de percelen onroerend goed te onderzoeken.
Als u in plaats van onroerend goed mensen onderzoekt, wordt elke persoon weergegeven met één rij in de gegevens en alle details over de mensen worden in kolommen ingedeeld. Als u röntgenfoto's op de borst onderzoekt, wordt elke röntgenfoto van de borstkas vertegenwoordigd door één rij in de gegevens en alle details over de röntgenfoto's op de borstkas zijn in kolommen ingedeeld.
In terminologie voor gegevensanalyse worden de dingen die u bestudeert - de dingen in de rijen - cases of records genoemd. En de details ervan, die in de kolommen staan, worden variabelen genoemd. U zult ook de kolommen genaamd velden, horen, vooral in de context van databases.
Data mining vereist dus gegevens die zijn georganiseerd met een enkele rij voor elk geval en een enkele kolom voor elke variabele. Veel gegevensbronnen zijn al op deze manier georganiseerd. Statistici organiseren gegevens op deze manier per gewoonte. Databaseprofessionals mogen deze benadering voor veel van hun werk niet gebruiken, maar ze zullen meestal begrijpen wat u wilt als u het een platte tabel voor noemt.
U zult subtiele variaties in de gegevensstructuur vinden. Sommige typen software gebruiken beschrijvende informatie in een kop vóór de gegevens, zoals bepaalde speciale indelingen die zijn gekoppeld aan de dataminingtoepassingen van Orange en Weka. Sommige complexe analytische procedures hebben aanvullende of enigszins gevarieerde vereisten (deze zijn vrij ongebruikelijk). Maar de kern van de gegevens bevat nog steeds de cases in rijen en variabelen in kolommen.