Inhoudsopgave:
- Taak: gegevens selecteren
- Taak: gegevens opschonen
- Taak: gegevens construeren
- Taak: gegevens integreren
- Taak: gegevens opmaken
Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2024
Datamijpers spenderen het grootste deel van hun tijd aan de derde fase van het proces voor cross-industriestandaardproces voor datamining (CRISP-DM): gegevensvoorbereiding. De meeste gegevens die voor datamining worden gebruikt, zijn oorspronkelijk verzameld en bewaard voor andere doeleinden en moeten nog worden verfijnd voordat deze klaar is om te gebruiken voor modellering.
De fase voor gegevensvoorbereiding omvat vijf taken . Dit zijn
-
Gegevens selecteren
-
Gegevens opschonen
-
Gegevens construeren
-
Gegevens integreren
-
Gegevens opmaken
De stapsgewijze handleiding CRISP-DM vermeldt gegevenssets niet expliciet als deliverables voor elk van de data voorbereidingstaken, maar die datasets waren verdomd goed beter bestaand en goed gearchiveerd en gedocumenteerd. Datasets corresponderen niet één-op-één met taken, maar informatie over de gebruikte gegevens moet in elk rapport worden opgenomen.
Taak: gegevens selecteren
Nu bepaalt u welk deel van de gegevens die u gebruikt daadwerkelijk voor datamining wordt gebruikt.
Het resultaat voor deze taak is de reden voor opname en uitsluiting. Hierin legt u uit welke gegevens wel en niet zullen worden gebruikt voor verdere gegevensmining.
U legt de redenen uit voor het opnemen of uitsluiten van elk deel van de gegevens dat u heeft, op basis van relevantie voor uw doelen, gegevenskwaliteit en technische problemen - zoals limieten voor het aantal velden of rijen dat uw hulpprogramma's kunnen bevatten of de geschiktheid van de gegevensformaten voor uw behoeften.
Taak: gegevens opschonen
De gegevens die u hebt gekozen, zullen waarschijnlijk niet perfect schoon zijn (foutloos). U zult wijzigingen aanbrengen, misschien bronnen opsporen om specifieke gegevenscorrecties aan te brengen, enkele gevallen of afzonderlijke cellen (gegevensitems) uit te sluiten, of sommige gegevensitems te vervangen door standaardwaarden of vervangingen geselecteerd door een meer geavanceerde modelleringstechniek. U kunt ervoor kiezen om alleen subsets van de gegevens te gebruiken voor alle of sommige van uw dataminingwerk.
Het resultaat voor deze taak is het rapport voor het opschonen van gegevens, waarin ondubbelzinnig gedetailleerd alle beslissingen en acties worden vastgelegd die worden gebruikt om uw gegevens op te schonen. Dit rapport moet elk probleem met de gegevenskwaliteit dat is geïdentificeerd in de kwaliteitskwantentaken verifiëren in de gegevensverwerkingsfase van het proces behandelen. In uw rapportage moet ook worden ingegaan op de potentiële impact op de resultaten van de keuzes die u hebt gemaakt tijdens het opschonen van gegevens.
Taak: gegevens construeren
Mogelijk moet u een aantal nieuwe velden afleiden (gebruik bijvoorbeeld de leverdatum en de datum waarop een klant een bestelling plaatste om te berekenen hoe lang de klant had gewacht om een bestelling te ontvangen), verzamelde gegevens, of anders een nieuwe vorm van gegevens maken.
Deliverables voor deze taak bevatten twee rapporten:
-
Afgeleide kenmerken: Een rapport dat beschrijft welke nieuwe velden (kolommen) u hebt geconstrueerd, hoe u het hebt gedaan en waarom.
-
Gegenereerde records: Een rapport dat beschrijft welke nieuwe casussen (rijen) u hebt geconstrueerd, hoe u het hebt gedaan en waarom.
Hoewel de samenvoeggegevens- en indelingsgegevenstaken het laatst worden vermeld in deze fase van het proces, komen ze niet altijd als laatste en komen ze mogelijk niet één keer omhoog. Mogelijk moet u al vroeg in de fase voor gegevensvoorbereiding samenvoegen of opnieuw formatteren.
Taak: gegevens integreren
Uw gegevens kunnen zich nu in verschillende gegevenssets bevinden. U moet een aantal of al die ongelijksoortige gegevenssets samenvoegen om klaar te zijn voor de modelleringsfase.
Het resultaat voor deze taak zijn de samengevoegde gegevens. (En het zou geen kwaad om te documenteren hoe de samenvoeging werd uitgevoerd.)
Taak: gegevens opmaken
Gegevens komen vaak naar u toe in andere indelingen dan diegene die het meest geschikt zijn voor modellering. (Wijzigingen in het formaat worden meestal bepaald door het ontwerp van uw gereedschappen.) Converteer die indelingen nu.
Het resultaat voor deze taak zijn uw opnieuw ingedeelde gegevens. (En een klein rapport dat de veranderingen beschrijft die u hebt gemaakt, zou slim zijn om op te nemen.)
U moet de gegevensvoorbereidingsfase van het dataminingproces beëindigen met een dataset die klaar is om te modelleren en een grondig rapport dat de dataset beschrijft.