Huis Persoonlijke financiën Fase 3 van het CRISP-DM-procesmodel: gegevensvoorbereiding - dummies

Fase 3 van het CRISP-DM-procesmodel: gegevensvoorbereiding - dummies

Inhoudsopgave:

Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2024

Video: Il RIASSUNTONE della FASE 3 MARVEL (Doctor Strange, Black Panther, Spider-man) #ILRidoppiatore 2024
Anonim

Datamijpers spenderen het grootste deel van hun tijd aan de derde fase van het proces voor cross-industriestandaardproces voor datamining (CRISP-DM): gegevensvoorbereiding. De meeste gegevens die voor datamining worden gebruikt, zijn oorspronkelijk verzameld en bewaard voor andere doeleinden en moeten nog worden verfijnd voordat deze klaar is om te gebruiken voor modellering.

De fase voor gegevensvoorbereiding omvat vijf taken . Dit zijn

  • Gegevens selecteren

  • Gegevens opschonen

  • Gegevens construeren

  • Gegevens integreren

  • Gegevens opmaken

De stapsgewijze handleiding CRISP-DM vermeldt gegevenssets niet expliciet als deliverables voor elk van de data voorbereidingstaken, maar die datasets waren verdomd goed beter bestaand en goed gearchiveerd en gedocumenteerd. Datasets corresponderen niet één-op-één met taken, maar informatie over de gebruikte gegevens moet in elk rapport worden opgenomen.

Taak: gegevens selecteren

Nu bepaalt u welk deel van de gegevens die u gebruikt daadwerkelijk voor datamining wordt gebruikt.

Het resultaat voor deze taak is de reden voor opname en uitsluiting. Hierin legt u uit welke gegevens wel en niet zullen worden gebruikt voor verdere gegevensmining.

U legt de redenen uit voor het opnemen of uitsluiten van elk deel van de gegevens dat u heeft, op basis van relevantie voor uw doelen, gegevenskwaliteit en technische problemen - zoals limieten voor het aantal velden of rijen dat uw hulpprogramma's kunnen bevatten of de geschiktheid van de gegevensformaten voor uw behoeften.

Taak: gegevens opschonen

De gegevens die u hebt gekozen, zullen waarschijnlijk niet perfect schoon zijn (foutloos). U zult wijzigingen aanbrengen, misschien bronnen opsporen om specifieke gegevenscorrecties aan te brengen, enkele gevallen of afzonderlijke cellen (gegevensitems) uit te sluiten, of sommige gegevensitems te vervangen door standaardwaarden of vervangingen geselecteerd door een meer geavanceerde modelleringstechniek. U kunt ervoor kiezen om alleen subsets van de gegevens te gebruiken voor alle of sommige van uw dataminingwerk.

Het resultaat voor deze taak is het rapport voor het opschonen van gegevens, waarin ondubbelzinnig gedetailleerd alle beslissingen en acties worden vastgelegd die worden gebruikt om uw gegevens op te schonen. Dit rapport moet elk probleem met de gegevenskwaliteit dat is geïdentificeerd in de kwaliteitskwantentaken verifiëren in de gegevensverwerkingsfase van het proces behandelen. In uw rapportage moet ook worden ingegaan op de potentiële impact op de resultaten van de keuzes die u hebt gemaakt tijdens het opschonen van gegevens.

Taak: gegevens construeren

Mogelijk moet u een aantal nieuwe velden afleiden (gebruik bijvoorbeeld de leverdatum en de datum waarop een klant een bestelling plaatste om te berekenen hoe lang de klant had gewacht om een ​​bestelling te ontvangen), verzamelde gegevens, of anders een nieuwe vorm van gegevens maken.

Deliverables voor deze taak bevatten twee rapporten:

  • Afgeleide kenmerken: Een rapport dat beschrijft welke nieuwe velden (kolommen) u hebt geconstrueerd, hoe u het hebt gedaan en waarom.

  • Gegenereerde records: Een rapport dat beschrijft welke nieuwe casussen (rijen) u hebt geconstrueerd, hoe u het hebt gedaan en waarom.

Hoewel de samenvoeggegevens- en indelingsgegevenstaken het laatst worden vermeld in deze fase van het proces, komen ze niet altijd als laatste en komen ze mogelijk niet één keer omhoog. Mogelijk moet u al vroeg in de fase voor gegevensvoorbereiding samenvoegen of opnieuw formatteren.

Taak: gegevens integreren

Uw gegevens kunnen zich nu in verschillende gegevenssets bevinden. U moet een aantal of al die ongelijksoortige gegevenssets samenvoegen om klaar te zijn voor de modelleringsfase.

Het resultaat voor deze taak zijn de samengevoegde gegevens. (En het zou geen kwaad om te documenteren hoe de samenvoeging werd uitgevoerd.)

Taak: gegevens opmaken

Gegevens komen vaak naar u toe in andere indelingen dan diegene die het meest geschikt zijn voor modellering. (Wijzigingen in het formaat worden meestal bepaald door het ontwerp van uw gereedschappen.) Converteer die indelingen nu.

Het resultaat voor deze taak zijn uw opnieuw ingedeelde gegevens. (En een klein rapport dat de veranderingen beschrijft die u hebt gemaakt, zou slim zijn om op te nemen.)

U moet de gegevensvoorbereidingsfase van het dataminingproces beëindigen met een dataset die klaar is om te modelleren en een grondig rapport dat de dataset beschrijft.

Fase 3 van het CRISP-DM-procesmodel: gegevensvoorbereiding - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...