Huis Persoonlijke financiën Fase 2 van het CRISP-DM-procesmodel: gegevensbegrip - dummies

Fase 2 van het CRISP-DM-procesmodel: gegevensbegrip - dummies

Inhoudsopgave:

Video: OT CASTING MADRID | FASE 2 | OT 2020 2024

Video: OT CASTING MADRID | FASE 2 | OT 2020 2024
Anonim

In de tweede fase van het procesmodel Cross-Industry Standard Process for Data Mining (CRISP-DM) verkrijgt u gegevens en verifieert u dat het geschikt is voor uw behoeften. U kunt problemen identificeren die ervoor zorgen dat u teruggaat naar zakelijk inzicht en uw plan herziet. U kunt zelfs fouten ontdekken in uw bedrijfsbegrip, een andere reden om doelen en plannen opnieuw te bekijken.

De fase gegevensverwerking omvat vier taken . Dit zijn

  • Gegevens verzamelen

  • Gegevens beschrijven

  • Gegevens verkennen

  • Gegevenskwaliteit controleren

Taak: gegevens verzamelen

U hebt zojuist doelen gedefinieerd en een gegevensmijnplan gedefinieerd. Elke stap van het plan hangt af van de juiste gegevens. Zorg ervoor dat je echt die gegevens hebt!

Er is slechts één deliverable beschikbaar voor deze taak: het initiële rapport voor gegevensverzameling. In uw rapport moet u verifiëren dat u de gegevens hebt verkregen of ten minste toegang hebt verkregen tot de gegevens, het toegangsproces voor gegevens hebt getest en hebt gecontroleerd of de gegevens bestaan. U moet ook gegevens laden in alle tools die u gaat gebruiken voor datamining om te controleren of de tools compatibel zijn met de gegevens.

U kunt veel werk verzetten om de gegevens samen te stellen die u nodig hebt voordat u dit rapport kunt schrijven. Eerst maak je je planning als volgt:

  • Vereisten voor outlinedata: Maak een lijst met de soorten data die nodig zijn om de datamining-doelen aan te pakken. Vouw de lijst uit met details zoals het vereiste tijdbereik en gegevensformaten.

  • Controleer de beschikbaarheid van gegevens: Controleer of de vereiste gegevens aanwezig zijn en of u deze kunt gebruiken. Als sommige van de gegevens die u zoekt niet beschikbaar zijn, bepaalt u hoe u dit probleem aanpakt. Overweeg alternatieven zoals

    • Substitueren met een alternatieve gegevensbron

    • De reikwijdte van het project verkleinen

    • Nieuwe gegevens verzamelen

  • Definieer selectiecriteria: Identificeer de specifieke gegevensbronnen (databases, bestanden, documenten, enzovoort.) die u zult gebruiken. Geef binnen deze bronnen de tabellen, velden en casusbereiken op die relevant zijn voor dit project.

Nadat u deze stappen hebt doorlopen, moet u de gegevens daadwerkelijk verkrijgen. Importeer de gegevens in dit stadium in het dataminingplatform dat u voor het project gaat gebruiken om te bevestigen dat dit mogelijk is en dat u het proces begrijpt. In de loop van deze proef kunt u software- (of hardware) beperkingen ontdekken die u niet verwacht had, zoals

  • Beperkingen op het aantal gevallen of velden, of op de hoeveelheid geheugen die u kunt gebruiken

  • Onmogelijkheid om de gegevensformaten van uw bronnen

  • Problemen met onvolkomenheden in de gegevens (bijvoorbeeld kunt u producten tegenkomen die onvolledige gegevenssets niet importeren of analyseren)

Vat ten slotte het verzamelproces samen in een rapport.Het rapport moet uw vereisten beschrijven en in enig detail precies uitleggen welke gegevens u hebt verzameld en uit welke bronnen. Hier bevestigt u dat u de gegevens daadwerkelijk hebt verkregen en dat deze compatibel zijn met uw dataminingplatform. Als u in moeilijkheden bent geraakt, legt u uit wat ze waren en hoe u ze hebt aangepakt (met behulp van alternatieve bronnen, plannen herzien, formaten wijzigen).

Het resultaat voor deze taak is slechts een eenvoudig rapport, maar het werk dat u moet doen voordat u dat rapport kunt schrijven, is niet eenvoudig! Datatoegang kan een van de meest uitdagende en frustrerende onderdelen zijn van het dataminingproces, waar technische en zakelijke uitdagingen liggen.

Taak: gegevens beschrijven

Maak nu een algemene beschrijving van wat u hebt, nu u over gegevens beschikt.

Het resultaat voor deze taak is het gegevensbeschrijvingsrapport. Hierin beschrijft u de bron en de indelingen van de gegevens, het aantal gevallen, het aantal en de beschrijvingen van de velden en eventuele andere algemene informatie die belangrijk kan zijn. U maakt ook een korte evaluatie van de geschiktheid van de gegevens voor uw dataminingdoelen. Controleer bijvoorbeeld of de gegevens de velden bevatten die u verwacht en daar nodig hebt en voldoende cases voor analyse.

Taak: Gegevens verkennen

In deze taak onderzoekt u de gegevens nauwkeuriger. Voor elke variabele kijkt u naar het bereik van waarden en hun distributies. U gebruikt eenvoudige gegevensmanipulatie en elementaire statistische technieken voor verdere controles van de gegevens. Gegevensverkenning ondersteunt verschillende doelen:

  • Raak vertrouwd met de gegevens.

  • Spot tekenen van problemen met de gegevenskwaliteit.

  • Stel de fase in voor stappen voor gegevensvoorbereiding.

Het resultaat voor deze taak is het gegevensverkenningsrapport. Het is de plek om eventuele hypothesen of eerste bevindingen die je tijdens dataverkenning hebt ontwikkeld te documenteren. Dit rapport moet een meer gedetailleerde beschrijving van de gegevens bevatten dan het gegevensbeschrijvingsrapport, inclusief distributies, samenvattingen en tekenen van problemen met de gegevenskwaliteit.

Taak: gegevenskwaliteit controleren

U hebt de gegevens en u hebt deze gecontroleerd en nu moet u bepalen of deze goed genoeg is om uw doelen te ondersteunen. Je zult vaak wat kwaliteitsproblemen hebben om aan te pakken maar toch in staat zijn om vooruit te komen, maar soms is de gegevenskwaliteit zo slecht dat het je plan niet kan ondersteunen en moet je op zoek naar alternatieven. Enkele van de ergste gegevensproblemen zijn

  • De gegevens die u nodig hebt, bestaan ​​niet. (Bestond het nooit of werd het weggegooid? Kunnen deze gegevens worden verzameld en opgeslagen voor toekomstig gebruik?)

  • Het bestaat, maar u kunt het niet hebben. (Kan deze beperking worden overwonnen?)

  • U vindt ernstige problemen met de gegevenskwaliteit (veel ontbrekende of onjuiste waarden die niet kunnen worden gecorrigeerd).

Het resultaat voor deze taak is het rapport over gegevenskwaliteit. Dit vat de gegevens samen die u hebt, de kleine en belangrijke kwaliteitsproblemen die u hebt gevonden, en mogelijke oplossingen voor kwaliteitsproblemen of alternatieven (zoals het gebruik van een alternatieve gegevensbron).Als u met ernstige problemen op het gebied van gegevenskwaliteit wordt geconfronteerd en u geen adequate oplossing kunt vinden, moet u misschien aanbevelen om doelen of plannen opnieuw te bekijken.

Fase 2 van het CRISP-DM-procesmodel: gegevensbegrip - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...