Huis Persoonlijke financiën De benodigde gegevens eruit halen - dummies

De benodigde gegevens eruit halen - dummies

Inhoudsopgave:

Video: De rol van Data Engineer 2024

Video: De rol van Data Engineer 2024
Anonim

Wanneer u gegevensmining uitvoert, heeft u soms meer gegevens dan u voor een bepaald project nodig hebt. Hier ziet u hoe u kunt terugvallen naar precies wat u nodig hebt.

De velden verkleinen

Als u veel variabelen in een gegevensset hebt, kan het moeilijk zijn om de variabelen te vinden of te bekijken die u interesseren. En als uw datasets groot zijn en u niet alle variabelen nodig heeft, zorgt het bijhouden van de extra's voor onnodige bronnen. Dus, je moet soms een aantal variabelen behouden en anderen laten vallen. De afbeelding toont een voorbeeld in het KNIME, waar het juiste gereedschap Kolomfilter wordt genoemd.

Een voorbeeld van een set-up voor dit hulpmiddel wordt getoond in de volgende afbeelding.

Zoek naar een variabel selectietool in uw dataminingtoepassing om de velden te verkleinen; deze worden gevonden met andere hulpmiddelen voor gegevensmanipulatie. Net als bij andere tools voor datamining, variëren de namen van product tot product. Zoek naar variaties op de woorden kolom, variabele, of veld, en selectie of filteren.

Relevante cases selecteren

Cases met onvolledige gegevens kunnen worden uitgefilterd voordat het model wordt gebouwd. Het verwijderen van onvolledige cases is een veelvoorkomend voorbeeld van gegevensselectie of filtering.

Maar hoe zou u alleen de relevante cases selecteren voor elk segment dat u interesseert? U zou een hulpmiddel voor gegevensselectie gebruiken.

De volgende afbeelding toont een hulpmiddel voor gegevensselectie in een andere toepassing voor datamining.

De volgende afbeelding laat zien hoe u die tool zou instellen voor een ander soort selectie, deze op basis van de waarde van een variabele.

Het is gebruikelijk om dit soort gegevensselectie te gebruiken, en sommige toepassingen bieden allerlei ingebouwde functies waarmee u precies de gewenste gevallen kunt definiëren. Deze heeft enkele uitzonderlijke kenmerken; het toont samenvattende statistieken voor de variabele en vertelt u precies hoeveel gevallen aan de selectiecriteria voldoen.

De meeste datamining-applicaties hebben tools voor het selecteren van alleen de cases die u nodig hebt. Zoek in de menu's (of zoek) naar selecteer of filter.

Sampling

Een populaire gedachte tegenwoordig is dat meer gegevens betere gegevens zijn. Dit is geen nieuw idee. Datamining-applicaties zijn altijd ontwikkeld om met grote hoeveelheden data te werken. Zelfs de naam "datamining" suggereert grote hoeveelheden. Maar vaak geeft het werken met een steekproef van uw gegevens u informatie die net zo nuttig is, uw werk eenvoudiger maakt en uw tijd en middelen spaart.

Sampling speelt een belangrijke rol bij datamining. Als de gegevens in balans zijn, betekent dit dat het model gelijke aantallen cases in elk van de vergeleken groepen heeft gebruikt (in dat voorbeeld waren de groepen eigenschappen die van eigenaar veranderden en eigenschappen die dat niet deden), ook al had één groep veel meer gevallen dan de andere in de originele gegevens.

Later werden de gegevens gesplitst, gescheiden in één subset om te gebruiken voor het trainen van een model en een andere voor testen. Het gebruik van slechts een steekproef van gegevens in een parallelle coördinatenplot kan het gemakkelijker maken om te bekijken en te interpreteren. (Scatterplots met duizenden punten kunnen onmogelijk te lezen zijn!) Misschien wel het allerbelangrijkste: samplen reduceert de hoeveelheid gegevens, dus dingen lopen sneller.

De benodigde gegevens eruit halen - dummies

Bewerkers keuze

Tien Helpbronnen voor Junos OS - dummies

Tien Helpbronnen voor Junos OS - dummies

Dit is een top-tien lijst met bronnen die u moet zoeken meer informatie over softwarebewerkingen, training en ondersteuning voor Junos - alle extra details die u mogelijk nodig heeft om Junos OS te kunnen configureren en bedienen in uw eigen netwerkimplementaties. CLI Help-commando's Bent u op zoek naar meer achtergrondinformatie over hoe een bepaalde functie ...

De functie van de drie vlakken van Junos netwerk OS - dummies

De functie van de drie vlakken van Junos netwerk OS - dummies

De architectuur van de Junos opererende systeem verdeelt de functies van besturing, services en doorsturen op verschillende niveaus. Elk van de vlakken van Junos OS biedt een kritieke set van functionaliteit in de werking van het netwerk. Besturingsvlak van het Junos-netwerkbesturingssysteem (NOS) Alle functies van het besturingsvlak lopen op ...

De basisprincipes van BGP-routebealing - dummy's

De basisprincipes van BGP-routebealing - dummy's

Het configureren van Border Gateway Protocol (BGP) kan nogal lastig zijn, vooral met grote aantallen peersessies die handmatig moeten worden geconfigureerd. In feite kan in een groot netwerk de full-mesh-vereiste voor IBGP een provisioning-nachtmerrie zijn. BGP's antwoord op de IBGP-paring-configuratie-nachtmerrie die het volledige maaswerk is, wordt routeberefening genoemd. Route ...

Bewerkers keuze

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Noodzakelijke elementen voor SEO om hoge trefwoorden te krijgen - dummies

Als de allerbeste locatie op het web staat op de pagina een van de zoekmachines, je moet de SEO-elementen kennen die je daar kunnen brengen. Een goede plek om te beginnen is met zoekwoorden. Zoekmachines gebruiken geavanceerde processen om zoekwoordgebruik en andere factoren te categoriseren en analyseren om erachter te komen ...

Persberichten als bron van SEO-inhoud - dummies

Persberichten als bron van SEO-inhoud - dummies

Het leuke aan persberichten is dat u ze zonder toestemming op uw website kunt gebruiken, en sommige zullen al voor de zoekmachine zijn geoptimaliseerd. Het doel van een persbericht is om het uit te sturen en te zien wie het ophaalt. U hoeft geen contact op te nemen met de eigenaar van het persbericht, omdat ...

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Kies een domeinnaam die geoptimaliseerd is voor zoekmachines - dummies

Zelfs de domeinnaam van uw site moet geoptimaliseerd voor zoekmachines. Zoekmachines lezen uniforme resource locators (URL's), op zoek naar sleutelwoorden erin. Bijvoorbeeld als u een website heeft met de domeinnaam knaagdierracen. com en iemand zoekt Google op knaagdierenraces, Google ziet rodent-racing als een wedstrijd; omdat er een streepje verschijnt tussen de twee ...

Bewerkers keuze

Praxis Elementair onderwijs Examen-Economie - dummies

Praxis Elementair onderwijs Examen-Economie - dummies

U zult enkele basisconcepten van de economie voor de Praxis moeten kennen Elementair onderwijs examen. Elementaire economie onderzoekt de wens voor, de productie van en de verkoop en het gebruik van geld, zowel lokaal als wereldwijd. Het onderwijzen van economie omvat concepten zoals behoeften versus behoeften, kosten en meer tot nadenken stemmende onderwerpen, zoals de volgende: ...

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Praxis Elementair onderwijs voor Dummy's Cheat Sheet - dummies

Het Praxis basisonderwijs: Curriculum, instructie en beoordeling examen (5017) bestrijkt een breed scala van wat u moet weten over basisonderwijs. Als u het Praxis Elementary Education: Content Knowledge-examen (5018) neemt, moet u zich ervan bewust zijn dat het de dekking beperkt tot de inhoud van de vier hoofdonderwerpen die een elementaire leraar is ...

Praxis Core For Dummies Cheat Sheet - dummies

Praxis Core For Dummies Cheat Sheet - dummies

Voordat je te opgewonden raakt, begrijp dat de informatie die volgt niet klopt eigenlijk niet over het bedriegen van de Praxis. Het gaat echt meer om de meest efficiënte manieren om je voor te bereiden op het examen. Maar "voorbereidingsblad" heeft niet helemaal dezelfde reden. Trouwens, vals spelen is niet nodig als je weet wat je aan het doen bent, en ...