Huis Persoonlijke financiën Hoe afgeleide gegevens te genereren en de dimensie te verminderen voor voorspellende analyses - dummies

Hoe afgeleide gegevens te genereren en de dimensie te verminderen voor voorspellende analyses - dummies

Inhoudsopgave:

Video: Computational Thinking - Computer Science for Business Leaders 2016 2024

Video: Computational Thinking - Computer Science for Business Leaders 2016 2024
Anonim

In deze verkenningsfase van voorspellende analyse verkrijgt u een grondige kennis van uw gegevens - die u op hun beurt zullen helpen de relevante te analyseren variabelen te kiezen. Dit begrip helpt u ook om de resultaten van uw model te evalueren. Maar eerst moet u de gegevens identificeren en opschonen voor analyse.

Afgeleide gegevens genereren

Afgeleide kenmerken zijn geheel nieuwe records die zijn opgebouwd op basis van een of meer bestaande kenmerken. Een voorbeeld is het creëren van records die boeken identificeren die bestsellers zijn op boekenbeurzen. Onbewerkte gegevens kunnen dergelijke records mogelijk niet vastleggen - maar voor modelleerdoeleinden kunnen die afgeleide records belangrijk zijn. Prijs per winstverhouding en 200-dagen voortschrijdend gemiddelde zijn twee voorbeelden van afgeleide gegevens die veel worden gebruikt in financiële toepassingen.

Afgeleide attributen kunnen worden verkregen door eenvoudige berekening zoals het afleiden van de leeftijd vanaf de geboortedatum. Afgeleide attributen kunnen ook worden berekend door informatie uit meerdere records samen te vatten.

Als u bijvoorbeeld een tabel met klanten en hun gekochte boeken omzet in een tabel, kunt u het aantal verkochte boeken volgen via een aanbevelingssysteem, via gerichte marketing en op een boekenbeurs - en de demografische gegevens identificeren van klanten die heb die boeken gekocht.

Het genereren van dergelijke extra kenmerken zorgt voor extra voorspellend vermogen voor de analyse. In feite zijn veel van dergelijke kenmerken gecreëerd om hun potentiële voorspellende kracht te onderzoeken. Sommige voorspellende modellen kunnen meer afgeleide attributen gebruiken dan de attributen in hun onbewerkte staat. Als sommige afgeleide kenmerken bijzonder voorspellend blijken te zijn en hun kracht relevant is gebleken, dan is het logisch om het proces dat ze genereert te automatiseren.

Afgeleide records zijn nieuwe records die nieuwe informatie opleveren en nieuwe manieren bieden om onbewerkte gegevens te presenteren; ze kunnen van grote waarde zijn voor voorspellende modellering.

De dimensionaliteit van uw gegevens verminderen

De gegevens die worden gebruikt in voorspellende modellen worden meestal samengevoegd uit meerdere bronnen. Uw analyse kan putten uit gegevens die zijn verspreid over meerdere gegevensindelingen, bestanden en databases of meerdere tabellen binnen dezelfde database. Het samenvoegen van de gegevens en het combineren daarvan in een geïntegreerd formaat voor de te gebruiken datamodellen is essentieel.

Als uw gegevens hiërarchische inhoud bevatten, moet deze mogelijk afgevlakt zijn. Sommige gegevens hebben enkele hiërarchische kenmerken, zoals relaties tussen bovenliggende en onderliggende elementen of een record dat uit andere records bestaat.Een product zoals een auto kan bijvoorbeeld meerdere fabrikanten hebben; het afvlakken van gegevens betekent in dit geval dat elke maker een extra kenmerk is van de record die u analyseert.

Gegevens opvullen is essentieel wanneer het samengevoegd wordt uit meerdere gerelateerde records om een ​​beter beeld te vormen.

Het analyseren van bijwerkingen van verschillende geneesmiddelen door verschillende bedrijven kan bijvoorbeeld vereisen dat de gegevens op het niveau van de substantie worden afgevlakt. Door dit te doen verwijdert u uiteindelijk de één-op-veel relaties (in dit geval vele makers en veel stoffen voor één product) die te veel duplicatie van gegevens kunnen veroorzaken door het herhalen van meerdere substantie-ingangen die zich herhalen product- en makerinformatie bij elk item.

Afvlakking vermindert de dimensionaliteit van de gegevens, wat wordt weergegeven door het aantal functies dat een record of een waarneming heeft.

Een klant kan bijvoorbeeld de volgende functies hebben: naam, leeftijd, adres, gekochte items. Wanneer u met uw analyse begint, merkt u misschien dat u records met veel functies evalueert, waarvan slechts enkele belangrijk zijn voor de analyse. Dus u moet alle, behalve de weinige functies die de meest voorspellende kracht hebben voor uw specifieke project, verwijderen.

Het verkleinen van de dimensionaliteit van de gegevens kan worden bereikt door alle gegevens in een enkele tabel te plaatsen die meerdere kolommen gebruikt om interessante kenmerken weer te geven. Aan het begin van de analyse moet de analyse natuurlijk een groot aantal kolommen evalueren - maar dat aantal kan worden verkleind naarmate de analyse vordert.

Dit proces kan worden ondersteund door de velden opnieuw samen te stellen, bijvoorbeeld door de gegevens te groeperen in categorieën met vergelijkbare kenmerken.

De resulterende gegevensset - de opgeschoonde gegevensset - wordt meestal in een afzonderlijke database geplaatst die de analisten kunnen gebruiken. Tijdens het modelleringsproces moeten deze gegevens eenvoudig toegankelijk, beheerd en bijgehouden worden.

Hoe afgeleide gegevens te genereren en de dimensie te verminderen voor voorspellende analyses - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...