Huis Persoonlijke financiën Principale componentenanalyse toepassen op voorspellende analyses - dummies

Principale componentenanalyse toepassen op voorspellende analyses - dummies

Video: Michael Sikora | Sequencing Clonally Expanded T Cells in ME/CFS 2024

Video: Michael Sikora | Sequencing Clonally Expanded T Cells in ME/CFS 2024
Anonim

hoofdcomponentenanalyse (PCA) verlagen. Dit is een waardevolle techniek die veel wordt gebruikt in voorspellende analyses en gegevenswetenschap. Het bestudeert een dataset om de meest relevante variabelen te leren die verantwoordelijk zijn voor de hoogste variatie in die dataset. PCA wordt meestal gebruikt als een techniek voor gegevensvermindering.

Terwijl u voorspellende modellen maakt, moet u mogelijk het aantal functies dat uw gegevensset beschrijft, verminderen. Het is zeer nuttig om deze hoge dimensionaliteit van gegevens te verminderen door middel van approximatietechnieken, waar PCA in uitblinkt. De benaderde gegevens vatten alle belangrijke variaties van de originele gegevens samen.

De functies van gegevens over aandelen kunnen bijvoorbeeld aandelenkoersen, dagelijkse hoogtepunten en dieptepunten zijn, handelsvolumes, 200-daags voortschrijdend gemiddelde, prijs / winstverhoudingen, relatieve sterkte ten opzichte van andere markten., rentetarieven en sterkte van valuta.

Het vinden van de belangrijkste voorspellende variabelen is de kern van het bouwen van een voorspellend model. De manier waarop velen het hebben gedaan is door een brute force-benadering te gebruiken. Het idee is om te beginnen met zoveel mogelijk relevante variabelen en vervolgens een trechterbenadering te gebruiken om functies te verwijderen die geen invloed of geen voorspellende waarde hebben.

De intelligentie en het inzicht worden naar deze methode gebracht door belanghebbenden uit het bedrijfsleven te engageren, omdat ze een voorgevoel hebben over welke variabelen de grootste impact zullen hebben in de analyse. De ervaring van de gegevenswetenschappers die bij het project betrokken zijn, is ook belangrijk om te weten met welke variabelen ze moeten werken en welke algoritmen moeten worden gebruikt voor een specifiek gegevenstype of een domeinspecifiek probleem.

Om te helpen met het proces, gebruiken data scientists veel voorspellende analytische tools die het gemakkelijker en sneller maken om meerdere permutaties en analyses uit te voeren op een dataset om de impact van elke variabele op die dataset te meten.

Wetende dat er een grote hoeveelheid gegevens is om mee te werken, kunt u PCA gebruiken voor hulp.

Het aantal variabelen verminderen dat u bekijkt, is voldoende reden om PCA te gebruiken. Als u PCA gebruikt, beschermt u zichzelf bovendien automatisch tegen overfitteren van het model.

Zeker, je zou een verband kunnen vinden tussen weergegevens in een bepaald land en de prestaties van de aandelenmarkt. Of met de kleur van iemands schoenen en de route die hij of zij naar kantoor neemt, en de prestaties van hun portfolio voor die dag. Het opnemen van die variabelen in een voorspellend model is echter meer dan overfitteren, het is misleidend en leidt tot valse voorspellingen.

PCA gebruikt een wiskundig geldige benadering om de subset van uw gegevensset te bepalen die de belangrijkste functies bevat; bij het bouwen van uw model op die kleinere gegevensset, heeft u een model dat voorspellende waarde heeft voor de algehele, grotere gegevensset waarmee u werkt. Kort gezegd, PCA moet u helpen uw variabelen duidelijk te maken door de subset van variabelen te identificeren die verantwoordelijk zijn voor de meeste variatie met uw oorspronkelijke gegevensset. Het helpt u overtolligheid te herkennen. Het helpt je erachter te komen dat twee (of meer variabelen) je hetzelfde vertellen.

Bovendien voert de analyse van hoofdcomponenten uw multidimensionale gegevensset uit en produceert een nieuwe gegevensset waarvan de variabelen representatief zijn voor de lineariteit van de variabelen in de oorspronkelijke gegevensset. Bovendien heeft de uitgevoerde gegevensset afzonderlijk niet-gecorreleerde variabelen en wordt hun variantie gesorteerd op basis van hun hoofdcomponenten, waarbij de eerste de grootste is, enzovoort. In dit opzicht kan PCA ook worden beschouwd als een techniek voor het construeren van functies.

Terwijl u PCA of andere vergelijkbare technieken gebruikt die de dimensionaliteit van de gegevensset helpen verminderen, moet u altijd voorzichtig zijn om de prestaties van het model niet negatief te beïnvloeden. Het verkleinen van de gegevens mag niet ten koste gaan van een negatieve invloed op de prestaties (de nauwkeurigheid van het voorspellende model). Loop voorzichtig en beheer uw dataset met zorg.

De toegenomen complexiteit van een model vertaalt zich niet in een hogere kwaliteit van het resultaat.

Om de prestaties van het model te behouden, moet u mogelijk de effectiviteit van elke variabele zorgvuldig evalueren, en de bruikbaarheid ervan in de vormgeving van het uiteindelijke model meten.

Wetende dat de PCA bijzonder nuttig kan zijn wanneer de variabelen sterk gecorreleerd zijn binnen een gegeven dataset, kan het hebben van een dataset met niet-gecorreleerde voorspellende variabelen de taak van het reduceren van de dimensionaliteit van multivariate gegevens alleen maar bemoeilijken. Naast de PCA kunnen nog veel andere technieken worden gebruikt, zoals selectie van voorwaartse functies en eliminatie van achterwaartse functies.

PCA is geen wondermiddel dat alle problemen met multidimensionale gegevens zal oplossen. Het succes is sterk afhankelijk van de gegevens waarmee u werkt. De statistische variantie komt mogelijk niet overeen met variabelen met de meest voorspellende waarden, ook al is het veilig om met dergelijke benaderingen te werken.

Principale componentenanalyse toepassen op voorspellende analyses - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...