Huis Persoonlijke financiën Principale componentenanalyse toepassen op voorspellende analyses - dummies

Principale componentenanalyse toepassen op voorspellende analyses - dummies

Video: Michael Sikora | Sequencing Clonally Expanded T Cells in ME/CFS 2025

Video: Michael Sikora | Sequencing Clonally Expanded T Cells in ME/CFS 2025
Anonim

hoofdcomponentenanalyse (PCA) verlagen. Dit is een waardevolle techniek die veel wordt gebruikt in voorspellende analyses en gegevenswetenschap. Het bestudeert een dataset om de meest relevante variabelen te leren die verantwoordelijk zijn voor de hoogste variatie in die dataset. PCA wordt meestal gebruikt als een techniek voor gegevensvermindering.

Terwijl u voorspellende modellen maakt, moet u mogelijk het aantal functies dat uw gegevensset beschrijft, verminderen. Het is zeer nuttig om deze hoge dimensionaliteit van gegevens te verminderen door middel van approximatietechnieken, waar PCA in uitblinkt. De benaderde gegevens vatten alle belangrijke variaties van de originele gegevens samen.

De functies van gegevens over aandelen kunnen bijvoorbeeld aandelenkoersen, dagelijkse hoogtepunten en dieptepunten zijn, handelsvolumes, 200-daags voortschrijdend gemiddelde, prijs / winstverhoudingen, relatieve sterkte ten opzichte van andere markten., rentetarieven en sterkte van valuta.

Het vinden van de belangrijkste voorspellende variabelen is de kern van het bouwen van een voorspellend model. De manier waarop velen het hebben gedaan is door een brute force-benadering te gebruiken. Het idee is om te beginnen met zoveel mogelijk relevante variabelen en vervolgens een trechterbenadering te gebruiken om functies te verwijderen die geen invloed of geen voorspellende waarde hebben.

De intelligentie en het inzicht worden naar deze methode gebracht door belanghebbenden uit het bedrijfsleven te engageren, omdat ze een voorgevoel hebben over welke variabelen de grootste impact zullen hebben in de analyse. De ervaring van de gegevenswetenschappers die bij het project betrokken zijn, is ook belangrijk om te weten met welke variabelen ze moeten werken en welke algoritmen moeten worden gebruikt voor een specifiek gegevenstype of een domeinspecifiek probleem.

Om te helpen met het proces, gebruiken data scientists veel voorspellende analytische tools die het gemakkelijker en sneller maken om meerdere permutaties en analyses uit te voeren op een dataset om de impact van elke variabele op die dataset te meten.

Wetende dat er een grote hoeveelheid gegevens is om mee te werken, kunt u PCA gebruiken voor hulp.

Het aantal variabelen verminderen dat u bekijkt, is voldoende reden om PCA te gebruiken. Als u PCA gebruikt, beschermt u zichzelf bovendien automatisch tegen overfitteren van het model.

Zeker, je zou een verband kunnen vinden tussen weergegevens in een bepaald land en de prestaties van de aandelenmarkt. Of met de kleur van iemands schoenen en de route die hij of zij naar kantoor neemt, en de prestaties van hun portfolio voor die dag. Het opnemen van die variabelen in een voorspellend model is echter meer dan overfitteren, het is misleidend en leidt tot valse voorspellingen.

PCA gebruikt een wiskundig geldige benadering om de subset van uw gegevensset te bepalen die de belangrijkste functies bevat; bij het bouwen van uw model op die kleinere gegevensset, heeft u een model dat voorspellende waarde heeft voor de algehele, grotere gegevensset waarmee u werkt. Kort gezegd, PCA moet u helpen uw variabelen duidelijk te maken door de subset van variabelen te identificeren die verantwoordelijk zijn voor de meeste variatie met uw oorspronkelijke gegevensset. Het helpt u overtolligheid te herkennen. Het helpt je erachter te komen dat twee (of meer variabelen) je hetzelfde vertellen.

Bovendien voert de analyse van hoofdcomponenten uw multidimensionale gegevensset uit en produceert een nieuwe gegevensset waarvan de variabelen representatief zijn voor de lineariteit van de variabelen in de oorspronkelijke gegevensset. Bovendien heeft de uitgevoerde gegevensset afzonderlijk niet-gecorreleerde variabelen en wordt hun variantie gesorteerd op basis van hun hoofdcomponenten, waarbij de eerste de grootste is, enzovoort. In dit opzicht kan PCA ook worden beschouwd als een techniek voor het construeren van functies.

Terwijl u PCA of andere vergelijkbare technieken gebruikt die de dimensionaliteit van de gegevensset helpen verminderen, moet u altijd voorzichtig zijn om de prestaties van het model niet negatief te beïnvloeden. Het verkleinen van de gegevens mag niet ten koste gaan van een negatieve invloed op de prestaties (de nauwkeurigheid van het voorspellende model). Loop voorzichtig en beheer uw dataset met zorg.

De toegenomen complexiteit van een model vertaalt zich niet in een hogere kwaliteit van het resultaat.

Om de prestaties van het model te behouden, moet u mogelijk de effectiviteit van elke variabele zorgvuldig evalueren, en de bruikbaarheid ervan in de vormgeving van het uiteindelijke model meten.

Wetende dat de PCA bijzonder nuttig kan zijn wanneer de variabelen sterk gecorreleerd zijn binnen een gegeven dataset, kan het hebben van een dataset met niet-gecorreleerde voorspellende variabelen de taak van het reduceren van de dimensionaliteit van multivariate gegevens alleen maar bemoeilijken. Naast de PCA kunnen nog veel andere technieken worden gebruikt, zoals selectie van voorwaartse functies en eliminatie van achterwaartse functies.

PCA is geen wondermiddel dat alle problemen met multidimensionale gegevens zal oplossen. Het succes is sterk afhankelijk van de gegevens waarmee u werkt. De statistische variantie komt mogelijk niet overeen met variabelen met de meest voorspellende waarden, ook al is het veilig om met dergelijke benaderingen te werken.

Principale componentenanalyse toepassen op voorspellende analyses - dummies

Bewerkers keuze

De flitsuitvoer aanpassen met een Nikon D3100 of D5100 - dummies

De flitsuitvoer aanpassen met een Nikon D3100 of D5100 - dummies

Wanneer u foto's maakt met uw Nikon D3100 of D5100 en de ingebouwde flitser, de camera probeert de flitsoutput aan te passen als dat nodig is om een ​​goede belichting te produceren. Maar als u opnamen maakt in de belichtingsstanden P, S, A of M, wilt u een beetje meer of minder flitslicht dan de camera ...

Pas de instellingen op de Nikon D5600 aan via de controlestrook - dummies

Pas de instellingen op de Nikon D5600 aan via de controlestrook - dummies

De informatieweergave op de Nikon D5600 is niet alleen voor het controleren van de huidige instellingen voor het maken van foto's; het geeft je ook snel toegang tot een aantal van de meest kritieke van die instellingen. U kunt met name de opties aanpassen die worden weergegeven op de twee rijen met gegevens onder aan het scherm, ook wel de controlestrip genoemd. ...

Geavanceerde belichtingsstanden voor uw Nikon D3000 digitale camera - dummy's

Geavanceerde belichtingsstanden voor uw Nikon D3000 digitale camera - dummy's

Om echt creatieve controle te nemen, op te voeren naar een van deze vier belichtingsmodi, waarmee u het diafragma (f-stop) kunt aanpassen om de scherptediepte te manipuleren (de zone van scherpe focus) en de sluitertijd aan te passen om te bepalen of bewegende objecten scherp gefocusseerd of wazig lijken. Je krijgt ook toegang tot een aantal functies die niet beschikbaar zijn in ...

Bewerkers keuze

Hoe je een binnenste omtrek tekent in SketchUp - dummies

Hoe je een binnenste omtrek tekent in SketchUp - dummies

Omdat het hoofddoel van het maken van een interieur is model van een gebouw in SketchUp moet eindigen met nauwkeurige binnenruimtes, je moet van binnenuit werken. Als je meetlint lang genoeg is, probeer dan een manier te vinden om de belangrijkste dimensies eerst te krijgen - dit betekent het totale interieur ...

Een binnenomtrek tekenen in Google SketchUp 8 - dummies

Een binnenomtrek tekenen in Google SketchUp 8 - dummies

Omdat het hoofddoel van het maken van een interieurmodel van een gebouw in Google SketchUp moet eindigen met nauwkeurige binnenruimten, je moet van binnen naar buiten werken. Als je meetlint lang genoeg is, probeer dan een manier te vinden om de belangrijkste dimensies eerst te krijgen - dit betekent het totaal ...

Tekenen van randen in Google SketchUp 8 - dummies

Tekenen van randen in Google SketchUp 8 - dummies

SketchUp-modellen zijn eigenlijk gewoon fraaie randverzamelingen, en je gebruikt het gereedschap Lijn om individuele randen te tekenen. Dus alles wat u in SketchUp maakt, kunt u maken met het gereedschap Lijn. Het gereedschap Lijn kunnen gebruiken zonder er al te veel over na te denken, is het geheim van het kunnen modelleren ...

Bewerkers keuze

Hoe maak je je eigen cameramenu op de Rebel t5i - dummies

Hoe maak je je eigen cameramenu op de Rebel t5i - dummies

Canon doet een goed werk om het gemakkelijk te maken om de meest gebruikte camera-instellingen op je Rebel t5i te veranderen. U hebt toegang tot veel kritieke opties door op de knoppen op de camerabody te drukken, terwijl andere slechts een snelle trip naar de cameramenu's vereisen. Om het proces nog eenvoudiger te maken, kunt u ...

Hoe u videofoto's kunt maken op de Rebel t5i - dummies

Hoe u videofoto's kunt maken op de Rebel t5i - dummies

De videofotofunctie op de Canon Rebel Met t5i kunt u korte videoclips vastleggen die u in een enkele opname naait, een video-album genoemd. Enkele relevante feiten voordat u begint met de volgende stappen: Elke clip kan niet langer zijn dan 8 seconden. Je kunt ook 2- en 4-seconden opnemen ...

Hoe je je eigen belichtingsmodus creëert op een Canon EOS 70D - dummies

Hoe je je eigen belichtingsmodus creëert op een Canon EOS 70D - dummies

Een van de handigste functies van je Canon EOS 70D voor de ervaren fotograaf is de instelling C op de keuzeschakelaar. Deze optie, die staat voor Camera User Settings, stelt u in staat om uw eigen belichtingsmodus in te stellen. U begint met het selecteren en opslaan van alle camera-instellingen die u wilt gebruiken wanneer ...