Video: Michael Sikora | Sequencing Clonally Expanded T Cells in ME/CFS 2025
hoofdcomponentenanalyse (PCA) verlagen. Dit is een waardevolle techniek die veel wordt gebruikt in voorspellende analyses en gegevenswetenschap. Het bestudeert een dataset om de meest relevante variabelen te leren die verantwoordelijk zijn voor de hoogste variatie in die dataset. PCA wordt meestal gebruikt als een techniek voor gegevensvermindering.
Terwijl u voorspellende modellen maakt, moet u mogelijk het aantal functies dat uw gegevensset beschrijft, verminderen. Het is zeer nuttig om deze hoge dimensionaliteit van gegevens te verminderen door middel van approximatietechnieken, waar PCA in uitblinkt. De benaderde gegevens vatten alle belangrijke variaties van de originele gegevens samen.
De functies van gegevens over aandelen kunnen bijvoorbeeld aandelenkoersen, dagelijkse hoogtepunten en dieptepunten zijn, handelsvolumes, 200-daags voortschrijdend gemiddelde, prijs / winstverhoudingen, relatieve sterkte ten opzichte van andere markten., rentetarieven en sterkte van valuta.
Het vinden van de belangrijkste voorspellende variabelen is de kern van het bouwen van een voorspellend model. De manier waarop velen het hebben gedaan is door een brute force-benadering te gebruiken. Het idee is om te beginnen met zoveel mogelijk relevante variabelen en vervolgens een trechterbenadering te gebruiken om functies te verwijderen die geen invloed of geen voorspellende waarde hebben.
De intelligentie en het inzicht worden naar deze methode gebracht door belanghebbenden uit het bedrijfsleven te engageren, omdat ze een voorgevoel hebben over welke variabelen de grootste impact zullen hebben in de analyse. De ervaring van de gegevenswetenschappers die bij het project betrokken zijn, is ook belangrijk om te weten met welke variabelen ze moeten werken en welke algoritmen moeten worden gebruikt voor een specifiek gegevenstype of een domeinspecifiek probleem.
Om te helpen met het proces, gebruiken data scientists veel voorspellende analytische tools die het gemakkelijker en sneller maken om meerdere permutaties en analyses uit te voeren op een dataset om de impact van elke variabele op die dataset te meten.
Wetende dat er een grote hoeveelheid gegevens is om mee te werken, kunt u PCA gebruiken voor hulp.
Het aantal variabelen verminderen dat u bekijkt, is voldoende reden om PCA te gebruiken. Als u PCA gebruikt, beschermt u zichzelf bovendien automatisch tegen overfitteren van het model.
Zeker, je zou een verband kunnen vinden tussen weergegevens in een bepaald land en de prestaties van de aandelenmarkt. Of met de kleur van iemands schoenen en de route die hij of zij naar kantoor neemt, en de prestaties van hun portfolio voor die dag. Het opnemen van die variabelen in een voorspellend model is echter meer dan overfitteren, het is misleidend en leidt tot valse voorspellingen.
PCA gebruikt een wiskundig geldige benadering om de subset van uw gegevensset te bepalen die de belangrijkste functies bevat; bij het bouwen van uw model op die kleinere gegevensset, heeft u een model dat voorspellende waarde heeft voor de algehele, grotere gegevensset waarmee u werkt. Kort gezegd, PCA moet u helpen uw variabelen duidelijk te maken door de subset van variabelen te identificeren die verantwoordelijk zijn voor de meeste variatie met uw oorspronkelijke gegevensset. Het helpt u overtolligheid te herkennen. Het helpt je erachter te komen dat twee (of meer variabelen) je hetzelfde vertellen.
Bovendien voert de analyse van hoofdcomponenten uw multidimensionale gegevensset uit en produceert een nieuwe gegevensset waarvan de variabelen representatief zijn voor de lineariteit van de variabelen in de oorspronkelijke gegevensset. Bovendien heeft de uitgevoerde gegevensset afzonderlijk niet-gecorreleerde variabelen en wordt hun variantie gesorteerd op basis van hun hoofdcomponenten, waarbij de eerste de grootste is, enzovoort. In dit opzicht kan PCA ook worden beschouwd als een techniek voor het construeren van functies.
Terwijl u PCA of andere vergelijkbare technieken gebruikt die de dimensionaliteit van de gegevensset helpen verminderen, moet u altijd voorzichtig zijn om de prestaties van het model niet negatief te beïnvloeden. Het verkleinen van de gegevens mag niet ten koste gaan van een negatieve invloed op de prestaties (de nauwkeurigheid van het voorspellende model). Loop voorzichtig en beheer uw dataset met zorg.
De toegenomen complexiteit van een model vertaalt zich niet in een hogere kwaliteit van het resultaat.
Om de prestaties van het model te behouden, moet u mogelijk de effectiviteit van elke variabele zorgvuldig evalueren, en de bruikbaarheid ervan in de vormgeving van het uiteindelijke model meten.
Wetende dat de PCA bijzonder nuttig kan zijn wanneer de variabelen sterk gecorreleerd zijn binnen een gegeven dataset, kan het hebben van een dataset met niet-gecorreleerde voorspellende variabelen de taak van het reduceren van de dimensionaliteit van multivariate gegevens alleen maar bemoeilijken. Naast de PCA kunnen nog veel andere technieken worden gebruikt, zoals selectie van voorwaartse functies en eliminatie van achterwaartse functies.
PCA is geen wondermiddel dat alle problemen met multidimensionale gegevens zal oplossen. Het succes is sterk afhankelijk van de gegevens waarmee u werkt. De statistische variantie komt mogelijk niet overeen met variabelen met de meest voorspellende waarden, ook al is het veilig om met dergelijke benaderingen te werken.