Hoe afgeleide gegevens te genereren en de dimensie te verminderen voor voorspellende analyses - dummies

Video: Computational Thinking - Computer Science for Business Leaders 2016 2024

In deze verkenningsfase van voorspellende analyse verkrijgt u een grondige kennis van uw gegevens - die u op hun beurt zullen helpen de relevante te analyseren variabelen te kiezen. Dit begrip helpt u ook om de resultaten van uw model te evalueren. Maar eerst moet u de gegevens identificeren en opschonen voor analyse.

Afgeleide gegevens genereren

Afgeleide kenmerken zijn geheel nieuwe records die zijn opgebouwd op basis van een of meer bestaande kenmerken. Een voorbeeld is het creëren van records die boeken identificeren die bestsellers zijn op boekenbeurzen. Onbewerkte gegevens kunnen dergelijke records mogelijk niet vastleggen - maar voor modelleerdoeleinden kunnen die afgeleide records belangrijk zijn. Prijs per winstverhouding en 200-dagen voortschrijdend gemiddelde zijn twee voorbeelden van afgeleide gegevens die veel worden gebruikt in financiële toepassingen.

Afgeleide attributen kunnen worden verkregen door eenvoudige berekening zoals het afleiden van de leeftijd vanaf de geboortedatum. Afgeleide attributen kunnen ook worden berekend door informatie uit meerdere records samen te vatten.

Als u bijvoorbeeld een tabel met klanten en hun gekochte boeken omzet in een tabel, kunt u het aantal verkochte boeken volgen via een aanbevelingssysteem, via gerichte marketing en op een boekenbeurs - en de demografische gegevens identificeren van klanten die heb die boeken gekocht.

Het genereren van dergelijke extra kenmerken zorgt voor extra voorspellend vermogen voor de analyse. In feite zijn veel van dergelijke kenmerken gecreëerd om hun potentiële voorspellende kracht te onderzoeken. Sommige voorspellende modellen kunnen meer afgeleide attributen gebruiken dan de attributen in hun onbewerkte staat. Als sommige afgeleide kenmerken bijzonder voorspellend blijken te zijn en hun kracht relevant is gebleken, dan is het logisch om het proces dat ze genereert te automatiseren.

Afgeleide records zijn nieuwe records die nieuwe informatie opleveren en nieuwe manieren bieden om onbewerkte gegevens te presenteren; ze kunnen van grote waarde zijn voor voorspellende modellering.

De dimensionaliteit van uw gegevens verminderen

De gegevens die worden gebruikt in voorspellende modellen worden meestal samengevoegd uit meerdere bronnen. Uw analyse kan putten uit gegevens die zijn verspreid over meerdere gegevensindelingen, bestanden en databases of meerdere tabellen binnen dezelfde database. Het samenvoegen van de gegevens en het combineren daarvan in een geïntegreerd formaat voor de te gebruiken datamodellen is essentieel.

Als uw gegevens hiërarchische inhoud bevatten, moet deze mogelijk afgevlakt zijn. Sommige gegevens hebben enkele hiërarchische kenmerken, zoals relaties tussen bovenliggende en onderliggende elementen of een record dat uit andere records bestaat.Een product zoals een auto kan bijvoorbeeld meerdere fabrikanten hebben; het afvlakken van gegevens betekent in dit geval dat elke maker een extra kenmerk is van de record die u analyseert.

Gegevens opvullen is essentieel wanneer het samengevoegd wordt uit meerdere gerelateerde records om een beter beeld te vormen.

Het analyseren van bijwerkingen van verschillende geneesmiddelen door verschillende bedrijven kan bijvoorbeeld vereisen dat de gegevens op het niveau van de substantie worden afgevlakt. Door dit te doen verwijdert u uiteindelijk de één-op-veel relaties (in dit geval vele makers en veel stoffen voor één product) die te veel duplicatie van gegevens kunnen veroorzaken door het herhalen van meerdere substantie-ingangen die zich herhalen product- en makerinformatie bij elk item.

Afvlakking vermindert de dimensionaliteit van de gegevens, wat wordt weergegeven door het aantal functies dat een record of een waarneming heeft.

Een klant kan bijvoorbeeld de volgende functies hebben: naam, leeftijd, adres, gekochte items. Wanneer u met uw analyse begint, merkt u misschien dat u records met veel functies evalueert, waarvan slechts enkele belangrijk zijn voor de analyse. Dus u moet alle, behalve de weinige functies die de meest voorspellende kracht hebben voor uw specifieke project, verwijderen.

Het verkleinen van de dimensionaliteit van de gegevens kan worden bereikt door alle gegevens in een enkele tabel te plaatsen die meerdere kolommen gebruikt om interessante kenmerken weer te geven. Aan het begin van de analyse moet de analyse natuurlijk een groot aantal kolommen evalueren - maar dat aantal kan worden verkleind naarmate de analyse vordert.

Dit proces kan worden ondersteund door de velden opnieuw samen te stellen, bijvoorbeeld door de gegevens te groeperen in categorieën met vergelijkbare kenmerken.

De resulterende gegevensset - de opgeschoonde gegevensset - wordt meestal in een afzonderlijke database geplaatst die de analisten kunnen gebruiken. Tijdens het modelleringsproces moeten deze gegevens eenvoudig toegankelijk, beheerd en bijgehouden worden.