Testen van het voorspellende analysemodel - dummies

Om het voorspellende analysemodel dat u heeft gebouwd te kunnen testen, moet u uw dataset opsplitsen in twee sets: training en testdatasets. Deze datasets moeten willekeurig worden geselecteerd en moeten een goede weergave zijn van de werkelijke populatie.

Vergelijkbare gegevens moeten worden gebruikt voor zowel de trainings- als testgegevenssets.
Normaal gesproken is de trainingsgegevensset aanzienlijk groter dan de testgegevensset.
Met behulp van de testgegevensset kunt u fouten zoals overfitting voorkomen.
Het getrainde model wordt tegen testgegevens uitgevoerd om te zien hoe goed het model zal presteren.

Sommige gegevenswetenschappers geven er de voorkeur aan een derde gegevensreeks te hebben met kenmerken die vergelijkbaar zijn met die van de eerste twee: een validatiegegevensset . Het idee is dat als u uw testgegevens actief gebruikt om uw model te verfijnen, u een afzonderlijke (derde) set moet gebruiken om de nauwkeurigheid van het model te controleren.

Het hebben van een validatiegegevensset, die niet werd gebruikt als onderdeel van het ontwikkelingsproces van uw model, draagt bij aan een neutrale schatting van de nauwkeurigheid en werkzaamheid van het model.

Als u meerdere modellen met verschillende algoritmen hebt gebouwd, kunt u met het validatiesteekproefje ook bepalen welk model het beste presteert.

Controleer of uw werk het model ontwikkelt en test. Wees in het bijzonder sceptisch als de prestaties of nauwkeurigheid van het model te mooi lijken om waar te zijn. Fouten kunnen optreden waar u ze het minst verwacht. Onjuiste berekeningsdata voor tijdreeksgegevens kunnen bijvoorbeeld tot foutieve resultaten leiden.

Kruisverificatie gebruiken

Kruisverificatie

is een populaire techniek die u kunt gebruiken om uw model te evalueren en te valideren. Hetzelfde principe van het gebruik van afzonderlijke datasets voor testen en training is hier van toepassing: de trainingsgegevens worden gebruikt om het model te bouwen; het model wordt tegen de testset uitgevoerd om gegevens te voorspellen die het nog niet eerder heeft gezien, wat een manier is om de nauwkeurigheid ervan te evalueren. Bij kruisvalidatie worden de historische gegevens gesplitst in X-aantallen subsets. Telkens wanneer een subset wordt gekozen om te worden gebruikt als testgegevens, worden de overige subsets gebruikt als trainingsgegevens. Bij de volgende run wordt de voormalige testset een van de trainingsets en wordt een van de eerdere trainingsets de testset.

Het proces gaat door totdat elke subset van dat X-aantal sets is gebruikt als testset.

Stel u bijvoorbeeld voor dat u een gegevensset hebt die u hebt verdeeld in 5 sets genummerd van 1 tot 5. In de eerste run gebruikt u set 1 als de testset en gebruikt u sets 2, 3, 4 en 5 als de trainingsset.Vervolgens gebruikt u bij de tweede run set 2 als testset en stelt u 1, 3, 4 en 5 in als trainingsset.

U gaat door met dit proces totdat elke subset van de 5 sets is gebruikt als testset.

Cross-validatie stelt u in staat elk gegevenspunt in uw historische gegevens te gebruiken voor zowel training als testen. Deze techniek is effectiever dan alleen maar het splitsen van uw historische gegevens in twee sets, met behulp van de set met de meeste gegevens voor training, met behulp van de andere set om te testen, en daarbij te laten.

Wanneer u uw gegevens kruis-valideert, beschermt u uzelf tegen het willekeurig verzamelen van testgegevens die te gemakkelijk te voorspellen zijn - waardoor u de verkeerde indruk zou krijgen dat uw model juist is. Of, als u testgegevens kiest die te moeilijk zijn om te voorspellen, kunt u ten onrechte concluderen dat uw model niet werkt zoals u had gehoopt.

Cross-validatie wordt veel gebruikt, niet alleen om de nauwkeurigheid van modellen te valideren, maar ook om de prestaties van meerdere modellen te vergelijken.

Hoe vertekening en variantie in balans te brengen

Bias en variantie zijn twee foutenbronnen die kunnen optreden tijdens het samenstellen van uw analytische model.

Bias

is het resultaat van het bouwen van een model dat de presentatie van de relaties tussen gegevenspunten aanzienlijk vereenvoudigt in de historische gegevens die zijn gebruikt om het model te bouwen. Variantie

is het resultaat van het bouwen van een model dat expliciet specifiek is voor de gegevens die zijn gebruikt om het model te bouwen. Een balans vinden tussen vooringenomenheid en variantie - door de variantie te verkleinen en een aantal vooroordelen te tolereren - kan leiden tot een beter voorspellend model. Deze wisselwerking leidt meestal tot het bouwen van minder complexe voorspellende modellen.

Er zijn veel algoritmen voor gegevensmining gemaakt om rekening te houden met deze wisselwerking tussen vooringenomenheid en variantie.

Ideeën oplossen

Wanneer u uw model test en u merkt dat u nergens naartoe gaat, volgen hier enkele ideeën die u kunnen helpen weer op het goede pad te komen:

Controleer uw werk altijd dubbel. Misschien hebt u iets over het hoofd gezien waarvan u dacht dat het juist was, maar dat is het niet. Dergelijke fouten kunnen bijvoorbeeld zichtbaar zijn in de waarden van een voorspellende variabele in uw gegevensset of in de voorbewerking die u op de gegevens hebt toegepast.

Probeer een ander algoritme als het gekozen algoritme geen resultaten oplevert. U kunt bijvoorbeeld verschillende classificatie-algoritmen uitproberen en afhankelijk van uw gegevens en de bedrijfsdoelstellingen van uw model presteert een van deze mogelijk beter dan de andere.
Probeer verschillende variabelen te selecteren of maak nieuwe afgeleide variabelen aan. Wees altijd op zoek naar variabelen die voorspellende krachten hebben.
Raadpleeg regelmatig de experts van het bedrijfsdomein die u kunnen helpen de gegevens te begrijpen, variabelen te selecteren en de resultaten van het model te interpreteren.