Huis Persoonlijke financiën Testen van het voorspellende analysemodel - dummies

Testen van het voorspellende analysemodel - dummies

Inhoudsopgave:

Video: Testing in the digital age - de reis naar voorspellend testen met AI 2024

Video: Testing in the digital age - de reis naar voorspellend testen met AI 2024
Anonim

Om het voorspellende analysemodel dat u heeft gebouwd te kunnen testen, moet u uw dataset opsplitsen in twee sets: training en testdatasets. Deze datasets moeten willekeurig worden geselecteerd en moeten een goede weergave zijn van de werkelijke populatie.

  • Vergelijkbare gegevens moeten worden gebruikt voor zowel de trainings- als testgegevenssets.

  • Normaal gesproken is de trainingsgegevensset aanzienlijk groter dan de testgegevensset.

  • Met behulp van de testgegevensset kunt u fouten zoals overfitting voorkomen.

  • Het getrainde model wordt tegen testgegevens uitgevoerd om te zien hoe goed het model zal presteren.

Sommige gegevenswetenschappers geven er de voorkeur aan een derde gegevensreeks te hebben met kenmerken die vergelijkbaar zijn met die van de eerste twee: een validatiegegevensset . Het idee is dat als u uw testgegevens actief gebruikt om uw model te verfijnen, u een afzonderlijke (derde) set moet gebruiken om de nauwkeurigheid van het model te controleren.

Het hebben van een validatiegegevensset, die niet werd gebruikt als onderdeel van het ontwikkelingsproces van uw model, draagt ​​bij aan een neutrale schatting van de nauwkeurigheid en werkzaamheid van het model.

Als u meerdere modellen met verschillende algoritmen hebt gebouwd, kunt u met het validatiesteekproefje ook bepalen welk model het beste presteert.

Controleer of uw werk het model ontwikkelt en test. Wees in het bijzonder sceptisch als de prestaties of nauwkeurigheid van het model te mooi lijken om waar te zijn. Fouten kunnen optreden waar u ze het minst verwacht. Onjuiste berekeningsdata voor tijdreeksgegevens kunnen bijvoorbeeld tot foutieve resultaten leiden.

Kruisverificatie gebruiken

Kruisverificatie

is een populaire techniek die u kunt gebruiken om uw model te evalueren en te valideren. Hetzelfde principe van het gebruik van afzonderlijke datasets voor testen en training is hier van toepassing: de trainingsgegevens worden gebruikt om het model te bouwen; het model wordt tegen de testset uitgevoerd om gegevens te voorspellen die het nog niet eerder heeft gezien, wat een manier is om de nauwkeurigheid ervan te evalueren. Bij kruisvalidatie worden de historische gegevens gesplitst in X-aantallen subsets. Telkens wanneer een subset wordt gekozen om te worden gebruikt als testgegevens, worden de overige subsets gebruikt als trainingsgegevens. Bij de volgende run wordt de voormalige testset een van de trainingsets en wordt een van de eerdere trainingsets de testset.

Het proces gaat door totdat elke subset van dat X-aantal sets is gebruikt als testset.

Stel u bijvoorbeeld voor dat u een gegevensset hebt die u hebt verdeeld in 5 sets genummerd van 1 tot 5. In de eerste run gebruikt u set 1 als de testset en gebruikt u sets 2, 3, 4 en 5 als de trainingsset.Vervolgens gebruikt u bij de tweede run set 2 als testset en stelt u 1, 3, 4 en 5 in als trainingsset.

U gaat door met dit proces totdat elke subset van de 5 sets is gebruikt als testset.

Cross-validatie stelt u in staat elk gegevenspunt in uw historische gegevens te gebruiken voor zowel training als testen. Deze techniek is effectiever dan alleen maar het splitsen van uw historische gegevens in twee sets, met behulp van de set met de meeste gegevens voor training, met behulp van de andere set om te testen, en daarbij te laten.

Wanneer u uw gegevens kruis-valideert, beschermt u uzelf tegen het willekeurig verzamelen van testgegevens die te gemakkelijk te voorspellen zijn - waardoor u de verkeerde indruk zou krijgen dat uw model juist is. Of, als u testgegevens kiest die te moeilijk zijn om te voorspellen, kunt u ten onrechte concluderen dat uw model niet werkt zoals u had gehoopt.

Cross-validatie wordt veel gebruikt, niet alleen om de nauwkeurigheid van modellen te valideren, maar ook om de prestaties van meerdere modellen te vergelijken.

Hoe vertekening en variantie in balans te brengen

Bias en variantie zijn twee foutenbronnen die kunnen optreden tijdens het samenstellen van uw analytische model.

Bias

is het resultaat van het bouwen van een model dat de presentatie van de relaties tussen gegevenspunten aanzienlijk vereenvoudigt in de historische gegevens die zijn gebruikt om het model te bouwen. Variantie

is het resultaat van het bouwen van een model dat expliciet specifiek is voor de gegevens die zijn gebruikt om het model te bouwen. Een balans vinden tussen vooringenomenheid en variantie - door de variantie te verkleinen en een aantal vooroordelen te tolereren - kan leiden tot een beter voorspellend model. Deze wisselwerking leidt meestal tot het bouwen van minder complexe voorspellende modellen.

Er zijn veel algoritmen voor gegevensmining gemaakt om rekening te houden met deze wisselwerking tussen vooringenomenheid en variantie.

Ideeën oplossen

Wanneer u uw model test en u merkt dat u nergens naartoe gaat, volgen hier enkele ideeën die u kunnen helpen weer op het goede pad te komen:

Controleer uw werk altijd dubbel. Misschien hebt u iets over het hoofd gezien waarvan u dacht dat het juist was, maar dat is het niet. Dergelijke fouten kunnen bijvoorbeeld zichtbaar zijn in de waarden van een voorspellende variabele in uw gegevensset of in de voorbewerking die u op de gegevens hebt toegepast.

  • Probeer een ander algoritme als het gekozen algoritme geen resultaten oplevert. U kunt bijvoorbeeld verschillende classificatie-algoritmen uitproberen en afhankelijk van uw gegevens en de bedrijfsdoelstellingen van uw model presteert een van deze mogelijk beter dan de andere.

  • Probeer verschillende variabelen te selecteren of maak nieuwe afgeleide variabelen aan. Wees altijd op zoek naar variabelen die voorspellende krachten hebben.

  • Raadpleeg regelmatig de experts van het bedrijfsdomein die u kunnen helpen de gegevens te begrijpen, variabelen te selecteren en de resultaten van het model te interpreteren.

Testen van het voorspellende analysemodel - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...