Hoe u Curve Fitting kunt gebruiken in Predictive Analytics - dummies

Curve fitting is een proces dat wordt gebruikt in voorspellende analyses waarbij het doel is om een curve die de wiskundige functie weergeeft die het best past bij de werkelijke (oorspronkelijke) gegevenspunten in een gegevensreeks.

De curve kan elk gegevenspunt passeren of binnen het grootste deel van de gegevens blijven, waarbij sommige gegevenspunten worden genegeerd in de hoop trends uit de gegevens te trekken. In beide gevallen wordt één enkele wiskundige functie toegewezen aan het hele gegevensbestand, met als doel alle gegevenspunten in te passen in een curve die trends afbakent en voorspelling ondersteunt.

Curve fitting kan op een van de volgende drie manieren worden bereikt:

Door een exacte fit voor elk datapunt te vinden (een proces met de naam interpolatie )
door binnen te blijven het grootste deel van de gegevens terwijl sommige gegevenspunten worden genegeerd in de hoop trends uit de gegevens te trekken
Door gegevensvereffening toe te passen om een functie te bedenken die de afgevlakte grafiek

Curve fitting kan worden gebruikt om mogelijke gegevenspunten in te vullen om ontbrekende waarden te vervangen of om analisten te helpen de gegevens te visualiseren.

Wanneer u werkt aan het genereren van een voorspellend analysemodel, vermijd dan het perfect afstemmen van uw model op uw datamonster. Een dergelijk model zal - jammerlijk - mislukken om vergelijkbare maar variërende datasets buiten het datamonster te voorspellen. Een model dat te dicht bij een bepaald gegevensvoorbeeld past, is een klassieke fout die overfitting wordt genoemd.

De problemen van overfitting

In feite is het overfokken van een model wat er gebeurt als u het model overtraint om alleen uw voorbeeldgegevens te vertegenwoordigen - wat geen goede weergave is van de gegevens als geheel. Zonder een meer realistische dataset om aan te gaan, kan het model vervolgens worden geplaagd door fouten en risico's wanneer het operationeel wordt - en de gevolgen voor uw bedrijf kunnen ernstig zijn.

Het overfokken van een model is een veel voorkomende valkuil omdat mensen modellen willen maken die werken - en dus geneigd zijn om variabelen en parameters bij te stellen totdat het model perfect presteert - op te kleine gegevens. Vergissen is menselijk. Gelukkig is het ook menselijk om realistische oplossingen te creëren.

Zorg ervoor dat er een groot aantal testgegevens beschikbaar is die los staan van uw voorbeeldgegevens om te voorkomen dat uw model te veel wordt aangepast aan uw voorbeeldgegevensset. Vervolgens kunt u de prestaties van uw model onafhankelijk meten voordat u het model operationeel maakt.

Dus een algemene beveiliging tegen overfitting is om uw gegevens in twee delen onder te verdelen: trainingsgegevens en testgegevens. De prestaties van het model ten opzichte van de testgegevens zullen u veel vertellen over of het model klaar is voor de echte wereld.

Een andere beste methode is om ervoor te zorgen dat uw gegevens de grotere populatie vertegenwoordigen van het domein waarvoor u modelleert. Alles wat een overtraind model kent, is de specifieke kenmerken van de voorbeeldgegevensset waarvoor het is opgeleid. Als je het model alleen op (zeg) sneeuwschoenverkopen traint in de winter, moet je niet verbaasd zijn als het jammerlijk faalt wanneer het opnieuw wordt uitgevoerd op gegevens uit een ander seizoen.

Hoe overfitting te voorkomen

Het is de moeite waard om te herhalen: te veel aanpassingen aan het model kunnen leiden tot overfitting. Een dergelijke tweak bevat te veel variabelen in de analyse. Houd die variabelen tot een minimum beperkt. Neem alleen variabelen op die u absoluut noodzakelijk acht, waarvan u denkt dat deze een significant verschil zullen maken voor de uitkomst.

Dit inzicht komt alleen voort uit een grondige kennis van het bedrijfsdomein waarin u zich bevindt. Dat is waar de expertise van domeinexperts u kan helpen voorkomen dat u in de val van overfitting raakt.

Hier volgt een lijst met best practices om te voorkomen dat uw model te veel wordt aangepast:

Kies een gegevensset om mee te werken die representatief is voor de populatie als geheel.
Deel uw dataset op in twee delen: trainingsgegevens en testgegevens.
Houd de geanalyseerde variabelen tot een gezond minimum voor de taak die voorhanden is.
Roep de hulp in van experts op het gebied van domeinkennis.

Op de aandelenmarkt is bijvoorbeeld een klassieke analysetechniek back-testing - een model uitvoeren op basis van historische gegevens om te zoeken naar de beste handelsstrategie.

Stel dat de analist, nadat hij zijn nieuwe model heeft uitgevoerd op basis van gegevens van een recente bull market en het aantal variabelen dat in zijn analyse is gebruikt, aanpast, wat eruitziet als een optimale handelsstrategie, een strategie die het hoogste rendement zou opleveren < indien kon hij teruggaan en alleen handelen gedurende het jaar dat de testgegevens produceerde. Helaas kan hij dat niet. Als hij dat model probeert toe te passen in een huidige bearmarkt, kijk dan hieronder: hij zal verliezen oplopen door een model toe te passen dat te lang is geoptimaliseerd en een reeks voorwaarden die niet passen in de huidige realiteit. (Zoveel voor hypothetische winsten.)

Het model werkte alleen voor die verdwenen bullmarkt omdat het overtraind was, met de kenmerken van de context die de voorbeeldgegevens opleverde - compleet met zijn specifieke kenmerken, uitbijters en tekortkomingen. Alle omstandigheden rond die dataset zullen waarschijnlijk niet in de toekomst worden herhaald, of in een getrouwe weergave van de hele populatie - maar ze kwamen allemaal naar voren in het overbelaste model.

Als de uitvoer van een model te nauwkeurig is, beschouw dat dan als een hint om van dichterbij te bekijken. Roep de hulp van domeinkennisexperts in om te zien of uw resultaten echt te mooi zijn om waar te zijn en voer dat model uit op meer testgegevens voor verdere vergelijkingen.