Huis Persoonlijke financiën Hoe u Curve Fitting kunt gebruiken in Predictive Analytics - dummies

Hoe u Curve Fitting kunt gebruiken in Predictive Analytics - dummies

Inhoudsopgave:

Video: Advanced DataStudio: Curve Fitting & the Ideal Gas Law 2024

Video: Advanced DataStudio: Curve Fitting & the Ideal Gas Law 2024
Anonim

Curve fitting is een proces dat wordt gebruikt in voorspellende analyses waarbij het doel is om een curve die de wiskundige functie weergeeft die het best past bij de werkelijke (oorspronkelijke) gegevenspunten in een gegevensreeks.

De curve kan elk gegevenspunt passeren of binnen het grootste deel van de gegevens blijven, waarbij sommige gegevenspunten worden genegeerd in de hoop trends uit de gegevens te trekken. In beide gevallen wordt één enkele wiskundige functie toegewezen aan het hele gegevensbestand, met als doel alle gegevenspunten in te passen in een curve die trends afbakent en voorspelling ondersteunt.

Curve fitting kan op een van de volgende drie manieren worden bereikt:

  • Door een exacte fit voor elk datapunt te vinden (een proces met de naam interpolatie )

  • door binnen te blijven het grootste deel van de gegevens terwijl sommige gegevenspunten worden genegeerd in de hoop trends uit de gegevens te trekken

  • Door gegevensvereffening toe te passen om een ​​functie te bedenken die de afgevlakte grafiek

Curve fitting kan worden gebruikt om mogelijke gegevenspunten in te vullen om ontbrekende waarden te vervangen of om analisten te helpen de gegevens te visualiseren.

Wanneer u werkt aan het genereren van een voorspellend analysemodel, vermijd dan het perfect afstemmen van uw model op uw datamonster. Een dergelijk model zal - jammerlijk - mislukken om vergelijkbare maar variërende datasets buiten het datamonster te voorspellen. Een model dat te dicht bij een bepaald gegevensvoorbeeld past, is een klassieke fout die overfitting wordt genoemd.

De problemen van overfitting

In feite is het overfokken van een model wat er gebeurt als u het model overtraint om alleen uw voorbeeldgegevens te vertegenwoordigen - wat geen goede weergave is van de gegevens als geheel. Zonder een meer realistische dataset om aan te gaan, kan het model vervolgens worden geplaagd door fouten en risico's wanneer het operationeel wordt - en de gevolgen voor uw bedrijf kunnen ernstig zijn.

Het overfokken van een model is een veel voorkomende valkuil omdat mensen modellen willen maken die werken - en dus geneigd zijn om variabelen en parameters bij te stellen totdat het model perfect presteert - op te kleine gegevens. Vergissen is menselijk. Gelukkig is het ook menselijk om realistische oplossingen te creëren.

Zorg ervoor dat er een groot aantal testgegevens beschikbaar is die los staan ​​van uw voorbeeldgegevens om te voorkomen dat uw model te veel wordt aangepast aan uw voorbeeldgegevensset. Vervolgens kunt u de prestaties van uw model onafhankelijk meten voordat u het model operationeel maakt.

Dus een algemene beveiliging tegen overfitting is om uw gegevens in twee delen onder te verdelen: trainingsgegevens en testgegevens. De prestaties van het model ten opzichte van de testgegevens zullen u veel vertellen over of het model klaar is voor de echte wereld.

Een andere beste methode is om ervoor te zorgen dat uw gegevens de grotere populatie vertegenwoordigen van het domein waarvoor u modelleert. Alles wat een overtraind model kent, is de specifieke kenmerken van de voorbeeldgegevensset waarvoor het is opgeleid. Als je het model alleen op (zeg) sneeuwschoenverkopen traint in de winter, moet je niet verbaasd zijn als het jammerlijk faalt wanneer het opnieuw wordt uitgevoerd op gegevens uit een ander seizoen.

Hoe overfitting te voorkomen

Het is de moeite waard om te herhalen: te veel aanpassingen aan het model kunnen leiden tot overfitting. Een dergelijke tweak bevat te veel variabelen in de analyse. Houd die variabelen tot een minimum beperkt. Neem alleen variabelen op die u absoluut noodzakelijk acht, waarvan u denkt dat deze een significant verschil zullen maken voor de uitkomst.

Dit inzicht komt alleen voort uit een grondige kennis van het bedrijfsdomein waarin u zich bevindt. Dat is waar de expertise van domeinexperts u kan helpen voorkomen dat u in de val van overfitting raakt.

Hier volgt een lijst met best practices om te voorkomen dat uw model te veel wordt aangepast:

  • Kies een gegevensset om mee te werken die representatief is voor de populatie als geheel.

  • Deel uw dataset op in twee delen: trainingsgegevens en testgegevens.

  • Houd de geanalyseerde variabelen tot een gezond minimum voor de taak die voorhanden is.

  • Roep de hulp in van experts op het gebied van domeinkennis.

Op de aandelenmarkt is bijvoorbeeld een klassieke analysetechniek back-testing - een model uitvoeren op basis van historische gegevens om te zoeken naar de beste handelsstrategie.

Stel dat de analist, nadat hij zijn nieuwe model heeft uitgevoerd op basis van gegevens van een recente bull market en het aantal variabelen dat in zijn analyse is gebruikt, aanpast, wat eruitziet als een optimale handelsstrategie, een strategie die het hoogste rendement zou opleveren < indien kon hij teruggaan en alleen handelen gedurende het jaar dat de testgegevens produceerde. Helaas kan hij dat niet. Als hij dat model probeert toe te passen in een huidige bearmarkt, kijk dan hieronder: hij zal verliezen oplopen door een model toe te passen dat te lang is geoptimaliseerd en een reeks voorwaarden die niet passen in de huidige realiteit. (Zoveel voor hypothetische winsten.)

Het model werkte alleen voor die verdwenen bullmarkt omdat het overtraind was, met de kenmerken van de context die de voorbeeldgegevens opleverde - compleet met zijn specifieke kenmerken, uitbijters en tekortkomingen. Alle omstandigheden rond die dataset zullen waarschijnlijk niet in de toekomst worden herhaald, of in een getrouwe weergave van de hele populatie - maar ze kwamen allemaal naar voren in het overbelaste model.

Als de uitvoer van een model te nauwkeurig is, beschouw dat dan als een hint om van dichterbij te bekijken. Roep de hulp van domeinkennisexperts in om te zien of uw resultaten echt te mooi zijn om waar te zijn en voer dat model uit op meer testgegevens voor verdere vergelijkingen.

Hoe u Curve Fitting kunt gebruiken in Predictive Analytics - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...