Huis Persoonlijke financiën Vermijden van monsterafwijkingen en lekkage-valstrikken bij machine learning - dummies

Vermijden van monsterafwijkingen en lekkage-valstrikken bij machine learning - dummies

Video: Metafoor touwtrekken met een monster (Vermijding vs Acceptatie) 2024

Video: Metafoor touwtrekken met een monster (Vermijding vs Acceptatie) 2024
Anonim

De validatieaanpak van machine learning is een onderzoek naar een mogelijke remedie tegen bias in de steekproef. In de sampling-vertekening kan uw data gebeuren voordat machine-learning in actie wordt gebracht en veroorzaakt een grote variatie van de volgende schattingen. Daarnaast moet u letten op lekkage-vallen die kunnen optreden wanneer bepaalde informatie uit het out-of-sample wordt doorgegeven aan in-sample-gegevens. Dit probleem kan optreden wanneer u de gegevens voorbereidt of nadat uw machine-leermodel gereed is en werkt.

De remedie, die ensembling van predictoren wordt genoemd, werkt perfect wanneer je trainingsmonster niet volledig is vervormd en de verdeling ervan verschilt van de out-of-sample, maar niet op een onherstelbare manier, zoals zoals wanneer al uw klassen aanwezig zijn, maar niet in de juiste verhouding (als voorbeeld). In dergelijke gevallen worden uw resultaten beïnvloed door een zekere variantie van de schattingen die u mogelijk op een van de volgende manieren kunt stabiliseren: door opnieuw te samplen, zoals bij bootstrappen; door subsampling (het nemen van een monster van het monster); of door kleinere monsters te gebruiken (wat de bias verhoogt).

Om te begrijpen hoe ensembling zo effectief werkt, visualiseer je het beeld van een schot in de roos. Als uw steekproef de voorspellingen beïnvloedt, zullen sommige voorspellingen exact zijn en zullen anderen op een willekeurige manier fout zitten. Als u uw voorbeeld wijzigt, blijven de juiste voorspellingen gelijk, maar de verkeerde varianten worden variaties tussen verschillende waarden. Sommige waarden zijn de exacte voorspelling die u zoekt; anderen zullen gewoon rond de juiste oscilleren.

Door de resultaten te vergelijken, kunt u raden dat wat terugkeert het juiste antwoord is. Je kunt ook een gemiddelde van de antwoorden nemen en raden dat het juiste antwoord in het midden van de waarden zou moeten staan. Met het schot in de roos kunt u foto's van verschillende games over elkaar heen plaatsen: als het probleem variantie betreft, zult u uiteindelijk raden dat het doelwit zich in het gebied met de meeste klappen bevindt of in elk geval in het midden van alle opnamen.

In de meeste gevallen blijkt een dergelijke aanpak correct te zijn en worden uw voorspellingen voor machinaal leren veel verbeterd. Wanneer uw probleem vertekening is en geen variantie, veroorzaakt het gebruik van ensemble echt geen schade tenzij u te weinig monsters samplet. Een goede vuistregel voor subsampling is om een ​​monster te nemen van 70 tot 90 procent in vergelijking met de originele in-sample data. Als u ensembling-werk wilt maken, moet u het volgende doen:

  • Itereer een groot aantal keren via uw gegevens en modellen (van slechts een minimum van drie iteraties tot idealiter honderden keren).
  • Telkens als u itereert, subsample (of anders bootstrap) uw in-sample gegevens.
  • Gebruik machine learning voor het model op de opnieuw bemonsterde gegevens en voorspel de out-of-sample resultaten. Bewaar deze resultaten voor later gebruik.
  • Aan het einde van de iteraties neemt u voor alle buiten de steekproef opgenomen casussen die u wilt voorspellen alle voorspellingen op en waardeert u deze als u een regressie uitvoert. Neem de meest voorkomende klas als je een classificatie aan het doen bent.

Lekkage vallen kunnen u verrassen omdat ze een onbekende en onontdekte bron van problemen met uw machine leerprocessen kunnen blijken te zijn. Het probleem is snooping of anderszins te veel observeren van de out-of-sample data en het te vaak aanpassen. Kortom, snooping is een soort van overfittering - en niet alleen op de trainingsgegevens, maar ook op de testgegevens, waardoor het overfitting-probleem zelf moeilijker te detecteren is totdat je nieuwe gegevens krijgt.

Meestal besef je dat het probleem snuffelen is wanneer je het algoritme voor machinaal leren al hebt toegepast op je bedrijf of op een service voor het publiek, waardoor het probleem een ​​probleem is dat iedereen kan zien.

Je kunt voorkomen dat er op twee manieren wordt geknuffeld. Ten eerste, zorg er bij het gebruik van de gegevens voor dat de training-, validatie- en testgegevens netjes worden gescheiden. Neem bij het verwerken nooit enige informatie uit de validatie of test, zelfs de meest eenvoudige en onschuldig ogende voorbeelden. Erger nog is om een ​​complexe transformatie toe te passen met behulp van alle gegevens.

In de financiële wereld is het bijvoorbeeld algemeen bekend dat het berekenen van het gemiddelde en de standaarddeviatie (die u eigenlijk veel over de marktomstandigheden en het risico kan vertellen) van alle trainings- en testgegevens kostbare informatie over uw modellen kan lekken. Wanneer er lekkage optreedt, voeren algoritmen voor het leren van de machine voorspellingen uit op de testset in plaats van de out-of-sample-gegevens van de markten, wat betekent dat ze helemaal niet werkten, waardoor er geld verloren ging.

Controleer de prestaties van uw out-of-sample voorbeelden. In feite kunt u wat informatie van uw rondneuzen in de testresultaten terughalen om u te helpen vaststellen dat bepaalde parameters beter zijn dan andere, of u ertoe brengen om een ​​algoritme voor machine-learning te kiezen in plaats van een ander. Pas voor elk model of elke parameter uw keuze toe op basis van cross-validatieresultaten of van de validatie-steekproef. Val nooit voor het krijgen van afhaalrestaurants van uw out-of-sample data of u zult er later spijt van krijgen.

Vermijden van monsterafwijkingen en lekkage-valstrikken bij machine learning - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...