Trainen, valideren en testen van machine learning - dummies

Video: Train, Test, & Validation Sets explained 2024

In een perfecte wereld zou u een test kunnen uitvoeren op gegevens die uw machine-learningalgoritme nooit eerder heeft geleerd. Wachten op nieuwe gegevens is echter niet altijd haalbaar in termen van tijd en kosten.

Als eerste eenvoudige oplossing kunt u uw gegevens willekeurig splitsen in trainings- en testsets. De algemene verdeling is van 25 tot 30 procent voor testen en de resterende 75 tot 70 procent voor training. U splitst uw gegevens die bestaan uit uw antwoord en functies tegelijkertijd, waarbij u de correspondentie tussen elk antwoord en de bijbehorende functies bijhoudt.

De tweede remedie treedt op wanneer u uw leeralgoritme moet afstemmen. In dit geval is het testen van gesplitste gegevens geen goede gewoonte, omdat het een ander soort van overcompacte snooping veroorzaakt. Om snooping te voorkomen, heb je een derde split nodig, een validatieset genaamd. Een gesplitste keuze is om uw voorbeelden in drie te delen: 70 procent voor training, 20 procent voor validatie en 10 procent voor testen.

U dient de splitsing willekeurig uit te voeren, dat wil zeggen onafhankelijk van de initiële ordening van de gegevens. Anders zal uw test niet betrouwbaar zijn, omdat het bestellen overschatting zou kunnen veroorzaken (wanneer er een zinvolle volgorde is) of onderschatting (wanneer de distributie te veel verschilt). Als oplossing moet u ervoor zorgen dat de testverzamelingsdistributie niet erg verschilt van de trainingsdistributie en dat sequentiële ordening plaatsvindt in de gesplitste gegevens.

Controleer bijvoorbeeld of identificatienummers, indien beschikbaar, doorlopend zijn in uw sets. Soms, zelfs als u zich strikt houdt aan willekeurige steekproeven, kunt u niet altijd vergelijkbare verdelingen tussen sets verkrijgen, vooral als uw aantal voorbeelden klein is.

Wanneer uw aantal voorbeelden n hoog is, zoals n> 10, 000, kunt u vrij zeker een willekeurig gesplitste gegevensset maken. Als de gegevensset kleiner is, kunt u door vergelijking van basisstatistieken zoals gemiddelde, modus, mediaan en variantie over het antwoord en functies in de trainings- en testsets, beter begrijpen of de testset niet geschikt is. Wanneer u niet zeker weet of de splitsing klopt, berekent u gewoon een nieuwe.