Ontbrekende gegevens voor machine-learning identificeren - dummies

Video: Wethouder Waalre not amused over ontbrekende gegevens 2024

Zelfs als u voldoende voorbeelden bij de hand heeft voor het trainen van zowel eenvoudige als complexe algoritmen voor het leren van machines, moeten zij volledige waarden in de functies presenteren, zonder ontbrekende gegevens. Het hebben van een onvolledig voorbeeld maakt het onmogelijk om alle signalen binnen en tussen functies te verbinden. Ontbrekende waarden maken het ook moeilijk voor het algoritme om tijdens de training te leren. U moet iets doen aan de ontbrekende gegevens.

Meestal kunt u ontbrekende waarden negeren of repareren door een waarschijnlijke vervangingswaarde te raden. Te veel ontbrekende waarden geven echter meer onzekere voorspellingen omdat ontbrekende informatie elk mogelijk cijfer zou kunnen verbergen; bijgevolg, hoe meer ontbrekende waarden in de functies, hoe variabeler en onnauwkeuriger de voorspellingen.

Tel als eerste het aantal ontbrekende gevallen in elke variabele. Wanneer een variabele te veel ontbrekende gevallen bevat, moet u deze mogelijk uit de trainings- en testgegevensset verwijderen. Een goede vuistregel is om een variabele te laten vallen als meer dan 90 procent van de instanties ontbreekt.

Sommige leeralgoritmen weten niet hoe ze moeten omgaan met ontbrekende waarden en fouten rapporteren in zowel de training- als de testfase, terwijl andere modellen ze als nulwaarden behandelen, waardoor de voorspelde waarde of waarschijnlijkheid wordt onderschat (het is net alsof een deel van de formule niet goed werkt). Daarom moet u alle ontbrekende waarden in uw gegevensmatrix vervangen door een geschikte waarde om het leren van de machine correct te laten verlopen.

Er zijn veel redenen voor ontbrekende gegevens, maar het essentiële punt is of de gegevens willekeurig of in een specifieke volgorde ontbreken. Willekeurige ontbrekende gegevens zijn ideaal omdat u de waarde ervan kunt raden met behulp van een eenvoudig gemiddelde, een mediaan of een ander algoritme voor het leren van machines, zonder al te veel zorgen. Sommige gevallen bevatten een sterke voorkeur voor bepaalde soorten voorbeelden.

Denk bijvoorbeeld aan het geval van het bestuderen van het inkomen van een bevolking. Rijke mensen (om belastingredenen vermoedelijk) hebben de neiging hun echte inkomen te verbergen door aan u te melden dat zij het niet weten. Arme mensen, aan de andere kant, kunnen zeggen dat ze hun inkomen niet willen rapporteren uit angst voor een negatief oordeel. Als u informatie uit bepaalde lagen van de bevolking mist, kan het repareren van de ontbrekende gegevens moeilijk en misleidend zijn, omdat u denkt dat dergelijke gevallen net als de andere zijn.

In plaats daarvan zijn ze heel anders. Daarom kunt u niet gewoon gemiddelde waarden gebruiken om de ontbrekende waarden te vervangen - u moet complexe benaderingen gebruiken en ze zorgvuldig afstemmen.Bovendien is het moeilijk om gevallen te identificeren die niet willekeurig gegevens missen, omdat nader moet worden onderzocht hoe ontbrekende waarden worden geassocieerd met andere variabelen in de gegevensset.

Wanneer gegevens willekeurig ontbreken, kunt u de lege waarden eenvoudig herstellen, omdat u hints naar hun werkelijke waarde verkrijgt op basis van andere variabelen. Wanneer gegevens niet willekeurig ontbreken, kunt u geen goede hints krijgen van andere beschikbare informatie, tenzij u de gegevenskoppeling met de ontbrekende aanvraag begrijpt.

Als u dus ontbrekende inkomsten in uw gegevens moet berekenen en deze missen omdat de persoon rijk is, kunt u de ontbrekende waarde niet vervangen door een eenvoudig gemiddelde, omdat u deze zult vervangen door een gemiddeld inkomen. Gebruik in plaats daarvan een gemiddelde van het inkomen van rijke mensen als vervanging.

Wanneer gegevens niet willekeurig ontbreken, is het feit dat de waarde ontbreekt, informatief omdat het helpt de ontbrekende groep op te sporen. U kunt de klus laten rusten door te zoeken naar de reden dat deze ontbreekt in uw machine learning-algoritme door een nieuwe binaire functie te bouwen die rapporteert wanneer de waarde van een variabele ontbreekt. Bijgevolg zal het algoritme voor het leren van de machine de beste waarde vinden om te gebruiken als een vervanging op zichzelf.