Huis Persoonlijke financiën Ontbrekende gegevens voor machine-learning identificeren - dummies

Ontbrekende gegevens voor machine-learning identificeren - dummies

Video: Wethouder Waalre not amused over ontbrekende gegevens 2024

Video: Wethouder Waalre not amused over ontbrekende gegevens 2024
Anonim

Zelfs als u voldoende voorbeelden bij de hand heeft voor het trainen van zowel eenvoudige als complexe algoritmen voor het leren van machines, moeten zij volledige waarden in de functies presenteren, zonder ontbrekende gegevens. Het hebben van een onvolledig voorbeeld maakt het onmogelijk om alle signalen binnen en tussen functies te verbinden. Ontbrekende waarden maken het ook moeilijk voor het algoritme om tijdens de training te leren. U moet iets doen aan de ontbrekende gegevens.

Meestal kunt u ontbrekende waarden negeren of repareren door een waarschijnlijke vervangingswaarde te raden. Te veel ontbrekende waarden geven echter meer onzekere voorspellingen omdat ontbrekende informatie elk mogelijk cijfer zou kunnen verbergen; bijgevolg, hoe meer ontbrekende waarden in de functies, hoe variabeler en onnauwkeuriger de voorspellingen.

Tel als eerste het aantal ontbrekende gevallen in elke variabele. Wanneer een variabele te veel ontbrekende gevallen bevat, moet u deze mogelijk uit de trainings- en testgegevensset verwijderen. Een goede vuistregel is om een ​​variabele te laten vallen als meer dan 90 procent van de instanties ontbreekt.

Sommige leeralgoritmen weten niet hoe ze moeten omgaan met ontbrekende waarden en fouten rapporteren in zowel de training- als de testfase, terwijl andere modellen ze als nulwaarden behandelen, waardoor de voorspelde waarde of waarschijnlijkheid wordt onderschat (het is net alsof een deel van de formule niet goed werkt). Daarom moet u alle ontbrekende waarden in uw gegevensmatrix vervangen door een geschikte waarde om het leren van de machine correct te laten verlopen.

Er zijn veel redenen voor ontbrekende gegevens, maar het essentiële punt is of de gegevens willekeurig of in een specifieke volgorde ontbreken. Willekeurige ontbrekende gegevens zijn ideaal omdat u de waarde ervan kunt raden met behulp van een eenvoudig gemiddelde, een mediaan of een ander algoritme voor het leren van machines, zonder al te veel zorgen. Sommige gevallen bevatten een sterke voorkeur voor bepaalde soorten voorbeelden.

Denk bijvoorbeeld aan het geval van het bestuderen van het inkomen van een bevolking. Rijke mensen (om belastingredenen vermoedelijk) hebben de neiging hun echte inkomen te verbergen door aan u te melden dat zij het niet weten. Arme mensen, aan de andere kant, kunnen zeggen dat ze hun inkomen niet willen rapporteren uit angst voor een negatief oordeel. Als u informatie uit bepaalde lagen van de bevolking mist, kan het repareren van de ontbrekende gegevens moeilijk en misleidend zijn, omdat u denkt dat dergelijke gevallen net als de andere zijn.

In plaats daarvan zijn ze heel anders. Daarom kunt u niet gewoon gemiddelde waarden gebruiken om de ontbrekende waarden te vervangen - u moet complexe benaderingen gebruiken en ze zorgvuldig afstemmen.Bovendien is het moeilijk om gevallen te identificeren die niet willekeurig gegevens missen, omdat nader moet worden onderzocht hoe ontbrekende waarden worden geassocieerd met andere variabelen in de gegevensset.

Wanneer gegevens willekeurig ontbreken, kunt u de lege waarden eenvoudig herstellen, omdat u hints naar hun werkelijke waarde verkrijgt op basis van andere variabelen. Wanneer gegevens niet willekeurig ontbreken, kunt u geen goede hints krijgen van andere beschikbare informatie, tenzij u de gegevenskoppeling met de ontbrekende aanvraag begrijpt.

Als u dus ontbrekende inkomsten in uw gegevens moet berekenen en deze missen omdat de persoon rijk is, kunt u de ontbrekende waarde niet vervangen door een eenvoudig gemiddelde, omdat u deze zult vervangen door een gemiddeld inkomen. Gebruik in plaats daarvan een gemiddelde van het inkomen van rijke mensen als vervanging.

Wanneer gegevens niet willekeurig ontbreken, is het feit dat de waarde ontbreekt, informatief omdat het helpt de ontbrekende groep op te sporen. U kunt de klus laten rusten door te zoeken naar de reden dat deze ontbreekt in uw machine learning-algoritme door een nieuwe binaire functie te bouwen die rapporteert wanneer de waarde van een variabele ontbreekt. Bijgevolg zal het algoritme voor het leren van de machine de beste waarde vinden om te gebruiken als een vervanging op zichzelf.

Ontbrekende gegevens voor machine-learning identificeren - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...