Kennismaken met de grenzen van bias in machine-learning - dummies

Video: Is the world getting better or worse? A look at the numbers | Steven Pinker 2024

Het leren van machines hangt sterk af van de in-sample data. Dit deel van uw gegevens is belangrijk omdat u een standpunt van de wereld wilt ontdekken en zoals met alle gezichtspunten kan het verkeerd, vervormd of slechts gedeeltelijk zijn. U weet ook dat u een out-of-sample-voorbeeld nodig hebt om te controleren of het leerproces werkt. Deze aspecten vormen echter slechts een deel van het beeld.

Wanneer u een algoritme voor computerleren op gegevens laat werken om een bepaald antwoord te raden, neemt u effectief een gok en die gok is niet alleen vanwege het monster dat u gebruikt om te leren. Er is meer. Stel je nu voor dat je vrijelijk toegang hebt tot geschikte, onbevooroordeelde, in-sample data, dus data is niet het probleem. In plaats daarvan moet je je concentreren op de methode om te leren en te voorspellen.

Eerst moet je bedenken dat je gokt dat het algoritme het antwoord redelijkerwijs kan raden. Je kunt deze veronderstelling niet altijd maken omdat het uitzoeken van bepaalde antwoorden niet mogelijk is, wat je ook van tevoren weet.

U kunt bijvoorbeeld het gedrag van mensen niet volledig bepalen door hun eerdere geschiedenis en gedrag te kennen. Misschien is een willekeurig effect betrokken bij het generatieve proces van ons gedrag (het irrationele deel van ons bijvoorbeeld), of komt het probleem misschien neer op vrije wil (het probleem is ook een filosofische / religieuze kwestie, en er zijn veel disharmonische meningen). Daarom kun je alleen enkele soorten antwoorden raden, en voor veel anderen, zoals wanneer je het gedrag van mensen probeert te voorspellen, moet je een zekere mate van onzekerheid accepteren die, met geluk, acceptabel is voor je doeleinden.

Ten tweede moet je er rekening mee houden dat je wedt dat de relatie tussen de informatie die je hebt en de reactie die je wilt voorspellen, uitgedrukt kan worden als een wiskundige formule van een of andere soort, en dat jouw machine leert algoritme is eigenlijk in staat om die formule te raden. De capaciteit van uw algoritme om de wiskundige formule achter een antwoord te raden, is intrinsiek ingebed in de moeren en bouten van het algoritme.

Sommige algoritmen kunnen bijna alles raden; anderen hebben eigenlijk een beperkt aantal opties. Het bereik van mogelijke wiskundige formules die een algoritme kan raden, is de verzameling mogelijke hypotheses. Bijgevolg is een hypothese een enkel algoritme, gespecificeerd in al zijn parameters en daarom in staat tot een enkele, specifieke formulering.

Wiskunde is fantastisch. Het kan veel van de echte wereld beschrijven door een eenvoudige notatie te gebruiken, en het is de kern van machine learning omdat elk lerend algoritme een zeker vermogen heeft om een wiskundige formulering te vertegenwoordigen.Sommige algoritmen, zoals lineaire regressie, gebruiken expliciet een specifieke wiskundige formulering om aan te geven hoe een reactie (bijvoorbeeld de prijs van een huis) betrekking heeft op een reeks voorspellende informatie (zoals marktinformatie, huislocatie, oppervlakte van het landgoed, enzovoort).

Sommige formuleringen zijn zo complex en ingewikkeld dat ze weliswaar op papier kunnen worden weergegeven, maar dat dit in praktische termen te moeilijk is. Sommige andere geavanceerde algoritmen, zoals beslissingsbomen, hebben geen expliciete wiskundige formulering, maar zijn zo aanpasbaar dat ze eenvoudig kunnen worden ingesteld om een groot aantal formuleringen te benaderen. Beschouw als voorbeeld een eenvoudige en gemakkelijk verklaarde formulering. De lineaire regressie is slechts een lijn in een coördinatieruimte die wordt gegeven door de respons en alle voorspellers. In het eenvoudigste voorbeeld kunt u een respons, y en een enkele voorspeller, x, hebben met een formulering van

y = β ₁ x ₁ + β ₀

In een eenvoudige situatie van een reactie die wordt voorspeld door een enkele functie, is een dergelijk model perfect wanneer uw gegevens zich als een regel rangschikken. Wat gebeurt er echter als het dat niet doet en in plaats daarvan zich als een curve vormt? Om de situatie weer te geven, houdt u zich gewoon aan de volgende tweedimensionale weergaven.

Voorbeeld van een lineair model dat moeite heeft om een curvefunctie in kaart te brengen.

Wanneer punten op een lijn of wolk lijken, treedt er een fout op als u uitzoekt dat het resultaat een rechte lijn is; daarom is de afbeelding verschaft door de voorgaande formulering op de een of andere manier onnauwkeurig. De fout verschijnt echter niet systematisch maar willekeurig omdat sommige punten boven de toegewezen lijn liggen en andere eronder. De situatie met de gebogen, gevormde puntenwolk is anders, omdat deze keer de lijn soms exact is, maar op andere momenten is het systematisch verkeerd. Soms zijn punten altijd boven de lijn; soms staan ze eronder.

Gezien de eenvoud van het in kaart brengen van het antwoord, heeft uw algoritme de neiging om systematisch de echte regels achter de gegevens te overschatten of te onderschatten, wat de vertekening ervan weergeeft. De bias is kenmerkend voor eenvoudigere algoritmen die geen complexe wiskundige formuleringen kunnen uitdrukken.