Huis Persoonlijke financiën Kennismaken met de grenzen van bias in machine-learning - dummies

Kennismaken met de grenzen van bias in machine-learning - dummies

Video: Is the world getting better or worse? A look at the numbers | Steven Pinker 2024

Video: Is the world getting better or worse? A look at the numbers | Steven Pinker 2024
Anonim

Het leren van machines hangt sterk af van de in-sample data. Dit deel van uw gegevens is belangrijk omdat u een standpunt van de wereld wilt ontdekken en zoals met alle gezichtspunten kan het verkeerd, vervormd of slechts gedeeltelijk zijn. U weet ook dat u een out-of-sample-voorbeeld nodig hebt om te controleren of het leerproces werkt. Deze aspecten vormen echter slechts een deel van het beeld.

Wanneer u een algoritme voor computerleren op gegevens laat werken om een ​​bepaald antwoord te raden, neemt u effectief een gok en die gok is niet alleen vanwege het monster dat u gebruikt om te leren. Er is meer. Stel je nu voor dat je vrijelijk toegang hebt tot geschikte, onbevooroordeelde, in-sample data, dus data is niet het probleem. In plaats daarvan moet je je concentreren op de methode om te leren en te voorspellen.

Eerst moet je bedenken dat je gokt dat het algoritme het antwoord redelijkerwijs kan raden. Je kunt deze veronderstelling niet altijd maken omdat het uitzoeken van bepaalde antwoorden niet mogelijk is, wat je ook van tevoren weet.

U kunt bijvoorbeeld het gedrag van mensen niet volledig bepalen door hun eerdere geschiedenis en gedrag te kennen. Misschien is een willekeurig effect betrokken bij het generatieve proces van ons gedrag (het irrationele deel van ons bijvoorbeeld), of komt het probleem misschien neer op vrije wil (het probleem is ook een filosofische / religieuze kwestie, en er zijn veel disharmonische meningen). Daarom kun je alleen enkele soorten antwoorden raden, en voor veel anderen, zoals wanneer je het gedrag van mensen probeert te voorspellen, moet je een zekere mate van onzekerheid accepteren die, met geluk, acceptabel is voor je doeleinden.

Ten tweede moet je er rekening mee houden dat je wedt dat de relatie tussen de informatie die je hebt en de reactie die je wilt voorspellen, uitgedrukt kan worden als een wiskundige formule van een of andere soort, en dat jouw machine leert algoritme is eigenlijk in staat om die formule te raden. De capaciteit van uw algoritme om de wiskundige formule achter een antwoord te raden, is intrinsiek ingebed in de moeren en bouten van het algoritme.

Sommige algoritmen kunnen bijna alles raden; anderen hebben eigenlijk een beperkt aantal opties. Het bereik van mogelijke wiskundige formules die een algoritme kan raden, is de verzameling mogelijke hypotheses. Bijgevolg is een hypothese een enkel algoritme, gespecificeerd in al zijn parameters en daarom in staat tot een enkele, specifieke formulering.

Wiskunde is fantastisch. Het kan veel van de echte wereld beschrijven door een eenvoudige notatie te gebruiken, en het is de kern van machine learning omdat elk lerend algoritme een zeker vermogen heeft om een ​​wiskundige formulering te vertegenwoordigen.Sommige algoritmen, zoals lineaire regressie, gebruiken expliciet een specifieke wiskundige formulering om aan te geven hoe een reactie (bijvoorbeeld de prijs van een huis) betrekking heeft op een reeks voorspellende informatie (zoals marktinformatie, huislocatie, oppervlakte van het landgoed, enzovoort).

Sommige formuleringen zijn zo complex en ingewikkeld dat ze weliswaar op papier kunnen worden weergegeven, maar dat dit in praktische termen te moeilijk is. Sommige andere geavanceerde algoritmen, zoals beslissingsbomen, hebben geen expliciete wiskundige formulering, maar zijn zo aanpasbaar dat ze eenvoudig kunnen worden ingesteld om een ​​groot aantal formuleringen te benaderen. Beschouw als voorbeeld een eenvoudige en gemakkelijk verklaarde formulering. De lineaire regressie is slechts een lijn in een coördinatieruimte die wordt gegeven door de respons en alle voorspellers. In het eenvoudigste voorbeeld kunt u een respons, y en een enkele voorspeller, x, hebben met een formulering van

y = β 1 x 1 + β 0

In een eenvoudige situatie van een reactie die wordt voorspeld door een enkele functie, is een dergelijk model perfect wanneer uw gegevens zich als een regel rangschikken. Wat gebeurt er echter als het dat niet doet en in plaats daarvan zich als een curve vormt? Om de situatie weer te geven, houdt u zich gewoon aan de volgende tweedimensionale weergaven.

Voorbeeld van een lineair model dat moeite heeft om een ​​curvefunctie in kaart te brengen.

Wanneer punten op een lijn of wolk lijken, treedt er een fout op als u uitzoekt dat het resultaat een rechte lijn is; daarom is de afbeelding verschaft door de voorgaande formulering op de een of andere manier onnauwkeurig. De fout verschijnt echter niet systematisch maar willekeurig omdat sommige punten boven de toegewezen lijn liggen en andere eronder. De situatie met de gebogen, gevormde puntenwolk is anders, omdat deze keer de lijn soms exact is, maar op andere momenten is het systematisch verkeerd. Soms zijn punten altijd boven de lijn; soms staan ​​ze eronder.

Gezien de eenvoud van het in kaart brengen van het antwoord, heeft uw algoritme de neiging om systematisch de echte regels achter de gegevens te overschatten of te onderschatten, wat de vertekening ervan weergeeft. De bias is kenmerkend voor eenvoudigere algoritmen die geen complexe wiskundige formuleringen kunnen uitdrukken.

Kennismaken met de grenzen van bias in machine-learning - dummies

Bewerkers keuze

Meten Elektronische golven: golfvormen te zien op een oscilloscoop - dummies

Meten Elektronische golven: golfvormen te zien op een oscilloscoop - dummies

Er zijn vier basistypen golfvormen die je steeds weer tegenkomt terwijl je met elektronische circuits werkt. Golfvormen zijn de karakteristieke patronen die oscilloscoopsporen gewoonlijk nemen. Deze patronen geven aan hoe de spanning in het signaal verandert in de loop van de tijd - stijgt en daalt langzaam of snel, is de spanning ...

Must-have-functies voor een handheld GPS - dummies

Must-have-functies voor een handheld GPS - dummies

Als u het gelukkigst bent in de vrije natuur, een handheld GPS-apparaat kan je nog gelukkiger maken. Gebruik een GPS-apparaat om te helpen met uw persoonlijke navigatiebehoeften, of u nu gaat varen, wandelen, geocachen of een andere buitenactiviteit uitvoert. De volgende tabel bevat de aanbevolen functies om u te helpen bij het kiezen van de juiste GPS-ontvanger voor uw doeleinden: ...

Meten van spullen met een multimeter - dummies

Meten van spullen met een multimeter - dummies

Een multimeter is een apparaat voor het testen van elektronica dat meerdere dingen test, waaronder weerstand, spanning en stroom. Met behulp van bepaalde multimetermodellen kunt u testen of componenten - zoals diodes, condensatoren en transistors - goed werken. U kunt ook problemen met uw circuit oplossen om te zien waar de stroom uitvalt en het probleem vaststellen ...

Bewerkers keuze

Organiseer uw blogontwerp met categorieën en tags - dummies

Organiseer uw blogontwerp met categorieën en tags - dummies

Categorieën en tags helpen uw lezers blogposts te vinden gemakkelijk. Effectief gebruik van blogcategorieën en tags helpt ook bij uw SEO (zoekmachineoptimalisatie). Uw gebruik van categorieën en tags is van invloed op het navigatieontwerp van uw blog, dus u moet wat tijd nemen om de blogcategorieën en -tags te selecteren die u wilt ...

Persoonlijke en professionele grenzen voor moederbloggers - dummies

Persoonlijke en professionele grenzen voor moederbloggers - dummies

In een interview, Heather Armstrong van Dooce. com onthulde hoe ze persoonlijke en professionele grenzen overschreed, met als gevolg dat ze haar baan verloor en haar familie pijn deed. Heather Armstrong begon te bloggen als een manier om haar frustraties met haar collega's te ventileren en om haar kritische mening over de mormoonse religie van haar familie te delen. Toen, zij ...

Persoonlijke schrijfstijl als een moederblogger - dummies

Persoonlijke schrijfstijl als een moederblogger - dummies

Als een moederblogger, moet u uw behoefte aan schrijf voor plezier met de noodzaak om iets aan je lezers te geven in elk bericht. Zelfs als je al een gevestigde schrijver bent, is het ontwikkelen van je persoonlijke schrijfstijl als een blogger iets dat alleen met de tijd kan komen. Als je gevestigde professionele bloggers vraagt ​​...

Bewerkers keuze

Praktische tips voor het bouwen van vertrouwen en rij-interactie - dummies

Praktische tips voor het bouwen van vertrouwen en rij-interactie - dummies

Hier zijn zes voorbeelden voor het opbouwen van vertrouwen en interactie stimuleren via sociale media. Of je nu probeert een volgertje op Twitter op te zetten of publiciteit voor je bedrijf op Facebook te genereren, hier zijn een paar voorbeelden van hoe het werkt.

Basisprincipes van Desktop Photo Editing Tools voor visuele sociale marketing - dummies

Basisprincipes van Desktop Photo Editing Tools voor visuele sociale marketing - dummies

Ongeacht de methode die u gebruikt gebruik om foto's te krijgen voor visuele sociale marketing, of je ze nu zelf neemt, een professional inhuurt of ze koopt, je hebt waarschijnlijk op een bepaald moment fotobewerkingstools nodig in je visuele strategie voor het maken van afbeeldingen voor het maken van afbeeldingen. U kunt gewoon een stockfoto die u hebt gekocht bijsnijden of de ...

3 Manieren om Sidebar-distracties van het ontwerp van uw blog te verwijderen - dummies

3 Manieren om Sidebar-distracties van het ontwerp van uw blog te verwijderen - dummies

Door bepaalde zijbalkinhoud toe te voegen leid de lezers van je blog echt af van je eigenlijke blogposts. Kies bij het ontwerpen van de zijbalk voor uw blog items die nuttig zijn voor de lezer en die u ook van dienst zijn.