Video: Forward by failure: science, medicine, and you | Kevin Jones | TEDxSaltLakeCity 2024
Wanneer u op technologie of instrumentatie vertrouwt om een voorspellende analysetaak uit te voeren, kan een glitch hier of daar ervoor zorgen dat deze instrumenten extreme of ongebruikelijke waarden registreren. Als sensoren waarnemingswaarden registreren die niet voldoen aan standaardnormen voor kwaliteitscontrole, kunnen ze echte storingen veroorzaken die in gegevens worden weerspiegeld.
Iemand die gegevens invoert, kan bijvoorbeeld gemakkelijk per ongeluk een extra 0 toevoegen aan het einde van een waarde, waardoor de invoer buiten bereik raakt en een uitbijter wordt geproduceerd.
Als je kijkt naar observatiegegevens die zijn verzameld door een watersensor die is geïnstalleerd in de haven van Baltimore - en het rapporteert een waterdiepte van 20 voet boven gemiddeld zeeniveau - heb je een uitbijter. De sensor is duidelijk verkeerd, tenzij Baltimore volledig is bedekt met water.
Gegevens kunnen uitschieters hebben vanwege externe gebeurtenissen of een fout van een persoon of een instrument.
Als een echte gebeurtenis zoals een flashcrash wordt herleid tot een fout in het systeem, zijn de gevolgen nog steeds reëel - maar als u de oorzaak van het probleem kent, kunt u concluderen dat er een fout zit in de gegevens, niet in uw model, was de schuldige als je model de gebeurtenis niet voorspelde.
Als u weet waar de uitbijter vandaan komt, bepaalt u zelf hoe u hiermee omgaat. Uitschieters die het gevolg zijn van fouten bij het invoeren van gegevens kunnen eenvoudig worden gecorrigeerd na raadpleging van de gegevensbron. Uitschieters die een veranderingsrealiteit weerspiegelen, kunnen u ertoe aanzetten om uw model te wijzigen.
Er is geen pasklaar antwoord als u beslist of u extreme gegevens wilt opnemen of negeren die geen fout of glitch zijn. Uw reactie hangt af van de aard van de analyse die u uitvoert - en van het type model dat u aan het bouwen bent. In enkele gevallen is de manier om met die uitbijters om te gaan eenvoudig:
-
Als u uw uitbijter traceert naar een fout bij het invoeren van gegevens wanneer u de gegevensbron raadpleegt, kunt u de gegevens eenvoudig corrigeren en (waarschijnlijk) het model intact houden.
-
Als die watersensor in Baltimore Harbor water tot een diepte van 20 voet boven gemiddeld zeeniveau meldt, en je bent in Baltimore, kijk uit je raam:
-
Als Baltimore niet volledig bedekt is met water, dan is de sensor is duidelijk verkeerd.
-
Als je een vis naar je ziet kijken, is de realiteit veranderd; misschien moet u uw model herzien.
-
-
De flitsongeval was misschien een eenmalige gebeurtenis (op de korte termijn, hoe dan ook), maar de effecten waren reëel - en als je de markt op de langere termijn hebt bestudeerd, weet je dat er weer iets soortgelijks kan gebeuren.Als uw bedrijf in financiën is en u de hele tijd met de aandelenmarkt omgaat, wilt u dat uw model rekening houdt met dergelijke aberraties.
Over het algemeen, als de uitkomst van een gebeurtenis die normaal gezien als een uitbijter wordt beschouwd, van grote invloed kan zijn op uw bedrijf, overweeg dan hoe u met deze gebeurtenissen in uw analyse omgaat. Houd deze algemene punten in gedachten over uitschieters:
-
Hoe kleiner de dataset, des te groter de impact uitbijters op de analyse.
-
Zorg er bij het ontwikkelen van uw model voor dat u ook technieken ontwikkelt om uitschieters te vinden en hun impact op uw bedrijf systematisch te begrijpen.
-
Het opsporen van uitbijters kan een complex proces zijn; er is geen eenvoudige manier om ze te identificeren.
-
Een domeinexpert (iemand die op de hoogte is van het veld dat u aan het modelleren bent) is uw beste go-to-persoon om te controleren of een gegevenspunt geldig is, een uitbijter die u kunt negeren of een uitbijter die u heeft om rekening mee te houden. De domeinexpert moet kunnen uitleggen welke factoren de uitschieter hebben gecreëerd, wat zijn variabiliteit is en wat de impact ervan is op het bedrijf.
-
Met visualisatiehulpmiddelen kunt u uitschieters in de gegevens herkennen. Als u het verwachte waardenbereik kent, kunt u ook eenvoudig gegevens opvragen die buiten dat bereik vallen.