Problemen aanpakken in voorspellende analyses - dummies

Voorspellende modellering wint aan populariteit als een hulpmiddel voor het beheer van vele aspecten van het bedrijfsleven. Door ervoor te zorgen dat gegevensanalyse goed wordt uitgevoerd, wordt het vertrouwen in de gebruikte modellen vergroot, wat op zijn beurt de benodigde buy-in voor voorspellende analyses kan genereren om onderdeel te worden van de standaardtoolkit van uw organisatie.

Wellicht is deze toegenomen populariteit het gevolg van de manier waarop een project met voorspellende analyses de besluitvorming kan ondersteunen door modellen te maken die datasets beschrijven, mogelijke nieuwe patronen en trends te ontdekken (zoals aangegeven door de gegevens) en uitkomsten te voorspellen met een grotere betrouwbaarheid.

Om dit doel te bereiken, moet een project met voorspellende analyse een model leveren dat het beste bij de gegevens past door de beslissingsvariabelen correct en efficiënt te selecteren. Enkele essentiële vragen moeten op weg naar dat doel worden beantwoord:

Wat zijn de minimale aannames en beslissingsvariabelen die het mogelijk maken dat het model het best past bij de gegevens?
Hoe verhoudt het model in aanbouw zich tot andere toepasselijke modellen?
Welke criteria zijn het beste voor het evalueren en scoren van dit model?

Nogmaals, u kunt de stem van de ervaring te hulp roepen: domeinkennisexperts kunnen deze vragen bespreken, alle resultaten interpreteren die verborgen patronen in de gegevens tonen en helpen bij het verifiëren en valideren van de uitvoer van het model.

De beperkingen van het voorspellende analysemodel beschrijven

Elk voorspellend analytisch model heeft bepaalde beperkingen op basis van de algoritmen die het gebruikt en de gegevensset waarop het wordt uitgevoerd. Je moet je bewust zijn van die beperkingen en ze laten werken in je voordeel; die gerelateerd aan de algoritmen omvatten

Of de gegevens niet-lineaire patronen bevatten (vormt geen lijn)
Hoe gecorreleerd de variabelen zijn (statistische relaties tussen functies)
Of de variabelen onafhankelijk zijn (geen relaties tussen kenmerken)
Of de reikwijdte van de voorbeeldgegevens het model gevoelig maakt voor overfitting

Gebruik de cross-validation -technieken om uw modellen te testen om de beperkingen van uw model te overwinnen. Begin met het indelen van uw gegevens in trainings- en testgegevenssets en voer het model afzonderlijk uit voor elk van die gegevenssets om de voorspellingen van het model te evalueren en te scoren.

Uw voorspellende analysemodel testen en evalueren

Geen enkel model kan 100 procent nauwkeurige prognoses produceren; elk model heeft het potentieel om onnauwkeurige resultaten te produceren. Wees op uw hoede voor een significante variatie tussen de voorspellingen die uw model produceert en de waargenomen gegevens - vooral als de resultaten van het model in tegenspraak zijn met gezond verstand.Als het er te goed, slecht of extreem uitziet om waar te zijn, dan is het waarschijnlijk niet waar (in werkelijkheid trouwens).

Bekijk in het evaluatieproces de uitgangen van de modellen die u test grondig en vergelijk ze met de ingangsvariabelen. De prognosemogelijkheden van uw model moeten beantwoorden aan alle gestelde bedrijfsdoelen die de oprichting ervan in de eerste plaats hebben gedreven.

Als fouten of vooroordelen in de uitvoer van uw model voorkomen, probeert u ze terug te traceren naar

De geldigheid, betrouwbaarheid en relatieve seizoensgebondenheid van de gegevens
Aannames die zijn gebruikt in het model
Variabelen die zijn opgenomen of uitgesloten in de analyse

Werk samen met zakelijke gebruikers om elke stap van het proces van uw model te evalueren; zorg ervoor dat de modeluitgangen gemakkelijk kunnen worden geïnterpreteerd en gebruikt in een zakelijke situatie in de echte wereld. Breng de nauwkeurigheid en betrouwbaarheid van het model in evenwicht met hoe gemakkelijk de outputs van het model kunnen worden geïnterpreteerd en praktisch kunnen worden gebruikt.

Niet-schaalbare modellen voor voorspellende analyse vermijden

Houd bij het bouwen van een model altijd schaalbaarheid in het achterhoofd. Controleer altijd de prestaties, nauwkeurigheid en betrouwbaarheid van het model op verschillende schalen. Uw model moet in staat zijn om de schaal te veranderen - en zo groot als nodig op te schalen - zonder uit elkaar te vallen of slechte voorspellingen te doen.

Schaalbaarheid was in het verleden nogal een uitdaging. Voorspellende modellen duurden lang om te bouwen en uit te voeren. De datasets waarop de modellen draaiden waren klein en de gegevens waren duur om te verzamelen, op te slaan en te doorzoeken. Maar dat was allemaal in het tijdperk van de 'pre-big data'.

Tegenwoordig zijn big data goedkoop, overvloedig en groeien. In feite doemt een ander potentieel probleem op: het formidabele datavolume dat momenteel beschikbaar is, kan een negatief effect hebben op het model en de prestaties van het model verminderen, waardoor het in relatief korte tijd ouder is dan het model. Correct geïmplementeerd, schaalbaarheid kan uw model 'toekomstbestendig' maken.

De toekomst is niet de enige bedreiging. Zelfs in het huidige online tijdperk kunnen gestreamde gegevens een model overweldigen, vooral als de gegevensstromen toenemen tot een overstroming.

Alleen al gegevensvolume kan ertoe leiden dat de beslissingsvariabelen en voorspellende factoren toenemen tot reuzengetallen die voortdurend moeten worden bijgewerkt naar het model. Dus ja, je model kan beter schaalbaar zijn - snel schaalbaar.