Hoe het Markov-model te gebruiken in Predictive Analytics - dummies

Het Markov-model is een statistisch model dat kan worden gebruikt in voorspellende analyses die sterk afhankelijk zijn van de waarschijnlijkheidstheorie. (Het is genoemd naar een Russische wiskundige wiens primaire onderzoek was in de kansrekening.)

Dit is een praktisch scenario dat illustreert hoe het werkt: stel je voor dat je wilt voorspellen of Team X het spel van morgen zal winnen. Het eerste dat u moet doen, is het verzamelen van eerdere statistieken over Team X. De vraag die kan rijzen, is hoe ver terug u in de geschiedenis zou moeten gaan?

Laten we aannemen dat je achter elkaar de laatste 10 game-uitkomsten in het verleden hebt bereikt. Je wilt weten hoe waarschijnlijk het is dat Team X de volgende game wint, gezien de uitkomsten van de afgelopen 10 wedstrijden.

Het probleem is dat hoe verder je in de geschiedenis wilt gaan, hoe moeilijker en gecompliceerder de gegevensverzameling en kansberekening worden.

Geloof het of niet, het Markov-model vereenvoudigt je leven door je de Markov-veronderstelling te geven, die er zo uitziet als je het in woorden op schrift schrijft:

De kans dat een gebeurtenis zal plaatsvinden, gegeven n gebeurtenissen in het verleden, is ongeveer gelijk aan de waarschijnlijkheid dat een dergelijke gebeurtenis zal plaatsvinden, alleen gezien de laatste gebeurtenis uit het verleden.

Geschreven als een formule, ziet de Markov veronderstelling er als volgt uit:

Hoe dan ook, de Markov veronderstelling betekent dat je niet te ver terug in de geschiedenis hoeft te gaan om de uitkomst van morgen te voorspellen. U kunt gewoon de meest recente gebeurtenis uit het verleden gebruiken. Dit wordt de <1 eerste orde Markov-voorspelling genoemd omdat u alleen de laatste gebeurtenis overweegt om de toekomstige gebeurtenis te voorspellen.

A tweede orde Markov-voorspelling bevat alleen de laatste twee gebeurtenissen die opeenvolgend plaatsvinden. Uit de zojuist gegeven vergelijking kan de volgende veel gebruikte vergelijking ook worden afgeleid: Deze vergelijking is bedoeld om de waarschijnlijkheid te berekenen dat sommige gebeurtenissen in volgorde zullen plaatsvinden:

gebeurtenis 1 _na gebeurtenis 2 _{, enzovoort. Deze kans kan worden berekend door de waarschijnlijkheid van elke} gebeurtenis t _{te vermenigvuldigen met de volgende gebeurtenis in de reeks (gegeven de daaraan voorafgaande gebeurtenis). Stel dat je de waarschijnlijkheid wilt voorspellen dat Team X wint, verliest en vervolgens verliest.} Hier ziet u hoe een typisch voorspellend model op basis van een Markov-model zou werken. Overweeg hetzelfde voorbeeld: stel dat je de resultaten wilt voorspellen van een voetbalwedstrijd die door Team X wordt gespeeld. De drie mogelijke uitkomsten -

-statussen genoemd - zijn winst, verlies of gelijkspel. Stel dat je statistische gegevens uit het verleden hebt verzameld over de resultaten van voetbalwedstrijden van Team X en dat Team X zijn meest recente game verloor. Je wilt het resultaat van de volgende voetbalwedstrijd voorspellen. Het gaat erom te raden of Team X zal winnen, verliezen of gelijkspel - alleen op basis van gegevens uit eerdere games. Dus hier is hoe je een Markov-model gebruikt om die voorspelling te maken.

Bereken enkele kansen op basis van gegevens uit het verleden.

Hoe vaak heeft Team X bijvoorbeeld games verloren? Hoe vaak heeft Team X wedstrijden gewonnen? Stel je bijvoorbeeld eens voor dat Team X in totaal zes van de tien spellen heeft gewonnen. Vervolgens heeft Team X 60 procent van de tijd gewonnen. Met andere woorden, de kans op winnen voor Team X is 60 procent.

Bereken de kans op een verlies en dan de kans op gelijkspel, op dezelfde manier.
Gebruik de Naïve Bayes-waarschijnlijkheidsvergelijking om waarschijnlijkheden te berekenen, zoals de volgende:
De kans dat Team X wint, aangezien Team X de laatste game heeft verloren.
- De kans dat Team X verliest, aangezien Team X de laatste game heeft gewonnen.
- Bereken de kansen voor elke staat (winst, verlies of gelijkspel).
Ervan uitgaande dat het team slechts één spel per dag speelt, zijn de kansen als volgt:
P (Win | Loss) is de kans dat Team X vandaag zal winnen, gezien het feit dat het gisteren verloor.
- P (Win | Tie) is de kans dat Team X vandaag wint, aangezien het gisteren vastliep.
- P (Win | Win) is de kans dat Team X vandaag zal winnen, gezien het gisteren won.
- Maak met behulp van de berekende kansen een diagram.
Een cirkel in dit diagram geeft een mogelijke status weer die Team X op een bepaald moment kon behalen (winst, verlies, gelijkspel); de cijfers op de pijlen geven de kansen weer dat Team X van de ene staat naar de andere kan gaan.

Als Team X bijvoorbeeld net de wedstrijd van vandaag heeft gewonnen (de huidige status = overwinning), is de kans dat het team opnieuw wint 60 procent; de kans dat ze het volgende spel verliezen is 20 procent (in welk geval ze van huidige status = winnen naar toekomstige status = verlies).

Stel dat je de kans wilt weten dat Team X twee wedstrijden op rij wint en de derde verliest. Zoals je je misschien kunt voorstellen, is dat geen eenvoudige voorspelling.

Door de zojuist gemaakte grafiek en de Markov-aanname te gebruiken, kunt u eenvoudig de kansen voorspellen dat een dergelijke gebeurtenis zich voordoet. Je begint met de win-status, loopt opnieuw door de win-state en neemt 60 procent op; dan ga je naar de verliesstatus en registreer je 20 procent.

De kans dat Team X twee keer wint en de derde game verliest, wordt eenvoudig te berekenen: 60 procent keer 60 procent keer 20 procent, wat 60 procent * 60 procent * 20 procent is, of 72 procent.

Dus hoe groot is de kans dat Team X zal winnen, dan gelijkspel en daarna tweemaal verliest? Het antwoord is 20 procent (overgang van winstaat naar gelijkspel) maal 20 procent (overgang van gelijkspel naar verlies), keer 35 procent (overgang van verlies naar verlies) maal 35 procent (verplaatsing van verlies naar verlies). Het resultaat is 49 procent.