Gebruiken Statistische modellen draaien in Hadoop's MapReduce - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Het converteren van statistische modellen om parallel te lopen, is een uitdagende taak. In het traditionele paradigma voor parallel programmeren wordt de geheugentoegang geregeld door het gebruik van threads - subprocessen die door het besturingssysteem zijn gemaakt om een enkel gedeeld geheugen over meerdere processors te distribueren.

Factoren zoals racevoorwaarden tussen concurrerende threads - wanneer twee of meer threads tegelijkertijd gedeelde gegevens proberen te wijzigen - kunnen de prestaties van uw algoritme beïnvloeden, evenals de nauwkeurigheid beïnvloeden van de statistische resultaten die uw programma afgeeft - in het bijzonder voor langlopende analyses van grote sample-sets.

Een pragmatische benadering van dit probleem is om aan te nemen dat niet veel statistici de ins en outs van MapReduce weten (en vice versa), noch kan je verwachten dat ze zich bewust zijn van alle valkuilen dat parallel programmeren met zich meebrengt. Bijdragers aan het Hadoop-project hebben (en blijven ontwikkelen) statistische hulpmiddelen met deze realiteiten in gedachten.

Het resultaat: Hadoop biedt vele oplossingen voor het implementeren van de algoritmen die vereist zijn voor het uitvoeren van statistische modellering en analyse, zonder de statisticus te overbelasten met genuanceerde parallelle programmeringsoverwegingen.