Video: The Choice is Ours (2016) Official Full Version 2024
De reden mensen samplen hun gegevens voor het uitvoeren van statistische analyses in Hadoop is dat dit soort analyse vaak aanzienlijke computerresources vereist. Dit gaat niet alleen om gegevensvolumes: er zijn vijf belangrijke factoren die de schaal van statistische analyse beïnvloeden:
-
Deze is eenvoudig, maar we moeten het vermelden: de hoeveelheid gegevens waarop u de analyse zult uitvoeren, bepaalt beslist de schaal van de analyse.
-
Het aantal transformaties dat nodig is op de dataset voordat statistische modellen worden toegepast, is absoluut een factor.
-
Het aantal paarsgewijze correlaties dat u moet berekenen, speelt een rol.
-
De mate van complexiteit van de toe te passen statistische berekeningen is een factor.
-
Het aantal statistische modellen dat op uw dataset moet worden toegepast, speelt een belangrijke rol.
Hadoop biedt een uitweg uit dit dilemma door een platform aan te bieden voor het uitvoeren van massaal parallelle verwerkingsberekeningen op gegevens in Hadoop.
Door dit te doen, kan het de analytische gegevensstroom omdraaien; in plaats van de gegevens van de repository naar de analyseserver te verplaatsen, levert Hadoop analytics rechtstreeks aan de gegevens. Meer specifiek stelt HDFS je in staat om bergen gegevens op te slaan en vervolgens de berekening (in de vorm van MapReduce-taken) naar de slaafknooppunten te brengen.
De gemeenschappelijke uitdaging van het overstappen van traditionele symmetrische multi-processing statistische systemen (SMP) naar Hadoop-architectuur is de lokaliteit van de gegevens. Op traditionele SMP-platforms delen meerdere processors de toegang tot één enkele hoofdgeheugenbron.
In Hadoop repliceert HDFS partities van gegevens over meerdere knooppunten en machines. Ook moeten statistische algoritmen die zijn ontworpen voor het verwerken van gegevens in het geheugen zich nu aanpassen aan gegevenssets die zich uitstrekken over meerdere knooppunten / rekken en niet kunnen hopen in een enkel geheugenblok te passen.