Video: GHB: The Party Drug Killing Ravers 2024
Bij het werken met big data-statistieken identificeert u de verspreiding van een gegevensset vanuit het centrum met verschillende verschillende samenvattende metingen: variantie, standaard afwijking, kwartielen, interkwartielafstand (IQR).
Variantie is de gemiddelde gekwadrateerde afwijking tussen de elementen van de gegevensset en het gemiddelde. Voor een steekproef van gegevens wordt de variantie als volgt berekend:
waarbij
-
x i de waarde is van een enkel element in de steekproef.
-
is het steekproefgemiddelde.
-
n is de steekproefomvang.
De standaarddeviatie is de vierkantswortel van de variantie. Voor de meeste toepassingen is de standaardafwijking gemakkelijker in gebruik dan de variantie als spreidingsmaat. Dat komt omdat variantie wordt gemeten in vierkante eenheden, terwijl standaarddeviatie wordt gemeten in dezelfde eenheden als de gegevens. De variantie van een dataset bestaande uit prijzen zou bijvoorbeeld worden gemeten in dollars in het kwadraat, en de standaarddeviatie zou in dollars worden gemeten. Standaarddeviatie is de meest gebruikte maat voor de spreiding in een gegevensset.
Quartiles verdelen een dataset in vier gelijke delen. Het eerste kwartiel (Q 1 ) verdeelt de gegevens in de laagste 25 procent van de waarnemingen en de hoogste 75 procent (25 procent van de waarnemingen is minder dan Q 1 < en 75 procent is groter dan Q 1 ). Het tweede kwartiel (Q 2 ) verdeelt de gegevens in de laagste 50 procent van de waarnemingen en de hoogste 50 procent. Het derde kwartiel (Q 3 ) verdeelt de gegevens in de laagste 75 procent van de waarnemingen en de hoogste 25 procent. Het interkwartielbereik (IQR) is gelijk aan het verschil tussen het derde en het eerste kwartiel:
De kwartielen van een gegevensset worden het best geïllustreerd met een
boxplot. De volgende afbeelding toont een boxplot van de dagelijkse retouren naar ExxonMobil in 2013. Boxplot van dagelijkse terugkeer naar ExxonMobil-aandelen in 2013.
De boxplot toont verschillende belangrijke statistieken voor het rendement van ExxonMobil: > Het minimumrendement wordt in een grafiek weergegeven als een enkel punt onderaan de plot (een boxplot toontuitschieters
als afzonderlijke punten). Q 1 wordt weergegeven als de onderkant van de doos, Q 2 is de zwarte lijn in het midden van de doos en Q 3 is de bovenkant van de doos. de doos. Het maximale rendement wordt weergegeven als een enkel punt bovenaan de grafiek.