De Beperkingen van Bemonstering in Hadoop - dummies

Video: MQA part 2: how does MQA work 2024

Statistische analyse is allesbehalve een nieuw kind in de buurt, en het is zeker oud nieuws dat het afhangt van het verwerken van grote hoeveelheden gegevens om nieuw inzicht te krijgen. De hoeveelheid gegevens die traditioneel door deze systemen worden verwerkt, lag echter tussen 10 en 100 (of honderden) gigabytes - met andere woorden niet de terabyte- of petabyte-reeksen die vandaag worden gezien.

En het vereiste vaak een dure symmetrische multi-processing (SMP) machine met zoveel mogelijk geheugen om de geanalyseerde gegevens te bevatten. Dat komt omdat veel van de algoritmen die door de analytische benaderingen worden gebruikt nogal "rekenintensief" waren en ontworpen waren om in het geheugen te worden uitgevoerd - omdat ze meerdere, en vaak frequente, gegevens nodig hebben.

Geconfronteerd met dure hardware en een vrij hoge inzet in termen van tijd en RAM, probeerden de mensen de analytische werklast wat redelijker te maken door alleen een steekproef van de gegevens te analyseren. Het idee was om de bergen op bergen gegevens veilig opgeborgen te houden in datawarehouses, waarbij alleen een statistisch significante bemonstering van de gegevens uit hun repositories naar een statistische engine werd verplaatst.

Hoewel sampling in theorie een goed idee is, is dit in de praktijk vaak een onbetrouwbare tactiek. Het vinden van een statistisch significante bemonstering kan een uitdaging zijn voor schaarse en / of scheve gegevenssets, die heel gewoon zijn. Dit leidt tot slecht beoordeelde steekproeven, die uitschieters en afwijkende gegevenspunten kunnen introduceren en die op hun beurt de resultaten van uw analyse beïnvloeden.