Video: Kenneth Cukier: Big data is better data 2024
Big data-analyse heeft onlangs een hoop hype gekregen, en met een goede reden. U moet de kenmerken van big data-analyse kennen als u deel wilt uitmaken van deze beweging. Bedrijven weten dat er iets is dat er is, maar het tot voor kort niet hebben kunnen ontginnen. Het is een opwindend aspect van de big data-analysebeweging om de envelop op analyse te duwen.
Bedrijven zijn enthousiast om gegevens te kunnen openen en analyseren die ze hebben verzameld of die ze willen gebruiken, maar die ze niet effectief hebben kunnen beheren of analyseren. Het kan gaan om het visualiseren van enorme hoeveelheden ongelijksoortige gegevens, of het kan gaan om geavanceerde geanalyseerde streaming in realtime. Het is in sommige opzichten evolutionair en in andere opzichten revolutionair.
Wat is er anders als uw bedrijf de enveloppe doorneemt met big data-analyse? De infrastructuur die big data-analyse ondersteunt, is anders en algoritmen zijn veranderd om infrastructuurbewust te zijn.
Big data-analyse moet vanuit twee perspectieven worden bekeken:
-
Beslissingsgericht
-
Actiegericht
Beslissingsgerichte analyse lijkt meer op traditionele Business Intelligence. Kijk naar selectieve subsets en representaties van grotere gegevensbronnen en probeer de resultaten toe te passen bij het nemen van zakelijke beslissingen. Zeker kunnen deze beslissingen resulteren in een soort van actie of procesverandering, maar het doel van de analyse is om de besluitvorming te vergroten.
Actiegerichte analyse wordt gebruikt voor een snelle reactie, wanneer een patroon verschijnt of specifieke soorten gegevens worden gedetecteerd en actie vereist is. Door gebruik te maken van big data door analyse en het veroorzaken van proactieve of reactieve gedragsveranderingen bieden veel mogelijkheden voor early adopters.
Het vinden en gebruiken van big data door het maken van analysetoepassingen kan de sleutel zijn om eerder dan later de waarde te extraheren. Om deze taak te volbrengen, is het effectiever om deze aangepaste applicaties volledig zelf te bouwen of door gebruik te maken van platforms en / of componenten.
Bekijk eerst enkele van de extra kenmerken van big data-analyse die het anders maken dan traditionele soorten analyses, afgezien van de drie V's van volume, snelheid en variëteit:
-
Het kan zijn programmatische. Een van de grootste wijzigingen in de analyse is dat u in het verleden te maken had met gegevenssets die u handmatig in een toepassing kunt laden en verkennen. Met big data-analyse kunt u te maken krijgen met een situatie waarbij u zou kunnen beginnen met onbewerkte gegevens die vaak programmatisch moeten worden verwerkt om elke vorm van verkenning te doen vanwege de schaal van de gegevens. Dit kan gegevensgestuurd zijn
-
. Hoewel veel gegevenswetenschappers een op hypothesen gebaseerde benadering van gegevensanalyse gebruiken (ontwikkel een uitgangspunt en verzamel gegevens om te zien of dat uitgangspunt juist is), kunt u de gegevens ook gebruiken om de analyse te sturen - vooral als u grote hoeveelheden hebt verzameld hoeveelheden ervan. U kunt bijvoorbeeld een algoritme voor computerleren gebruiken om een dergelijke hypothesevrije analyse uit te voeren. Het kan veel
-
-attributen gebruiken. In het verleden had u mogelijk te maken met honderden kenmerken of kenmerken van die gegevensbron. Het kan zijn dat je te maken hebt met honderden gigabytes aan gegevens die bestaan uit duizenden attributen en miljoenen waarnemingen. Alles gebeurt nu op grotere schaal. Het kan
-
iteratief zijn. Meer rekenkracht betekent dat u uw modellen kunt herhalen totdat u ze krijgt zoals u ze wilt. Hier is een voorbeeld. Stel dat u een model bouwt dat probeert de voorspellers te vinden voor bepaald klantgedrag. U kunt beginnen met het uitpakken van een redelijke steekproef van gegevens of verbinding maken met waar de gegevens zich bevinden. Je zou een model kunnen bouwen om een hypothese te testen. Terwijl u in het verleden misschien niet zoveel geheugen had om uw model effectief te laten werken, heeft u een enorme hoeveelheid fysiek geheugen nodig om de nodige iteraties te doorlopen die nodig zijn om het algoritme te trainen. Het kan ook nodig zijn om geavanceerde computertechnieken te gebruiken zoals natuurlijke taalverwerking of neurale netwerken die het model automatisch evolueren op basis van leren als er meer gegevens worden toegevoegd.
Het kan
-
snel zijn om de berekeningscycli te krijgen die u nodig hebt door gebruik te maken van een cloud-gebaseerde Infrastructure as a Service. Met Infrastructure as a Service (IaaS) -platforms zoals Amazon Cloud Services (ACS), kunt u snel een cluster van machines leveren om grote gegevenssets in te nemen en deze snel te analyseren.