Video: How to Install Hadoop on Windows 2024
Een primaire overweging bij het uitvoeren van een big data-project is de geprojecteerde hoeveelheid real-time en niet-realtime-tijd die nodig is om uw initiatief uit te voeren. Big data gaat vaak over dingen doen die niet mogelijk waren omdat de technologie niet geavanceerd genoeg was of omdat de kosten onbetaalbaar waren. De grote verandering die plaatsvindt met big data, is de mogelijkheid om enorme hoeveelheden gegevens te gebruiken zonder alle complexe programmering die in het verleden nodig was.
Veel organisaties bevinden zich op een omslagpunt wat betreft het beheer van grote hoeveelheden complexe gegevens. Big data-benaderingen helpen om dingen in balans te houden, zodat bedrijven niet over de drempel gaan als het volume, de variëteit en de snelheid van gegevens veranderen. Bedrijven hebben het moeilijk gehad om steeds meer gegevens te beheren die met hoge snelheden moeten worden beheerd.
Organisaties moesten genoegen nemen met het analyseren van kleine subsets van gegevens die vaak essentiële informatie ontbraken om een volledig beeld te krijgen dat de gegevens konden onthullen. Terwijl big data-technologieën evolueren en geïmplementeerd worden, zullen bedrijven de gegevens gemakkelijker kunnen analyseren en gebruiken om beslissingen te nemen of acties te ondernemen.
De realtime aspecten van big data kunnen revolutionair zijn wanneer bedrijven grote problemen moeten oplossen. Wat is de impact wanneer een organisatie gegevens kan verwerken die in realtime worden gestreamd? Over het algemeen is deze real-time benadering het meest relevant wanneer het antwoord op een probleem tijdgevoelig en bedrijfskritisch is. Dit kan te maken hebben met een bedreiging voor iets belangrijks, zoals het detecteren van de prestaties van ziekenhuisapparatuur of het anticiperen op een mogelijk inbraakrisico.
De volgende lijst toont voorbeelden van wanneer een bedrijf gebruik wil maken van deze real-time gegevens om snel voordeel te behalen:
-
Monitoring op een uitzondering met een nieuw stuk informatie, zoals fraude / intelligentie
-
Nieuwsfeeds en sociale media monitoren om gebeurtenissen te bepalen die van invloed kunnen zijn op financiële markten, zoals een reactie van een klant op een nieuwe productaankondiging
-
Het wijzigen van uw advertentieplaatsing tijdens een groot sportevenement op basis van realtime Twitter-streams
-
Een kortingsbon aan een klant geven op basis van wat hij op het verkooppunt heeft gekocht
Soms komen streaming-gegevens erg snel binnen en zijn er niet veel verschillende bronnen, soms is er een grote variëteit en soms is het een combinatie van de twee.
De vraag die u zichzelf moet stellen als u naar realtime verhuist, is deze: kan dit (probleem) worden opgelost met de traditionele mogelijkheden voor informatiebeheer of hebt u nieuwere mogelijkheden nodig?Gaat het pure volume of de snelheid onze systemen overbelasten? Vaak is het een combinatie van beide.
Dus, als u real-time-mogelijkheden nodig hebt, wat zijn de vereisten van de infrastructuur om dit te ondersteunen? In de volgende lijst worden enkele dingen behandeld die u moet overwegen met betrekking tot de mogelijkheid van een systeem om gegevens in te nemen, te verwerken en in real-time te analyseren:
-
Lage latentie: Latency is de hoeveelheid tijdsvertraging die een service mogelijk maakt uitvoeren in een omgeving. Sommige applicaties vereisen minder latentie, wat betekent dat ze in realtime moeten reageren. Een realtime stream vereist lage latentie. U moet dus denken aan computerkracht en netwerkbeperkingen.
-
Schaalbaarheid: Schaalbaarheid is de mogelijkheid om een bepaald prestatieniveau te behouden, zelfs bij toenemende belastingen.
-
Veelzijdigheid: Het systeem moet zowel gestructureerde als ongestructureerde gegevensstromen ondersteunen.
-
Native indeling: Gebruik de gegevens in de oorspronkelijke vorm. Transformatie kost tijd en geld. De mogelijkheid om het idee te gebruiken om complexe interacties in de gegevens te verwerken die gebeurtenissen initiëren, kan transformationeel zijn.
De noodzaak om steeds grotere hoeveelheden ongelijksoortige gegevens te verwerken, is een van de sleutelfactoren die de adoptie van cloudservices stimuleren. Het cloudmodel is grootschalig en gedistribueerd.