Video: Hoe krijgen we met Big Data allemaal ons persoonlijke weerbericht? | BIG DATA 2024
Vernieuwers van zoekmachines, zoals Yahoo! en Google werd geconfronteerd met een probleem met moerasgegevens. Ze moesten een manier vinden om inzicht te krijgen in de enorme hoeveelheden gegevens die hun motoren verzamelden. Deze bedrijven moesten zowel begrijpen welke informatie ze verzamelden als hoe ze die gegevens konden gebruiken om hun bedrijfsmodel te ondersteunen.
Hadoop is ontwikkeld omdat het de meest pragmatische manier is om bedrijven toe te staan grote hoeveelheden gegevens eenvoudig te beheren. Hadoop maakte het mogelijk grote problemen op te splitsen in kleinere elementen, zodat de analyse snel en kosteneffectief kon worden uitgevoerd.
Door het probleem met de grote gegevens in kleine stukjes te splitsen die parallel kunnen worden verwerkt, kunt u de informatie verwerken en de kleine stukjes samenvoegen tot de huidige resultaten.
Hadoop is oorspronkelijk gebouwd door een Yahoo! ingenieur genaamd Doug Cutting en is nu een open source-project dat wordt beheerd door de Apache Software Foundation. Het is beschikbaar gemaakt onder de Apache-licentie v2. 0.
Hadoop is een fundamentele bouwsteen in onze wens om big data vast te leggen en te verwerken. Hadoop is ontworpen om de gegevensverwerking over meerdere knooppunten te parallelliseren om berekeningen te versnellen en latentie te verbergen. In de kern heeft Hadoop twee primaire componenten:
-
Hadoop Distributed File System: Een betrouwbaar cluster met hoge bandbreedte, lage kosten, gegevensopslag dat het beheer van gerelateerde bestanden op verschillende machines mogelijk maakt.
-
MapReduce-engine: Een krachtige parallelle / gedistribueerde verwerking van gegevens van het algoritme MapReduce.
Hadoop is ontworpen voor het verwerken van grote hoeveelheden gestructureerde en ongestructureerde gegevens (terabytes tot petabytes) en wordt geïmplementeerd op racks met basisservers als een Hadoop-cluster. Servers kunnen dynamisch aan het cluster worden toegevoegd of verwijderd omdat Hadoop is ontworpen om 'zelfgenezing' te zijn. "Met andere woorden, Hadoop is in staat om wijzigingen, inclusief fouten, te detecteren en aan te passen aan die wijzigingen en zonder onderbrekingen te blijven werken.