Video: Statistical Programming with R by Connor Harris 2024
Er bestaan talloze combinaties van implementatie- en leveringsmodellen voor big data in de cloud. U kunt bijvoorbeeld een openbare cloud IaaS of een private cloud IaaS gebruiken. Wat betekent dit voor big data en waarom past de cloud er goed bij? Welnu, big data vereist gedistribueerde clusters van rekenkracht, en zo is de cloud ontworpen.
Door een aantal cloudkenmerken is het een belangrijk onderdeel van het big data-ecosysteem:
-
Schaalbaarheid: Schaalbaarheid met betrekking tot hardware verwijst naar de mogelijkheid om van kleine naar grote hoeveelheden verwerkingskracht met dezelfde architectuur te gaan. Met betrekking tot software verwijst het naar de consistentie van prestaties per eenheid stroom naarmate hardwarebronnen toenemen. De cloud kan opschalen naar grote datavolumes.
Gedistribueerd computergebruik, een integraal onderdeel van het cloudmodel, werkt echt op een plan voor 'verdeel en heers'. Dus als u grote hoeveelheden gegevens hebt, kunnen deze worden gepartitioneerd over cloudservers. Een belangrijk kenmerk van IaaS is dat het dynamisch kan worden geschaald. Dit betekent dat als u uiteindelijk meer bronnen nodig hebt dan verwacht, u deze kunt krijgen. Dit sluit aan bij het concept van elasticiteit.
-
Elasticiteit: Elasticiteit verwijst naar de mogelijkheid om de vraag naar computerbronnen in realtime uit te breiden of te laten afnemen, afhankelijk van de behoefte. Een van de voordelen van de cloud is dat klanten de mogelijkheid hebben om toegang te krijgen tot een service die zij nodig hebben. Dit kan handig zijn voor big data-projecten waarbij u mogelijk de hoeveelheid computerbronnen moet uitbreiden die u nodig hebt om met de gegevens om te gaan.
-
Resource pooling: Cloudarchitecturen maken efficiënte creatie mogelijk van groepen gedeelde bronnen die de cloud economisch haalbaar maken.
-
Selfservice: Met zelfbediening kan de gebruiker van een cloudresource een browser of een portalinterface gebruiken om de benodigde bronnen te verzamelen, bijvoorbeeld om een enorme voorspellende waarde te hebben model. Dit is dramatisch anders dan hoe u bronnen kunt verkrijgen van een datacenter, waar u de resources van IT-bewerkingen zou moeten aanvragen.
-
Vaak lage aanschafkosten: Als u een cloudprovider gebruikt, kunnen de kosten vooraf vaak worden verlaagd, omdat u geen grote hoeveelheden hardware koopt of nieuwe ruimte vrijmaakt voor het omgaan met uw big data. Door gebruik te maken van de schaalvoordelen die samenhangen met cloudomgevingen, kan de cloud er aantrekkelijk uitzien.
-
Pay as you go: Een typische factureringsoptie voor een cloudprovider is Pay as You Go, wat betekent dat u wordt gefactureerd voor resources die worden gebruikt op basis van prijzen van instanties.Dit kan handig zijn als u niet zeker weet welke bronnen u nodig heeft voor uw big data-project.
-
Fouttolerantie: Cloudserviceproviders moeten fouttolerantie ingebouwd hebben in hun architectuur en ononderbroken services bieden ondanks het falen van een of meer componenten van het systeem.
Het is duidelijk dat de aard van de cloud het een ideale computeromgeving maakt voor big data. Dus hoe kunt u big data samen met de cloud gebruiken? Hier zijn enkele voorbeelden:
-
IaaS in een openbare cloud: In dit scenario zou u de infrastructuur van een openbare cloudprovider gebruiken voor uw big data-services omdat u uw eigen fysieke infrastructuur niet wilt gebruiken. IaaS kan virtuele machines creëren met vrijwel onbeperkte opslagcapaciteit en computerkracht. U kunt het besturingssysteem kiezen dat u wilt en u hebt de flexibiliteit om de omgeving dynamisch te schalen om aan uw behoeften te voldoen.
-
PaaS in een private cloud: PaaS is een complete infrastructuur die is verpakt, zodat deze kan worden gebruikt voor het ontwerpen, implementeren en implementeren van toepassingen en services in een publieke of private cloudomgeving. PaaS stelt een organisatie in staat gebruik te maken van belangrijke middlewareservices zonder zich bezig te hoeven houden met de complexiteit van het beheer van afzonderlijke hardware- en softwarecomponenten.
PaaS-leveranciers beginnen big data-technologieën zoals Hadoop en MapReduce te integreren in hun PaaS-aanbod. U wilt bijvoorbeeld een gespecialiseerde toepassing bouwen om grote hoeveelheden medische gegevens te analyseren. De applicatie zou gebruik maken van zowel realtime als niet-real-time data. Het vereist Hadoop en MapReduce voor opslag en verwerking.
-
SaaS in een hybride cloud: Hier zou u de gegevens van de "stem van de klant" uit meerdere kanalen kunnen analyseren. Veel bedrijven zijn zich gaan realiseren dat een van de belangrijkste gegevensbronnen is wat de klant denkt en zegt over zijn bedrijf. Toegang krijgen tot de stem van de klantgegevens kan waardevolle inzichten verschaffen in gedrag en acties. Klanten zijn steeds vaker "aan het woord" op openbare sites.
De waarde van de input van klanten kan aanzienlijk worden verbeterd door deze openbare gegevens in uw analyse op te nemen.