Big Data Cloud Providers - dummies - Persoonlijke financiën 2024

Cloud providers zijn er in alle soorten en maten en bieden veel verschillende producten voor big data. Sommige zijn bekende namen, terwijl andere recentelijk in opkomst zijn. Sommige van de cloudproviders die IaaS-services aanbieden die voor big data kunnen worden gebruikt, zijn Amazon. com, AT & T, GoGrid, Joyent, Rackspace, IBM en Verizon / Terremark.

Amazon's Public Elastic Compute Cloud voor big data

Momenteel is een van de meest spraakmakende IaaS-serviceproviders Amazon web Services met zijn Elastic Compute Cloud (Amazon EC2). Amazon startte niet met een visie om een groot bedrijf voor infrastructuurservices te bouwen.

In plaats daarvan bouwde het bedrijf een enorme infrastructuur om zijn eigen detailhandel te ondersteunen en ontdekte dat zijn middelen te weinig werden gebruikt. In plaats van dit activum toe te staan om inactief te blijven, besloot het om deze bron te gebruiken terwijl het aan de onderste regel toevoegde. Amazon's EC2-service werd in 2006 gelanceerd en blijft evolueren.

Amazon EC2 biedt schaalbaarheid onder de controle van de gebruiker, waarbij de gebruiker per uur voor hulpbronnen betaalt. Het gebruik van de term elastisch in de naamgeving van Amazon's EC2 is aanzienlijk. Hier verwijst elasticiteit naar het vermogen dat de EC2-gebruikers hebben om de infrastructuurmiddelen die zijn toegewezen om aan hun behoeften te voldoen, te verhogen of te verlagen.

Amazon biedt ook andere big data-services aan klanten van zijn Amazon webservices-portfolio. Deze omvatten het volgende:

Amazon Elastic MapReduce: Gericht voor het verwerken van enorme hoeveelheden gegevens. Elastic MapReduce maakt gebruik van een gehost Hadoop-framework op EC2 en Amazon Simple Storage Service (Amazon S3). Gebruikers kunnen nu HBase gebruiken.
Amazon DynamoDB: Een volledig beheerde, niet alleen SQL (NoSQL) databaseservice. DynamoDB is een fouttolerante, hoog beschikbare gegevensopslagdienst die zichzelf provisioning, transparante schaalbaarheid en eenvoudig beheer biedt. Het is geïmplementeerd op SSD's (Solid State-schijven) voor meer betrouwbaarheid en hoge prestaties.
Amazon Simple Storage Service (S3): Een web-scale service die is ontworpen om elke hoeveelheid gegevens op te slaan. De kracht van zijn ontwerpcentrum is prestaties en schaalbaarheid, dus het is niet zo geladen als andere datastores. Gegevens worden opgeslagen in "buckets" en u kunt een of meer globale regio's selecteren voor fysieke opslag om latentie of wettelijke vereisten aan te pakken.
Amazon High Performance Computing: Deze service is afgestemd op gespecialiseerde taken en biedt gestreamde high-performance computing-clusters met lage latentie. Meestal gebruikt door wetenschappers en academici, gaat HPC de mainstream in vanwege het aanbod van Amazon en andere HPC-providers.Amazon-HPC-clusters zijn speciaal ontwikkeld voor specifieke workloads en kunnen eenvoudig opnieuw worden geconfigureerd voor nieuwe taken.
Amazon RedShift: RedShift is beschikbaar in een beperkt aantal voorbeelden en is een op wareabyte gebaseerde datawarehousing-service die is gebaseerd op een schaalbare MPP-architectuur. Het wordt beheerd door Amazon en biedt een veilig, betrouwbaar alternatief voor eigen data warehouses en is compatibel met verschillende populaire business intelligence-tools.

Google-big data-services

Google, de internetzoekgigant, biedt ook een aantal cloudservices aan voor big data. Deze omvatten het volgende:

Google Compute Engine: Google Compute Engine is een cloudgebaseerde functie voor virtueel computergebruik en biedt een veilige, flexibele computeromgeving van energie-efficiënte datacenters. Google biedt ook workload management-oplossingen van verschillende technologiepartners die hun producten hebben geoptimaliseerd voor Google Compute Engine.
Google Big Query: Hiermee kunt u SQL-achtige query's op hoge snelheid uitvoeren tegen grote gegevenssets van mogelijk miljarden rijen. Hoewel het goed is voor het opvragen van gegevens, kunnen gegevens niet worden gewijzigd nadat deze zich erin bevinden. Overweeg Google Big Query als een online OLAP-systeem (Online Analytical Processing) voor big data. Het is goed voor ad hoc rapportage of verkennende analyse.
Google Prediction API: Een cloud-gebaseerde machine learning tool voor enorme hoeveelheden data. Voorspelling is in staat om patronen in data te identificeren en vervolgens te onthouden. Elke keer dat het wordt gebruikt, kan het meer leren over een patroon. De patronen kunnen voor verschillende doeleinden worden geanalyseerd, waaronder fraudedetectie, churn-analyse en klantensentiment.

Microsoft Azure voor grote gegevens

Op basis van Windows- en SQL-abstracties heeft Microsoft een reeks ontwikkelingshulpmiddelen, ondersteuning voor virtuele machines, beheer- en mediaservices en diensten voor mobiele apparaten in een PaaS-aanbod geproduceerd. Voor klanten met een grote expertise in.net, SQLServer en Windows is de acceptatie van de op Azure gebaseerde PaaS eenvoudig.

Om aan de nieuwe vereisten voor de integratie van grote gegevens in Windows Azure-oplossingen tegemoet te komen, heeft Microsoft ook Windows Azure HDInsight toegevoegd. Gebouwd op Hortonworks Data Platform (HDP), dat volgens Microsoft 100 procent compatibiliteit met Apache Hadoop biedt, ondersteunt HDInsight de verbinding met Microsoft Excel en andere BI-tools (Business Intelligence). Naast Azure kan HDInsight ook op Windows Server worden geïmplementeerd.

OpenStack voor big data

Geïnitieerd door Rackspace en NASA, implementeert OpenStack een open-cloudplatform gericht op publieke of private clouds. Hoewel de organisatie strak wordt beheerd door Rackspace, is het verplaatst naar een afzonderlijke stichting OpenStack. Hoewel bedrijven OpenStack kunnen gebruiken om eigen implementaties te maken, vereist de OpenStack-aanduiding overeenstemming met een standaard implementatie van services.

Het doel van OpenStack is om een enorm geschaalde cloud-specificatie voor meerdere tenants te bieden die op elke hardware kan worden uitgevoerd. OpenStack bouwt aan een groot ecosysteem van partners die geïnteresseerd zijn in de toepassing van haar cloudplatform, waaronder Dell, HP, Intel, Cisco, Red Hat en IBM, samen met minstens 100 anderen die OpenStack gebruiken als de basis voor hun cloudaanbod.

In essentie is OpenStack een opensource IaaS-initiatief gebouwd op Ubuntu, een besturingssysteem gebaseerd op de Debian Linux-distributie. Het kan ook op de Red Hat-versie van Linux worden uitgevoerd.

OpenStack biedt een reeks services, waaronder computing, objectopslag, catalogus en repository, dashboarding, identiteit en netwerken. Op het gebied van big data hebben Rackspace en Hortonworks (een leverancier van een open source-gegevensbeheersplatform op basis van Apache Hadoop) aangekondigd dat Rackspace een OpenStack public cloud-gebaseerde Hadoop-service zal uitbrengen, die zal worden gevalideerd en ondersteund door Hortonworks en klanten zal toelaten om snel een big data-omgeving te creëren.