Video: Unifying the Cloud with Pure Cloud Data Services 2024
Datadiensten en -tools organiseren , laag 3 van de big data-stack, verschillende big data-elementen vastleggen, valideren en assembleren tot contextueel relevante collecties. Omdat big data enorm is, zijn er technieken ontwikkeld om de gegevens efficiënt en naadloos te verwerken. MapReduce is een veel gebruikte techniek. Het volstaat hier te zeggen dat veel van deze organiserende datadiensten MapReduce-engines zijn, specifiek ontworpen om de organisatie van big data-streams te optimaliseren.
Het organiseren van gegevensdiensten is in werkelijkheid een ecosysteem van hulpmiddelen en technologieën die kunnen worden gebruikt om gegevens te verzamelen en samen te stellen ter voorbereiding op verdere verwerking. Als zodanig moeten de tools zorgen voor integratie, vertaling, normalisatie en schaal. Technologieën in deze laag omvatten het volgende:
-
Een gedistribueerd bestandssysteem: Noodzakelijk om de decompositie van gegevensstromen mogelijk te maken en om schaal- en opslagcapaciteit
-
Serialiseringsservices: Noodzakelijk voor permanente gegevensopslag en meertalige externe procedureaanroepen (RPC's)
-
Coördinatieservices: noodzakelijk voor het bouwen van gedistribueerde toepassingen (vergrendeling enzovoort) > Extraheer, transformeer en laad (ETL) -hulpmiddelen:
-
Noodzakelijk voor het laden en converteren van gestructureerde en ongestructureerde gegevens naar Hadoop Workflow-services:
-
Noodzakelijk voor het plannen van taken en het bieden van een structuur voor het synchroniseren van proceselementen in lagen