Prestaties zijn belangrijk in Big Data-architectuurbeheer - dummies

Uw big data-architectuur moet ook presteren in samenwerking met de ondersteunende infrastructuur van uw organisatie. U zou bijvoorbeeld geïnteresseerd kunnen zijn in het runnen van modellen om te bepalen of het veilig is om te boren naar olie in een offshore gebied, gegeven real-time gegevens van temperatuur, saliniteit, sedimentresuspensie en een groot aantal andere biologische, chemische en fysische eigenschappen van de waterkolom.

Het kan enkele dagen duren om dit model uit te voeren met een traditionele serverconfiguratie. Het gebruik van een model voor gedistribueerd computergebruik heeft echter enkele minuten in beslag genomen.

Prestaties kunnen ook bepalen welk soort database u zou gebruiken. In sommige situaties wilt u bijvoorbeeld begrijpen hoe twee zeer verschillende gegevenselementen met elkaar in verband staan. Wat is de relatie tussen buzz op een sociaal netwerk en de omzetgroei? Dit is niet de typische query die u zou kunnen vragen van een gestructureerde, relationele database.

Een grafische database kan een betere keuze zijn, omdat deze specifiek is ontworpen om de "knooppunten" of entiteiten te scheiden van de "eigenschappen" of de informatie die die entiteit definieert, en de "rand" of relatie tussen knooppunten en eigenschappen. Het gebruik van de juiste database zal ook de prestaties verbeteren. Meestal wordt de graafgegevensbank gebruikt in wetenschappelijke en technische toepassingen.

Andere belangrijke operationele benaderingen van databases zijn kolomvormige databases die informatie efficiënt in kolommen opslaan in plaats van rijen. Deze aanpak leidt tot snellere prestaties omdat de invoer / uitvoer extreem snel is. Wanneer geografische gegevensopslag deel uitmaakt van de vergelijking, is een ruimtelijke database geoptimaliseerd voor het opslaan en opvragen van gegevens op basis van hoe objecten in de ruimte gerelateerd zijn.

Big data-services en -tools organiseren

Niet alle gegevens die organisaties gebruiken, zijn operationeel. Een groeiend aantal gegevens is afkomstig van een verscheidenheid aan bronnen die niet zo georganiseerd of ongecompliceerd zijn, zoals gegevens die afkomstig zijn van machines of sensoren en enorme openbare en privégegevensbronnen. In het verleden waren de meeste bedrijven niet in staat om deze enorme hoeveelheid gegevens vast te leggen of op te slaan. Het was gewoon te duur of te overweldigend.

Zelfs als bedrijven de gegevens konden vastleggen, beschikten ze niet over de tools om er iets aan te doen. Zeer weinig tools kunnen deze enorme hoeveelheden gegevens bevatten. De gereedschappen die er waren, waren complex in gebruik en leverden geen resultaten op in een redelijk tijdsbestek.

Uiteindelijk werden degenen die echt de enorme inspanning wilden doen om deze gegevens te analyseren gedwongen om met snapshots van gegevens te werken.Dit heeft het ongewenste effect dat belangrijke gebeurtenissen ontbreken omdat ze zich niet in een bepaalde momentopname bevonden.

MapReduce, Hadoop en Big Table voor big data

Met de evolutie van de computertechnologie is het nu mogelijk om enorme hoeveelheden gegevens te beheren. De prijzen van systemen zijn gedaald en als gevolg daarvan zijn nieuwe technieken voor gedistribueerd computergebruik gangbaar. De echte doorbraak vond plaats als bedrijven als Yahoo!, Google en Facebook kwamen tot het besef dat ze hulp nodig hadden om geld te verdienen met de enorme hoeveelheden gegevens die ze aan het maken waren.

Deze opkomende bedrijven moesten nieuwe technologieën vinden waarmee ze enorme hoeveelheden gegevens bijna in realtime konden opslaan, openen en analyseren, zodat ze konden profiteren van de voordelen van het bezitten van zoveel gegevens over deelnemers in hun netwerken.

Hun resulterende oplossingen transformeren de markt voor gegevensbeheer. Met name de innovaties MapReduce, Hadoop en Big Table bleken de vonken te zijn die leidden tot een nieuwe generatie gegevensbeheer. Deze technologieën pakken een van de meest fundamentele problemen aan: het vermogen om enorme hoeveelheden gegevens efficiënt, kosteneffectief en tijdig te verwerken.

MapReduce

MapReduce is door Google ontworpen als een manier om efficiënt een reeks functies uit te voeren tegen een grote hoeveelheid gegevens in batchmodus. De "map" -component distribueert het programmeringsprobleem of de taken over een groot aantal systemen en behandelt de plaatsing van de taken. Het balanceert ook de belasting en beheert het herstel van fouten. Een andere functie genaamd "verminderen" aggregeert alle elementen weer samen om een resultaat te leveren.

Big Table

Big Table is door Google ontwikkeld als een gedistribueerd opslagsysteem dat is bedoeld voor het beheren van zeer schaalbare, gestructureerde gegevens. Gegevens zijn georganiseerd in tabellen met rijen en kolommen. In tegenstelling tot een traditioneel relationeel databasemodel is Big Table een schaars, gedistribueerd, persistent multidimensionaal gesorteerde kaart. Het is bedoeld om grote hoeveelheden gegevens op te slaan op basis van commodity-servers.

Hadoop

Hadoop is een door Apache beheerd softwareraamwerk afgeleid van MapReduce en Big Table. Hadoop maakt het mogelijk applicaties op basis van MapReduce uit te voeren op grote clusters van commodity-hardware. Het project is de basis voor de computerarchitectuur die Yahoo! zaken doen. Hadoop is ontworpen om de gegevensverwerking over meerdere knooppunten te parallelliseren om berekeningen te versnellen en latentie te verbergen.

Er zijn twee belangrijke componenten van Hadoop: een enorm schaalbaar gedistribueerd bestandssysteem dat petabytes aan gegevens kan ondersteunen en een enorm schaalbare MapReduce-engine die de resultaten in batch berekent.