Inhoudsopgave:
- Big data-eigenschappen
- Een belangrijke aantrekkingskracht van Hadoop is dat het verschillende soorten gegevens aankan. Parallelle databasebeheersystemen zijn al tientallen jaren op de markt. Ze kunnen parallelle uitvoering ondersteunen omdat de meeste tabellen zijn gepartitioneerd over de knooppunten in een cluster en ze SQL-opdrachten in een plan kunnen vertalen dat is verdeeld over de knooppunten in het cluster. Ze hebben echter meestal te maken met gestructureerde gegevens omdat het moeilijk is ongestructureerde, vrije-vormgegeven gegevens in de kolommen en rijen in een relationeel model te passen.
Video: Unifying the Cloud with Pure Cloud Data Services 2024
De term big data te beheren wordt vaak gebruikt in de wereld van hybride cloudtechnologie vanwege de voortdurende behoefte om steeds meer gegevens te verwerken. Het belangrijkste feit over big data is dat het bestaat op het kantelpunt van de tijdelijke oplossingen die organisaties historisch hebben ingevoerd om grote hoeveelheden complexe gegevens te beheren. Dankzij big data-technologieën kunnen mensen deze gegevens effectief analyseren en gebruiken.
Big data-eigenschappen
Big data heeft over het algemeen drie kenmerken - volume, variëteit en snelheid:
-
Volume: Big data is groot in volume. Het verwijst over het algemeen naar ten minste meerdere terabytes aan gegevens. Veel big data-implementaties proberen petabytes aan informatie te analyseren.
Naam Waarde Byte 10 0 Gigabyte 10 9 bytes Terabyte 10 12 > bytes Petabyte 10 15 bytes Exabyte 10 18 bytes -
Big data is er in verschillende soorten en maten. Het bevat dit soort gegevens: Gestructureerde gegevens
-
is het typische soort gegevens waarmee analisten worden geconfronteerd. Het omvat de omzet en het aantal verkopen - het type gegevens dat u over het opnemen in een database denkt. Gestructureerde gegevens worden ook op nieuwe manieren geproduceerd in producten zoals sensoren en RFID-tags.
-
heeft wat structuur, maar niet zoals je denkt aan tabellen in een database. Het bevat EDI-indelingen en XML. Ongestructureerde gegevens
-
bevatten tekst, afbeeldingen en audio, inclusief elk document, e-mailbericht, tweet of blog intern in een bedrijf of op internet. Ongestructureerde data is goed voor ongeveer 80 procent van alle data. Velocity:
-
-
Dit is de snelheid waarmee de gegevens worden verplaatst. Denk aan sensoren die elke milliseconde gegevens of gegevensstromen van medische apparatuur vastleggen. Big data komen vaak naar je toe in een stream, dus het heeft een real-time karakter dat ermee verbonden is. De cloud is een ideale plek voor big data vanwege de schaalbare opslagcapaciteit, rekenkracht en elastische bronnen. Het cloudmodel is grootschalig; distributed computing en een aantal frameworks en technologieën zijn ontstaan om dit model te ondersteunen, waaronder
Apache Hadoop:
-
Een open source gedistribueerd computerplatform geschreven in Java. Het is een softwarebibliotheek die gedistribueerde verwerking over clusters van computers mogelijk maakt. Het is echt een gedistribueerd bestandssysteem. Het maakt een computerpool, elk met een Hadoop-bestandssysteem. Hadoop is ontworpen om grote hoeveelheden complexe gegevens te verwerken.De gegevens kunnen gestructureerd, ongestructureerd of semi-gestructureerd zijn. Hadoop kan over heel wat servers lopen die geen geheugen of schijf delen. Zie Hadoop voor meer informatie. MapReduce:
-
Een softwarematig framework dat door Google is geïntroduceerd om gedistribueerd computergebruik op grote datasets te ondersteunen. Het is de kern van wat Hadoop doet met big data en big data-analyse. Het is ontworpen om te profiteren van cloud-bronnen. Deze berekening gebeurt op meerdere computers, clusters genoemd, en elke cluster wordt een -knooppunt genoemd. MapReduce kan zowel gestructureerde als ongestructureerde gegevens verwerken. Gebruikers specificeren een kaartfunctie die een sleutel / waarde-paar verwerkt om een set van tussenparen te genereren en een reductiefunctie die deze paren samenvoegt. Big data-databases
Een belangrijke aantrekkingskracht van Hadoop is dat het verschillende soorten gegevens aankan. Parallelle databasebeheersystemen zijn al tientallen jaren op de markt. Ze kunnen parallelle uitvoering ondersteunen omdat de meeste tabellen zijn gepartitioneerd over de knooppunten in een cluster en ze SQL-opdrachten in een plan kunnen vertalen dat is verdeeld over de knooppunten in het cluster. Ze hebben echter meestal te maken met gestructureerde gegevens omdat het moeilijk is ongestructureerde, vrije-vormgegeven gegevens in de kolommen en rijen in een relationeel model te passen.
Hadoop is een beweging gestart in wat is genoemd
NoSQL, betekent niet alleen SQL. De term verwijst naar een reeks technologieën die anders is dan relationele databasesystemen. Een groot verschil is dat ze geen SQL gebruiken. Ze zijn ook ontworpen voor gedistribueerde datastores. NoSQL betekent niet dat mensen geen SQL zouden moeten gebruiken. Het idee is eerder dat, afhankelijk van wat uw probleem is, relationele databases en NoSQL-databases naast elkaar kunnen bestaan in een organisatie. Er zijn talloze voorbeelden van dit soort databases, waaronder:
Apache Cassandra:
-
Een open source gedistribueerd gegevensbeheersysteem dat oorspronkelijk door Facebook is ontwikkeld. Het heeft geen strenge structuurvereisten, dus het kan omgaan met alle verschillende soorten gegevens. Deskundigen beweren dat het uitblinkt in grootschalige, real-time transactieverwerking. Andere open-source databases zijn MongoDB, Apache CouchDB en Apache HBase. Amazon Simple DB:
-
Amazon vergelijkt deze database met een spreadsheet omdat deze kolommen en rijen bevat met attributen en items die in elke database zijn opgeslagen. In tegenstelling tot een spreadsheet, kan elke cel echter meerdere waarden hebben en kan elk item zijn eigen set geassocieerde attributen hebben. Amazon indexeert vervolgens automatisch de gegevens. Onlangs heeft Amazon Amazon Dynamo DB aangekondigd als een manier om Big Data NoSQL naar de cloud te brengen. Google BigTable:
-
Deze hybride is een soort van een grote tafel. Omdat tabellen groot kunnen zijn, worden ze bij de rijgrenzen gesplitst in tabellen, wat honderden megabytes of zo kan zijn. MapReduce wordt vaak gebruikt voor het genereren en wijzigen van gegevens die zijn opgeslagen in BigTable.