Inhoudsopgave:
- Basis voor big data: RDBMS en persistente gegevens
- Basis voor big data: RDBMS en tabellen
- PostgreSQL, een open source relationele database
Video: Sqoop Import and Export data from RDMBS and HDFS 2024
kunnen combineren. Big data worden een belangrijk element in de manier waarop organisaties high-volume data op de juiste snelheid gebruiken om specifieke data op te lossen problemen. Relationele databasebeheersystemen zijn belangrijk voor dit hoge volume. Big data leven niet geïsoleerd. Om effectief te zijn, moeten bedrijven vaak de resultaten van big data-analyse kunnen combineren met de gegevens die binnen het bedrijf bestaan.
Basis voor big data: RDBMS en persistente gegevens
Een van de belangrijkste services van operationele databases (ook wel dataopslag genoemd) is persistentie. Persistence garandeert dat de gegevens die zijn opgeslagen in een database niet zonder toestemming worden gewijzigd en dat deze beschikbaar zijn zolang deze van belang zijn voor het bedrijf. Wat heb je eraan als een database niet kan worden vertrouwd om de gegevens te beschermen die je erin stopt?
Gezien deze belangrijkste vereiste, moet u vervolgens nadenken over wat voor soort gegevens u wilt behouden, hoe u deze kunt openen en bijwerken en hoe u deze kunt gebruiken om zakelijke beslissingen te nemen. Op dit meest fundamentele niveau is de keuze van uw databasemotoren cruciaal voor uw algehele succes bij de implementatie van big data.
Hoewel de onderliggende technologie al geruime tijd bestaat, zijn veel van deze systemen momenteel in bedrijf omdat de bedrijven die zij ondersteunen in hoge mate afhankelijk zijn van de gegevens. Het vervangen ervan zou verwant zijn aan het veranderen van de motoren van een vliegtuig tijdens een transoceanische vlucht.
Basis voor big data: RDBMS en tabellen
Relationele databases zijn gebaseerd op een of meer relaties en worden weergegeven door tabellen. Deze tabellen worden gedefinieerd door hun kolommen en de gegevens worden opgeslagen in de rijen. De primaire sleutel is vaak de eerste kolom in de tabel. De consistentie van de database en veel van zijn waarde worden bereikt door de gegevens te "normaliseren". Genormaliseerde gegevens zijn geconverteerd van oorspronkelijke indeling naar een gedeeld, overeengekomen formaat.
In één database heeft u bijvoorbeeld 'telefoon' als XXX-XXX-XXXX, terwijl in een andere deze XXXXXXXXX is. Voor een consistent beeld van de informatie moet het veld worden genormaliseerd naar een andere vorm. Er zijn vijf niveaus van normen voor normalisatie. De keuze van de normale vorm wordt vaak naar de databaseontwerper verwezen. De verzameling tabellen, sleutels, elementen enzovoort wordt het schema van de database genoemd.
In de loop der jaren is de gestructureerde querytaal (SQL) geëvolueerd in de vergrendelingsstap met RDBMS-technologie en is het meest gebruikte mechanisme voor het maken, opvragen, onderhouden en beheren van relationele databases.
In bedrijven, zowel kleine als grote, wordt de meeste van hun belangrijke bedrijfsinformatie waarschijnlijk opgeslagen in RDBMS's. Veel bedrijven hebben verschillende RDBMS's voor verschillende delen van hun bedrijf. Transactiegegevens kunnen worden opgeslagen in de database van één leverancier, terwijl klantinformatie kan worden opgeslagen in een andere.
Het is niet waarschijnlijk dat u RDBMS's zult gebruiken voor de kern van de implementatie, maar u zult moeten vertrouwen op de gegevens die zijn opgeslagen in RDBMS's om het hoogste niveau van waarde voor het bedrijf met big data te creëren.
PostgreSQL, een open source relationele database
Tijdens uw implementatie van big data zult u waarschijnlijk PostgreSQL tegenkomen, een veel gebruikte, open source relationele database. Verschillende factoren dragen bij aan de populariteit van PostgreSQL. Als een RDBMS met ondersteuning voor de SQL-standaard, doet het alle dingen die in een databaseproduct worden verwacht, plus de lange levensduur en het brede gebruik ervan hebben het tot een strijd getest. "Het is ook beschikbaar op vrijwel alle besturingssystemen, van pc's tot mainframes.
De basis bieden en dit betrouwbaar doen, is slechts een deel van het verhaal. PostgreSQL ondersteunt ook veel functies die alleen worden aangetroffen in dure eigen RDBMS's, waaronder:
-
Mogelijkheid om "objecten" direct te verwerken in het relationele schema
-
Vreemde sleutels (verwijzend naar sleutels van de ene tabel in een andere)
-
Triggers (gebeurtenissen gebruikt om automatisch een opgeslagen procedure te starten)
-
Complexe query's (subquery's en joins over discrete tabellen)
-
Transactionele integriteit
-
Multiversion concurrency control
De echte kracht van PostgreSQL is de uitbreidbaarheid. Gebruikers en databaseprogrammeurs kunnen nieuwe mogelijkheden toevoegen zonder de fundamentele werking of betrouwbaarheid van de database te beïnvloeden. Mogelijke uitbreidingen zijn
-
Datatypes
-
Operators
-
Functies
-
Indexeringsmethoden
-
Proceduretalen
Dit hoge aanpassingsniveau maakt PostgreSQL wenselijk wanneer rigide, door eigendomsrechten beschermde producten de klus niet klaren. Het is oneindig uitbreidbaar.
Ten slotte maakt de PostgreSQL-licentie modificatie en distributie in elke vorm, open of gesloten bron mogelijk. Elke wijziging kan privé worden gehouden of met de gemeenschap worden gedeeld zoals u dat wilt.