Big Data opslaan met HBase - dummies - Persoonlijke financiën 2024

Video: How to Build and Install Hadoop on Windows 2024

HBase is een gedistribueerde, niet-relationele (kolomvormige) database die gebruikmaakt van HDFS als persistentieopslag voor big data-projecten. Het is gemodelleerd naar Google BigTable en is in staat om zeer grote tabellen (miljarden kolommen / rijen) te hosten omdat het is gelaagd op Hadoop-clusters van commodity-hardware.

HBase biedt willekeurige, real-time lees- / schrijftoegang tot big data. HBase is zeer configureerbaar en biedt veel flexibiliteit om enorme hoeveelheden gegevens efficiënt aan te pakken. Bekijk nu hoe HBase kan helpen bij het oplossen van uw grote gegevensuitdagingen.

HBase is een kolomvormige database, dus alle gegevens worden opgeslagen in tabellen met rijen en kolommen die lijken op relationele databasebeheersystemen (RDBMS's). De kruising van een rij en een kolom wordt een cel genoemd. Een belangrijk verschil tussen HBase-tabellen en RDBMS-tabellen is versiebeheer.

Elke celwaarde bevat een "versie" -attribuut, wat niets meer is dan een tijdstempel dat de cel op unieke wijze identificeert. Versioning houdt wijzigingen in de cel bij en maakt het mogelijk om elke versie van de inhoud op te halen als dit nodig mocht zijn. HBase slaat de gegevens in afnemende volgorde op in cellen (met behulp van de tijdstempel), dus een leesbewerking vindt altijd eerst de meest recente waarden.

Kolommen in HBase behoren tot een kolomfamilie. De kolomnaam van de kolom wordt gebruikt als een voorvoegsel om leden van zijn familie te identificeren. Bijvoorbeeld fruit: appel en fruit: banaan is een lid van de fruitkolomfamilie. HBase-implementaties worden afgestemd op het kolomfamilieniveau, dus het is belangrijk om u bewust te zijn van hoe u toegang wilt krijgen tot de gegevens en hoe groot u verwacht dat de kolommen zijn.

Aan de rijen in HBase-tabellen is ook een sleutel gekoppeld. De structuur van de sleutel is zeer flexibel. Het kan een berekende waarde, een tekenreeks of zelfs een andere gegevensstructuur zijn. De sleutel wordt gebruikt om de toegang tot de cellen in de rij te regelen en deze worden op volgorde van lage naar hoge waarde opgeslagen.

Al deze functies vormen samen het schema. Het schema wordt gedefinieerd en gemaakt voordat gegevens kunnen worden opgeslagen. Desondanks kunnen tabellen worden gewijzigd en kunnen nieuwe kolomfamilies worden toegevoegd nadat de database actief is. Deze uitbreidbaarheid is uitermate handig bij het omgaan met big data, omdat u niet altijd op de hoogte bent van de verscheidenheid van uw datastromen.