Hadoop als een queryarchief van Cold Warehouse-gegevens - dummies

Video: Big Data, wat kun je ermee? 2024

een veelvoud aan onderzoeken aantonen dat de meeste gegevens in een bedrijfsgegevensmagazijn zelden worden opgevraagd. Databaseleveranciers hebben op dergelijke waarnemingen gereageerd door hun eigen methoden te implementeren om uit te zoeken waar gegevens worden geplaatst.

Eén methode bestelt het gegevensuniversum in aanduidingen van warm, warm of koud, waarbij hete gegevens (soms actieve gegevens genoemd) wordt vaak gebruikt, warme gegevens worden van tijd tot tijd gebruikt en koude gegevens worden zelden gebruikt. De voorgestelde oplossing voor veel leveranciers is om de koude gegevens op langzamere schijven in de behuizingen van het datawarehouse op te slaan of slimme cachingstrategieën te maken om de hete gegevens in het geheugen te houden, onder andere.

Het probleem met deze aanpak is dat, hoewel langzamere opslag wordt gebruikt, het nog steeds duur is om koude, zelden gebruikte gegevens in een magazijn op te slaan. De kosten hier zijn afkomstig van zowel hardware- en softwarelicenties. Tegelijkertijd worden koude en slapende gegevens vaak gearchiveerd op tape.

Dit traditionele model voor archiveringsgegevens breekt af als u alle koude gegevens op een kosteneffectieve en relatief efficiënte manier wilt opvragen, zonder dat u om oude tapes hoeft te vragen, met andere woorden.

Als je kijkt naar de kosten en operationele eigenschappen van Hadoop, lijkt het erop dat het de nieuwe back-uptape gaat worden. Hadoop is grotendeels goedkoop omdat Hadoop-systemen zijn ontworpen om een lagere kwaliteit hardware te gebruiken dan wat normaal wordt gebruikt in datawarehouse-systemen. Een andere belangrijke kostenbesparing is softwarelicenties.

Commerciële Hadoop-distributielicenties vereisen een fractie van de kosten van softwarelicenties voor relationele datawarehouses, die berucht zijn omdat ze duur zijn. Vanuit een operationeel perspectief is Hadoop zo ontworpen dat het eenvoudig kan worden geschaald door het toevoegen van extra slaafknooppunten aan een bestaand cluster. En naarmate slaaf-knooppunten worden toegevoegd en de gegevenssets in volume toenemen, maken de datafabricakaders van Hadoop het mogelijk dat uw toepassingen de toegenomen werklast naadloos verwerken.

Hadoop is een eenvoudige, flexibele en goedkope manier om de verwerking over letterlijk duizenden servers te duwen.

Met de schaalbare en goedkope architectuur lijkt Hadoop een perfecte keuze voor het archiveren van magazijngegevens … behalve voor één kleine zaak: het grootste deel van de IT-wereld draait op SQL en SQL alleen speelt niet goed met Hadoop.

Natuurlijk, hoe meer Hadoop-vriendelijke NoSQL-beweging springlevend is, maar de meeste machtige gebruikers gebruiken nu SQL via veelgebruikte, standaardgereedschapssets die SQL-query's genereren onder de motorkap - producten zoals Tableau, Microsoft Excel en IBM Cognos BI.

Het is waar dat het Hadoop-ecosysteem Hive bevat, maar Hive ondersteunt slechts een subset van SQL, en hoewel de prestaties verbeteren (samen met SQL-ondersteuning), is het lang niet zo snel in het beantwoorden van kleinere query's als relationele systemen. Onlangs is er grote vooruitgang geboekt in de SQL-toegang tot Hadoop, wat de weg heeft geëffend voor Hadoop om de nieuwe bestemming te worden voor online datawarehouse-archieven.

Afhankelijk van de Hadoop-leverancier zijn SQL (of SQL-achtige) API's beschikbaar, zodat de meer gangbare standaard rapportage- en analysehulpmiddelen probleemloos SQL kunnen uitvoeren die wordt uitgevoerd op gegevens die zijn opgeslagen in Hadoop. IBM heeft bijvoorbeeld zijn Big SQL API, Cloudera heeft Impala en Hive zelf, via het Hortonworks Stinger-initiatief, wordt steeds meer aan SQL-compliant.

Hoewel er verschillende standpunten bestaan (sommige gericht op het verbeteren van Hive, sommige om Hive uit te breiden en andere om een alternatief te bieden), proberen al deze oplossingen twee problemen aan te pakken: MapReduce is een slechte oplossing voor het uitvoeren van kleinere query's, en SQL-toegang is - voor nu - de sleutel om IT-medewerkers in staat te stellen hun bestaande SQL-vaardigheden te gebruiken om waarde te halen uit gegevens die zijn opgeslagen in Hadoop.