Huis Persoonlijke financiën Hadoop als een queryarchief van Cold Warehouse-gegevens - dummies

Hadoop als een queryarchief van Cold Warehouse-gegevens - dummies

Video: Big Data, wat kun je ermee? 2024

Video: Big Data, wat kun je ermee? 2024
Anonim

een veelvoud aan onderzoeken aantonen dat de meeste gegevens in een bedrijfsgegevensmagazijn zelden worden opgevraagd. Databaseleveranciers hebben op dergelijke waarnemingen gereageerd door hun eigen methoden te implementeren om uit te zoeken waar gegevens worden geplaatst.

Eén methode bestelt het gegevensuniversum in aanduidingen van warm, warm of koud, waarbij hete gegevens (soms actieve gegevens genoemd) wordt vaak gebruikt, warme gegevens worden van tijd tot tijd gebruikt en koude gegevens worden zelden gebruikt. De voorgestelde oplossing voor veel leveranciers is om de koude gegevens op langzamere schijven in de behuizingen van het datawarehouse op te slaan of slimme cachingstrategieën te maken om de hete gegevens in het geheugen te houden, onder andere.

Het probleem met deze aanpak is dat, hoewel langzamere opslag wordt gebruikt, het nog steeds duur is om koude, zelden gebruikte gegevens in een magazijn op te slaan. De kosten hier zijn afkomstig van zowel hardware- en softwarelicenties. Tegelijkertijd worden koude en slapende gegevens vaak gearchiveerd op tape.

Dit traditionele model voor archiveringsgegevens breekt af als u alle koude gegevens op een kosteneffectieve en relatief efficiënte manier wilt opvragen, zonder dat u om oude tapes hoeft te vragen, met andere woorden.

Als je kijkt naar de kosten en operationele eigenschappen van Hadoop, lijkt het erop dat het de nieuwe back-uptape gaat worden. Hadoop is grotendeels goedkoop omdat Hadoop-systemen zijn ontworpen om een ​​lagere kwaliteit hardware te gebruiken dan wat normaal wordt gebruikt in datawarehouse-systemen. Een andere belangrijke kostenbesparing is softwarelicenties.

Commerciële Hadoop-distributielicenties vereisen een fractie van de kosten van softwarelicenties voor relationele datawarehouses, die berucht zijn omdat ze duur zijn. Vanuit een operationeel perspectief is Hadoop zo ontworpen dat het eenvoudig kan worden geschaald door het toevoegen van extra slaafknooppunten aan een bestaand cluster. En naarmate slaaf-knooppunten worden toegevoegd en de gegevenssets in volume toenemen, maken de datafabricakaders van Hadoop het mogelijk dat uw toepassingen de toegenomen werklast naadloos verwerken.

Hadoop is een eenvoudige, flexibele en goedkope manier om de verwerking over letterlijk duizenden servers te duwen.

Met de schaalbare en goedkope architectuur lijkt Hadoop een perfecte keuze voor het archiveren van magazijngegevens … behalve voor één kleine zaak: het grootste deel van de IT-wereld draait op SQL en SQL alleen speelt niet goed met Hadoop.

Natuurlijk, hoe meer Hadoop-vriendelijke NoSQL-beweging springlevend is, maar de meeste machtige gebruikers gebruiken nu SQL via veelgebruikte, standaardgereedschapssets die SQL-query's genereren onder de motorkap - producten zoals Tableau, Microsoft Excel en IBM Cognos BI.

Het is waar dat het Hadoop-ecosysteem Hive bevat, maar Hive ondersteunt slechts een subset van SQL, en hoewel de prestaties verbeteren (samen met SQL-ondersteuning), is het lang niet zo snel in het beantwoorden van kleinere query's als relationele systemen. Onlangs is er grote vooruitgang geboekt in de SQL-toegang tot Hadoop, wat de weg heeft geëffend voor Hadoop om de nieuwe bestemming te worden voor online datawarehouse-archieven.

Afhankelijk van de Hadoop-leverancier zijn SQL (of SQL-achtige) API's beschikbaar, zodat de meer gangbare standaard rapportage- en analysehulpmiddelen probleemloos SQL kunnen uitvoeren die wordt uitgevoerd op gegevens die zijn opgeslagen in Hadoop. IBM heeft bijvoorbeeld zijn Big SQL API, Cloudera heeft Impala en Hive zelf, via het Hortonworks Stinger-initiatief, wordt steeds meer aan SQL-compliant.

Hoewel er verschillende standpunten bestaan ​​(sommige gericht op het verbeteren van Hive, sommige om Hive uit te breiden en andere om een ​​alternatief te bieden), proberen al deze oplossingen twee problemen aan te pakken: MapReduce is een slechte oplossing voor het uitvoeren van kleinere query's, en SQL-toegang is - voor nu - de sleutel om IT-medewerkers in staat te stellen hun bestaande SQL-vaardigheden te gebruiken om waarde te halen uit gegevens die zijn opgeslagen in Hadoop.

Hadoop als een queryarchief van Cold Warehouse-gegevens - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...