SQL Access en Apache Hive - dummies
Apache Hive is onbetwist de meest uitgebreide interface voor gegevensvragen in de Hadoop-community. Oorspronkelijk waren de ontwerpdoelen voor Hive niet bedoeld voor volledige SQL-compatibiliteit en hoge prestaties, maar moesten ze een eenvoudige, enigszins vertrouwde interface bieden voor ontwikkelaars die batch-query's tegen Hadoop moesten uitvoeren. Deze nogal fragmentarische aanpak werkt niet meer, dus ...
Slaafknooppunten in Hadoop-clusters - dummies
In een Hadoop-universum, zijn slaafknopen waar Hadoop-gegevens zijn opgeslagen en waar gegevens verwerking vindt plaats. Met de volgende services kunnen slave-knooppunten gegevens opslaan en verwerken: NodeManager: coördineert de bronnen voor een afzonderlijke slaafknoop en rapporteert terug naar de resource-manager. ApplicationMaster: volgt de voortgang van alle taken die worden uitgevoerd op ...
Slave-knooppunten in het Hadoop Distributed File System (HDFS) - dummies
In een Hadoop-cluster , elk gegevensknooppunt (ook bekend als een slaafknooppunt) voert een achtergrondproces uit met de naam DataNode. Dit achtergrondproces (ook bekend als een daemon) houdt de gegevenssegmenten bij die het systeem opslaat op zijn computer. Het spreekt regelmatig met de hoofdserver voor HDFS (bekend als de NameNode) tot ...
Het belang van sQL voor Hadoop - dummies
Er zijn dwingende redenen waarom SQL bewezen heeft veerkrachtig te zijn. De IT-industrie heeft 40 jaar ervaring met SQL, sinds het voor het eerst werd ontwikkeld door IBM in de vroege jaren 1970. Met de toename van het gebruik van relationele databases in de jaren 1980, is SQL sindsdien een standaardvaardigheid geworden voor de meeste IT ...
Sqoop 2. 0 Voorbeeld - dummies
Met al het succes rondom Sqoop 1. x bij het afstuderen van de Apache incubator , Sqoop heeft momentum! Dus, zoals je zou verwachten, is Sqoop 2. 0 onderweg met spannende nieuwe functies. Je kunt zien dat Sqoop 1. 99. 3 kan worden gedownload, compleet met documentatie. Je vraagt je waarschijnlijk af hoeveel 1. 99. x releases zullen zijn ...
Sqoop Connectors en stuurprogramma's - dummies
Sqoop-connectors gaan over het algemeen hand in hand met een JDBC-stuurprogramma. Sqoop bundelt de JDBC-stuurprogramma's niet omdat ze meestal eigendom zijn van en worden gelicentieerd door de RDBMS- of DW-leverancier. Er zijn dus drie mogelijke scenario's voor Sqoop, afhankelijk van het type gegevensbeheersysteem (RDBMS, DW of NoSQL) dat u probeert te gebruiken ...
Sqoop-exports met de update en update Insert-aanpak - dummies
Met invoegmodus, records geëxporteerd door Sqoop zijn toegevoegd aan het einde van de doeltabel. Sqoop biedt ook een updatemodus die u kunt gebruiken door het opdrachtregelargument -update-key op te geven. Deze actie zorgt ervoor dat Sqoop een SQL UPDATE-instructie genereert om te worden uitgevoerd op de RDBMS of het datawarehouse. Stel dat u ...
SQuirreL als Hive Client met het JDBC-stuurprogramma - dummies
SQuirreL SQL is een open source-tool die fungeert als een klant van Hive. U kunt deze universele SQL-client downloaden van de SourceForge-website. Het biedt een gebruikersinterface voor Hive en vereenvoudigt de taken van het opvragen van grote tabellen en het analyseren van gegevens met Apache Hive. De afbeelding illustreert hoe de Hive-architectuur zou werken wanneer ...
Het Apache Hadoop-ecosysteem - dummies
Hadoop is meer dan MapReduce en HDFS (Hadoop Distributed File System): het is ook een familie van gerelateerde projecten (echt een ecosysteem) voor gedistribueerd computergebruik en grootschalige gegevensverwerking. De meeste (maar niet alle) van deze projecten worden gehost door de Apache Software Foundation. De tabel somt een aantal van deze projecten op. Gerelateerde Hadoop Projecten Projectnaam Beschrijving ...
De Hadoop dfsadmin Opdrachtopties - dummies
De dfsadmin-hulpmiddelen zijn een specifieke set hulpmiddelen ontworpen om u te helpen informatie uit te roeien over uw Hadoop Distributed File-systeem (HDFS). Als een toegevoegde bonus kunt u deze gebruiken om ook enkele beheerbewerkingen op HDFS uit te voeren. Optie What It Does -report Rapporteert basisbestandssysteeminformatie en statistieken. -safemode enter | ...
Neem HBase voor een testrun - dummies
Hier, u leert hoe u HBase kunt downloaden en implementeren in de zelfstandige modus . Het is verbazingwekkend eenvoudig om HBase te installeren en de technologie te gaan gebruiken. Houd er rekening mee dat HBase doorgaans wordt gebruikt op een cluster van commodity-servers, maar u kunt HBase ook eenvoudig in een zelfstandige configuratie implementeren voor leren of demonstreren ...
De hybride gegevensvoorbewerkingsoptie in Hadoop - dummies
Naast het opslaan van grotere hoeveelheden koude gegevens, een druk die u in traditionele datawarehouses ziet, is dat steeds meer verwerkingsresources worden gebruikt voor transformatie (ELT) -workloads. Het idee achter het gebruik van Hadoop als een voorbewerkingstechnologie om gegevenstransformatie aan te pakken, betekent dat kostbare verwerkingscycli worden vrijgegeven, waardoor ...
De architectuur van Apache Hive - dummies
Terwijl je de elementen van Apache Hive bekijkt, die je onderaan kunt zien dat Hive bovenop het Hadoop Distributed File System (HDFS) en MapReduce-systemen zit. In het geval van MapReduce geven de figuren zowel de Hadoop 1- als Hadoop 2-componenten weer. Met Hadoop 1 worden Hive-query's geconverteerd naar MapReduce-code ...
De op Hadoop gebaseerde landingszone - dummies
Wanneer u probeert uit te puzzelen hoe een analyseomgeving eruit kan zien in in de toekomst, struikel je keer op keer over het patroon van de op Hadoop gebaseerde landingszone. Het is zelfs geen toekomstgerichte discussie meer, omdat de landingszone de manier is geworden waarop toekomstgerichte bedrijven nu IT proberen te redden ...
De Beperkingen van Bemonstering in Hadoop - dummies
Statistische analyse is allesbehalve een nieuw kind in de buurt, en het is zeker oud nieuws dat het afhangt van het verwerken van grote hoeveelheden gegevens om nieuw inzicht te krijgen. De hoeveelheid gegevens die traditioneel door deze systemen wordt verwerkt, lag echter tussen 10 en 100 (of honderden) gigabytes - ...
De HBase MasterServer - dummies
Start een bespreking van de HBase (Hadoop Database) architectuur door RegionServers te beschrijven in plaats van de MasterServer kan u verrassen . De term RegionServer lijkt te impliceren dat deze afhankelijk is van (en secundair is aan) de MasterServer en dat u daarom eerst de MasterServer dient te bespreken. Zoals het oude liedje echter zegt, "het is niet noodzakelijk zo. "De ...
De sleutel tot het succesvol adopteren van Hadoop - dummies
In een serieus Hadoop-project, moet u beginnen door IT samen te werken met bedrijven leiders van VP's naar beneden helpen bij het oplossen van de pijnpunten van uw bedrijf - die problemen (reëel of vermeend) die in ieders gedachten opdoemen. Bedrijven willen waarde zien te halen uit hun IT-investeringen en met Hadoop kan dit variëren.
De Hive CLI Client - dummies
De eerste Hive-client is de Hive-opdrachtregelinterface (CLI). Om de fijnere punten van de Hive CLI-client onder de knie te krijgen, kan het helpen om de (enigszins druk ogende) Hive-architectuur te herzien. In de tweede figuur is de architectuur gestroomlijnd om zich alleen te richten op de componenten die vereist zijn bij het uitvoeren van de CLI. Dit zijn de componenten ...
Het HBase Client Ecosystem - dummies
HBase is geschreven in Java, een elegante taal voor het bouwen van gedistribueerde technologieën zoals HBase, maar dan met het gezicht het - niet iedereen die voordeel wil halen uit innovaties van HBase is een Java-ontwikkelaar. Dat is de reden waarom er een rijk HBase-client-ecosysteem bestaat, waarvan het enige doel is om de zware Java-lifting voor je te doen en ...
Het belang van MapReduce in Hadoop - dummies
Voor het grootste deel van de geschiedenis van Hadoop, MapReduce is de enige game in de stad geweest als het gaat om gegevensverwerking. De beschikbaarheid van MapReduce is de reden voor het succes van Hadoop en tegelijkertijd een belangrijke factor geweest bij het beperken van verdere acceptatie. MapReduce stelt ervaren programmeurs in staat om gedistribueerde applicaties te schrijven zonder zich zorgen te hoeven maken over ...
De attributen van HBase - dummies
HBase (Hadoop Database) is een Java-implementatie van Google's BigTable. Google definieert BigTable als een 'schaars, gedistribueerd, persistent multidimensionaal gesorteerde kaart. "Het is een vrij beknopte definitie, maar je zult het er ook over eens zijn dat het een beetje ingewikkeld is. Om de complexiteit van BigTable een beetje af te breken, volgt een bespreking van elk attribuut. Hbase is dun ...
De oorsprong en het ontwerp van Hadoop - dummies
Dus wat is precies dit ding met de grappige naam - Hadoop? In de kern is Hadoop een raamwerk voor het opslaan van gegevens over grote clusters van standaardhardware - alledaagse computerhardware die betaalbaar en gemakkelijk beschikbaar is - en applicaties draaien tegen die gegevens. Een cluster is een groep onderling verbonden computers (bekend als ...
De Varkenarchitectuur in Hadoop - dummies
"Eenvoudig" betekent vaak "elegant" als het gaat om die bouwkundige tekeningen voor dat nieuwe Silicon Valley-herenhuis waar je voor hebt gepland wanneer het geld binnenkomt nadat je Hadoop hebt geïmplementeerd. Hetzelfde principe is van toepassing op software-architectuur. Pig bestaat uit twee componenten: de taal zelf: als bewijs dat programmeurs ...
De MapReduce-applicatieflow in Hadoop - dummies
In de kern is MapReduce een programmeermodel voor het verwerken van datasets die worden op een gedistribueerde manier opgeslagen over de slave-knooppunten van een Hadoop-cluster. Het sleutelbegrip hier is verdeel en heers. Concreet wil je een grote dataset in veel kleinere stukjes breken en deze parallel met hetzelfde algoritme verwerken. ...
De Pig Latin-applicatieflow in Hadoop - dummies
In de kern is Pig Latin een dataflow-taal, waarbij u definieert een gegevensstroom en een reeks transformaties die worden toegepast op de gegevens terwijl deze door uw toepassing vloeien. Dit staat in contrast met een controlestroomtaal (zoals C of Java), waar je een reeks instructies schrijft. In control flow ...
De principes van Sqoop Design - dummies
Als het om Sqoop gaat, is een afbeelding vaak meer dan duizend woorden waard, dus Bekijk de figuur, die je een vogelvlucht geeft van de Sqoop-architectuur. Het idee achter Sqoop is dat het gebruikmaakt van kaarttaken - taken die de parallelle import en export van relationele databasetabellen uitvoeren - van binnenuit ...
De fase van de vermindering van Hadoop verminderen Toepassing verminderen - dummies
De fase Reduce verwerkt de toetsen en hun individuele lijsten van waarden, zodat wat normaal wordt geretourneerd naar de clienttoepassing, een set sleutel- / waardeparen is. Hier is de blow-by-blow tot nu toe: een grote dataset is opgesplitst in kleinere stukjes, invoersplitsingen genoemd, en individuele exemplaren van mapper-taken hebben elk verwerkt ...
De webbrowser als Hive Client - dummies
Het gebruik van de Hive CLI vereist slechts één commando om de Hive shell te starten, maar wanneer u Hive wilt openen met een webbrowser, moet u eerst de HWI-server starten en vervolgens uw browser naar de poort richten waarnaar de server luistert. In de volgende afbeelding ziet u hoe dit type Hive-client ...
De Map-fase van Hadoop MapReduce Application Flow - dummies
Een MapReduce-toepassing verwerkt de gegevens in invoersplitsingen op een record-voor-recordbasis en dat elke record door MapReduce wordt begrepen als een sleutel / waarde-paar. Nadat de invoersplitsingen zijn berekend, kunnen de mapper-taken beginnen met de verwerking ervan - dat wil zeggen, direct nadat de planningsfaciliteit van Resource Manager hen hun verwerkingsresources toewijst. ...
De YARN-architectuur in Hadoop - dummies
YARN, voor degenen die net aankomen bij dit specifieke feest, staat voor Yet Another Resource Negotiator, een tool waarmee andere frameworks voor gegevensverwerking op Hadoop kunnen worden uitgevoerd. De glorie van YARN is dat het Hadoop presenteert met een elegante oplossing voor een aantal aloude uitdagingen. YARN is bedoeld om een efficiëntere en ...
Wat SQL Access feitelijk betekent - dummies
Een aantal bedrijven investeren zwaar om open source-projecten en bedrijfseigen oplossingen voor SQL-toegang tot Hadoop-gegevens. Wanneer u de term SQL-toegang hoort, moet u weten dat u op een paar basisaannames vertrouwt: Taalstandaarden: de belangrijkste standaard is natuurlijk de taal zelf. Veel "SQL-achtige" oplossingen bestaan, ...
YARN's Application Master in Hadoop - dummies
In tegenstelling tot andere YARN-componenten (Yet Another Resource Negotiator), geen component in Hadoop 1 kaarten rechtstreeks naar de applicatiemaster. In essentie is dit werk dat de JobTracker voor elke toepassing heeft gedaan, maar de implementatie is radicaal anders. Elke toepassing die wordt uitgevoerd op de Hadoop-cluster heeft een eigen, speciale Application Master-instantie, die feitelijk wordt uitgevoerd in ...
De Shuffle-fase van Hadoop's MapReduce Application Flow - dummies
Na de kaartfase en vóór het begin van de Reduce phase is een overdrachtsproces, bekend als shuffle en sort. Hier worden de gegevens van de mapper-taken voorbereid en verplaatst naar de knooppunten waar de reducertaken zullen worden uitgevoerd. Wanneer de mapper-taak voltooid is, worden de resultaten gesorteerd op sleutel, gepartitioneerd als ...
Wanneer doet HBase iets voor u? - dummies
Dus, wanneer moet u overwegen om HBase te gebruiken? Hoewel het antwoord op deze vraag niet voor iedereen vanzelfsprekend hoeft te zijn, moet je om te beginnen een grote hoeveelheid gegevens en voldoende hardwarebronnen hebben. Een grote vereiste voor gegevens: terabytes voor petabytes - anders heb je veel niet-actieve servers in je racks. Voldoende hardwarebronnen: vijf servers ...
YARN's Node Manager in Hadoop - dummies
Elk slaveknooppunt in Yet Another Resource Negotiator (YARN) heeft een Node Manager daemon , dat fungeert als een slaaf voor de Resource Manager. Net als bij de TaskTracker heeft elk slaafknooppunt een service die het koppelt aan de verwerkingsservice (Node Manager) en de opslagservice (DataNode) waarmee Hadoop een gedistribueerd systeem kan zijn. ...
YARN's Resource Manager - dummies
De kerncomponent van YARN (Yet Another Resource Negotiator) is de Resource Manager, die alle gegevensverwerkingsresources in het Hadoop-cluster. Simpel gezegd is de Resource Manager een toegewijde planner die bronnen toewijst aan het aanvragen van applicaties. De enige taak ervan is om een globaal beeld te behouden van alle bronnen in het cluster, de afhandeling ...
Bijhouden van JobTracker en TaskTracker in Hadoop 1 - dummies
MapReduce-verwerking in Hadoop 1 wordt afgehandeld door de JobTracker en TaskTracker daemons. De JobTracker onderhoudt een weergave van alle beschikbare verwerkingsbronnen in de Hadoop-cluster en, wanneer toepassingsverzoeken binnenkomen, worden deze gepland en geïmplementeerd naar de knooppunten van de TaskTracker voor uitvoering. Terwijl toepassingen worden uitgevoerd, ontvangt JobTracker statusupdates van de ...
Supersnelle gegevenscaching met NoSQL - dummies
Met NoSQL, u beschikt over gegevenscaching op hoge snelheid. Stel je voor dat je een bankbediende bent met drie andere collega's aan het werk. Jullie hebben allemaal een rij mensen om te bedienen. Een van de klanten blijft echter in de rij staan om te vragen of zijn cheque al is geïncasseerd en het bedrag dat is bijgeschreven op zijn account. Wanneer u ...
Hoe Insights uit Big Data te communiceren - dummies
Big data kan u helpen inzicht te krijgen. Bedrijven krijgen een concurrentievoordeel wanneer de juiste informatie op het juiste moment aan de juiste mensen wordt geleverd. Dit betekent dat we inzichten en informatie uit gegevens moeten halen en deze moeten communiceren met besluitvormers op een manier die ze gemakkelijk kunnen begrijpen. Mensen zullen immers minder snel handelen als ze ...
Dierenverzorger en HBase Betrouwbaarheid - dummies
Dierenverzorgende is een gedistribueerd cluster van servers die samen betrouwbare coördinatie- en synchronisatiediensten bieden voor geclusterde applicaties . Toegegeven, de naam "Zookeeper" lijkt in eerste instantie misschien een vreemde keuze, maar als je begrijpt wat het voor een HBase-cluster doet, kun je de logica achter deze cluster zien. Tijdens het bouwen en debuggen van gedistribueerde ...