Huis Persoonlijke financiën Hadoop-integratie met R-dummies

Hadoop-integratie met R-dummies

Inhoudsopgave:

Video: Qlik Sense SAP Connector 2024

Video: Qlik Sense SAP Connector 2024
Anonim

In het begin waren big data en R geen natuurlijke vrienden. R-programmering vereist dat alle objecten in het hoofdgeheugen van een enkele machine worden geladen. De beperkingen van deze architectuur worden snel gerealiseerd wanneer big data een deel van de vergelijking wordt.

Daarentegen missen gedistribueerde bestandssystemen zoals Hadoop sterke statistische technieken, maar zijn ideaal voor het schalen van complexe bewerkingen en taken. Verticale schaaloplossingen - waarvoor investeringen in kostbare supercomputerhardware nodig zijn - kunnen vaak niet concurreren met het rendement op de kostenwaarde dat wordt geboden door gedistribueerde hardwareclusters van grondstoffen.

Om te voldoen aan de geheugenbeperkingen voor één machine van de R-taal, moesten gegevenswetenschappers de analyse vaak beperken tot slechts een deel van de beschikbare voorbeeldgegevens. Voorafgaand aan diepere integratie met Hadoop, R taal programmeurs bood een scale-out strategie voor het overwinnen van de uitdagingen in het geheugen van grote datasets op enkele machines.

Dit werd bereikt met behulp van berichtdoorvoersystemen en paging. Deze techniek is in staat om het werken over datasets te groot te maken om tegelijkertijd in het hoofdgeheugen op te slaan; de programmering op laag niveau biedt echter een steile leercurve voor degenen die onbekend zijn met parallelle programmeerparadigma's.

Alternatieve benaderingen proberen de statistische mogelijkheden van R te integreren met de gedistribueerde clusters van Hadoop op twee manieren: interfacing met SQL-querytalen en integratie met Hadoop Streaming. Met de eerstgenoemde is het doel om gebruik te maken van bestaande SQL-data warehousing-platforms zoals Hive en Pig. Deze schema's vereenvoudigen het programmeren van Hadoop-opdrachten met behulp van SQL-stijlinstructies om hoogwaardige programmering te bieden voor het uitvoeren van statistische taken via Hadoop-gegevens.

Voor programmeurs die MapReduce-taken willen programmeren in andere talen (waaronder R) dan Java, is een tweede optie om gebruik te maken van de Streaming-API van Hadoop. Door de gebruiker aangeleverde MapReduce-taken ondergaan datatransformaties met behulp van standaard streams en serialisatie van UNIX, en garanderen Java-compatibele invoer voor Hadoop - ongeacht de taal die oorspronkelijk door de programmeur is ingevoerd.

Ontwikkelaars blijven verschillende strategieën onderzoeken om gebruik te maken van de verdeelde berekeningsmogelijkheden van MapReduce en de vrijwel onbeperkte opslagcapaciteit van HDFS op manieren die kunnen worden benut door R.

Integratie van Hadoop met R is aan de gang, met aanbiedingen die beschikbaar zijn bij IBM (Big R als onderdeel van BigInsights) en Revolution Analytics (Revolution R Enterprise). Overbruggingsoplossingen die high-level programmeer- en bevragingstalen integreren met Hadoop, zoals RHive en RHadoop, zijn ook beschikbaar.

Fundamenteel wil elk systeem de diepe analytische mogelijkheden van de R-taal leveren aan veel grotere sets gegevens.

RHive

Het RHive-raamwerk dient als een brug tussen de R-taal en de Hive. RHive levert de rijke statistische bibliotheken en algoritmen van R aan gegevens die zijn opgeslagen in Hadoop door Hive's SQL-achtige query-taal (HiveQL) uit te breiden met R-specifieke functies. Via de RHive-functies kunt u HiveQL gebruiken om R-statistische modellen toe te passen op gegevens in uw Hadoop-cluster die u hebt gecatalogiseerd met Hive.

RHadoop

Een ander open source-framework dat beschikbaar is voor R-programmeurs is RHadoop, een verzameling pakketten die bedoeld zijn om de distributie en analyse van gegevens met Hadoop te beheren. Drie pakketten met notities - rmr2, rhdfs en rhbase - bieden de meeste functionaliteit van RHadoop:

  • rmr2: Het rmr2-pakket ondersteunt de vertaling van de R-taal in Hadoop-compatibele MapReduce-taken (produceert efficiënte, low-level MapReduce-code van hogere R-code).

  • rhdfs: Het rhdfs-pakket biedt een R language API voor bestandsbeheer via HDFS-winkels. Met behulp van rhdfs kunnen gebruikers lezen van HDFS-winkels naar een R-gegevensframe (matrix) en op dezelfde manier gegevens uit deze R-matrices terugschrijven naar HDFS-opslag.

  • rhbase: rhbase-pakketten bieden ook een R language API, maar hun doel in het leven is om te gaan met databasebeheer voor HBase-winkels in plaats van HDFS-bestanden.

Revolution R

Revolution R (door Revolution Analytics) is een commercieel R-aanbod met ondersteuning voor R-integratie op Hadoop-gedistribueerde systemen. Revolution R belooft verbeterde prestaties, functionaliteit en bruikbaarheid te bieden voor R op Hadoop. Om diepe analyses te bieden die vergelijkbaar zijn met R, maakt Revolution R gebruik van de ScaleR-bibliotheek van het bedrijf - een verzameling statistische analysealgoritmen die speciaal zijn ontwikkeld voor grote datacollecties op bedrijfsniveau.

ScaleR heeft als doel een snelle uitvoering van R-programmacode op Hadoop-clusters te leveren, waardoor de ontwikkelaar van R zich uitsluitend op zijn statistische algoritmen en niet op MapReduce kan richten. Verder behandelt het verschillende analytische taken, zoals gegevensvoorbereiding, visualisatie en statistische tests.

IBM BigInsights Big R

Big R biedt end-to-end integratie tussen R en het Hadoop-aanbod van IBM, BigInsights, waardoor R-ontwikkelaars Hadoop-gegevens kunnen analyseren. Het doel is om R's programmeringssyntaxis en coderingsparadigma's te benutten, terwijl ervoor wordt gezorgd dat de gegevens die worden gebruikt, worden bewaard in HDFS. R datatypes dienen als proxies voor deze datastores, wat betekent dat R-ontwikkelaars niet hoeven na te denken over MapReduce-constructies op een laag niveau of enige Hadoop-specifieke scriptingtalen (zoals Pig).

BigInsights Big R-technologie ondersteunt meerdere gegevensbronnen - inclusief platte bestanden, HBase- en Hive-opslagformaten - terwijl ze parallel en gepartitioneerd de uitvoering van R-code in het Hadoop-cluster verzorgen. Het verbergt veel van de complexiteiten in de onderliggende HDFS- en MapReduce-raamwerken, waardoor Big R-functies uitgebreide gegevensanalyses kunnen uitvoeren - zowel op gestructureerde als ongestructureerde gegevens.

Tot slot maakt de schaalbaarheid van de statistische engine van Big R het mogelijk dat R-ontwikkelaars gebruik maken van zowel vooraf gedefinieerde statistische technieken als zelf nieuwe algoritmes maken.

Hadoop-integratie met R-dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...