Huis Persoonlijke financiën Machine Leren met Mahout in Hadoop - dummies

Machine Leren met Mahout in Hadoop - dummies

Inhoudsopgave:

Video: How The Economic Machine Works by Ray Dalio 2024

Video: How The Economic Machine Works by Ray Dalio 2024
Anonim

Machine learning verwijst naar een tak van kunstmatige intelligentie technieken die tools biedt waarmee computers hun analyse kunnen verbeteren op basis van eerdere gebeurtenissen. Deze computersystemen maken gebruik van historische gegevens uit eerdere pogingen om een ​​taak op te lossen om de prestaties van toekomstige pogingen bij vergelijkbare taken te verbeteren.

Op het gebied van verwachte resultaten lijkt machine learning veel op dat andere buzzword "datamining"; echter, de eerste richt zich op voorspelling door analyse van voorbereide trainingsgegevens, de laatste heeft betrekking op kennisontdekking van onbewerkte onbewerkte gegevens. Om deze reden hangt het leren van machines sterk af van statistische modelleertechnieken en trekt het van gebieden van waarschijnlijkheidstheorie en patroonherkenning.

Mahout is een open source-project van Apache en biedt Java-bibliotheken voor gedistribueerde of anders schaalbare algoritmen voor het leren van apparaten.

Deze algoritmen omvatten klassieke machine learning-taken zoals classificatie, clustering, associatie-regelanalyse en aanbevelingen. Hoewel Mahout-bibliotheken zijn ontworpen om te werken binnen een Apache Hadoop-context, zijn ze ook compatibel met elk systeem dat het MapReduce-raamwerk ondersteunt. Mahout biedt bijvoorbeeld Java-bibliotheken voor Java-verzamelingen en algemene wiskundige bewerkingen (lineaire algebra en statistieken) die zonder Hadoop kunnen worden gebruikt.

Zoals je kunt zien, zijn de Mahout-bibliotheken geïmplementeerd in Java MapReduce en worden ze op je cluster uitgevoerd als verzamelingen van MapReduce-taken op beide YARN-kaarten (met MapReduce v2) of MapReduce v1.

Mahout is een evoluerend project met meerdere bijdragers. Tegen de tijd dat ik dit schrijf, is de verzameling algoritmen die beschikbaar zijn in de Mahout-bibliotheken helemaal niet compleet; de verzameling van algoritmen die voor gebruik is geïmplementeerd, blijft echter met de tijd uitbreiden.

Er zijn drie hoofdcategorieën van Mahout-algoritmen voor het ondersteunen van statistische analyse: collaboratief filteren, clusteren en classificeren.

Gezamenlijke filtering

Mahout is speciaal ontworpen om als aanbevelingsengine te dienen, met gebruik van een zogenaamd collaboratief filter -algoritme. Mahout combineert de rijkdom aan clustering- en classificatie-algoritmes tot zijn beschikking om preciezere aanbevelingen te produceren op basis van invoergegevens.

Deze aanbevelingen worden vaak toegepast tegen gebruikersvoorkeuren, rekening houdend met het gedrag van de gebruiker. Door de eerdere selecties van een gebruiker te vergelijken, is het mogelijk om de dichtstbijzijnde buren (personen met een vergelijkbare beslissingsgeschiedenis) voor die gebruiker te identificeren en toekomstige selecties te voorspellen op basis van het gedrag van de buren.

Overweeg een "smaakprofiel" -engine zoals Netflix - een engine die beoordelingen aanbeveelt op basis van de eerdere scoor- en kijkgewoonten van die gebruiker. In dit voorbeeld worden de gedragspatronen voor een gebruiker vergeleken met de gebruikersgeschiedenis - en de trends van gebruikers met dezelfde smaak die tot dezelfde Netflix-community behoren - om een ​​aanbeveling te genereren voor inhoud die nog niet door de betreffende gebruiker is bekeken.

Clustering

In tegenstelling tot de bewaakte leermethode voor de aanbevelingsfunctie van Mahout, is clustering een vorm van niet-gecontroleerd leren - waarbij de labels voor datapunten niet van tevoren bekend zijn en moeten worden afgeleid uit de gegevens zonder menselijke input (het gesuperviseerde deel).

Over het algemeen moeten objecten binnen een cluster vergelijkbaar zijn; objecten uit verschillende clusters moeten niet hetzelfde zijn. Beslissingen die van tevoren worden genomen over het aantal te genereren clusters, de criteria voor het meten van "gelijkenis" en de weergave van objecten, zullen van invloed zijn op de labeling die wordt geproduceerd door clusteralgoritmen.

Een cluster-engine die een lijst met nieuwsartikelen bevat, moet bijvoorbeeld clusters van artikelen in die verzameling kunnen definiëren die soortgelijke onderwerpen bespreken.

Stel dat een reeks artikelen over Canada, Frankrijk, China, bosbouw, olie en wijn worden geclusterd. Als het maximale aantal clusters is ingesteld op 2, kan uw algoritme categorieën produceren zoals 'regio's' en 'branches'. "Aanpassingen van het aantal clusters zullen verschillende categorisaties produceren; als u bijvoorbeeld selecteert voor 3 clusters, kan dit leiden tot paarsgewijze groeperingen van nationale-industrieklassen.

Classificaties

Classificatiealgoritmen maken gebruik van door mensen gelabelde trainingsgegevenssets, waarbij de categorisering en classificatie van alle toekomstige invoer wordt bepaald door deze bekende labels. Deze classifiers implementeren het zogenaamde gesuperviseerde leren in de machine-leerwereld.

Classificatieregels - ingesteld door de trainingsgegevens, die van tevoren zijn gelabeld door domeinexperts - worden vervolgens toegepast op onbewerkte, onverwerkte gegevens om zo de juiste labeling te bepalen.

Deze technieken worden vaak gebruikt door e-mailservices die proberen spam-e-mail te classificeren voordat ze uw Postvak IN ooit passeren. Specifiek, gezien een e-mail die een reeks zinnen bevat waarvan bekend is dat ze vaak samen voorkomen in een bepaalde categorie spammail - afgeleverd vanaf een adres dat bij een bekend botnet hoort - kan uw classificatie-algoritme de e-mail betrouwbaar identificeren als kwaadaardig.

Naast de schat aan statistische algoritmen die Mahout standaard biedt, is er ook een ondersteunende Door gebruiker gedefinieerde algoritmen (UDA) -module beschikbaar. Gebruikers kunnen bestaande algoritmen overbruggen of hun eigen algoritmen implementeren via de UDA-module. Deze robuuste aanpassing maakt prestatie-afstemming van inheemse Mahout-algoritmen en flexibiliteit bij het aanpakken van unieke statistische analyse-uitdagingen mogelijk.

Als Mahout kan worden beschouwd als een uitbreiding van de statistische analyse van Hadoop, moet UDA worden gezien als een uitbreiding op de statistische mogelijkheden van Mahout.

Traditionele toepassingen voor statistische analyse (zoals SAS, SPSS en R) worden geleverd met krachtige hulpmiddelen voor het genereren van werkstromen. Deze toepassingen maken gebruik van intuïtieve grafische gebruikersinterfaces die een betere gegevensvisualisatie mogelijk maken. Mahout-scripts volgen een soortgelijk patroon als deze andere tools voor het genereren van statistische analyse-workflows.

Tijdens de laatste fase van gegevensverkenning en visualisatie kunnen gebruikers exporteren naar door mensen leesbare formaten (JSON, CSV) of gebruikmaken van visualisatietools zoals Tableau Desktop.

De architectuur van Mahout ligt bovenop het Hadoop-platform. Hadoop ontzorgt de programmeur door de taak van het programmeren van MapReduce-taken te scheiden van de complexe boekhouding die nodig is om parallellisme over verspreide bestandssystemen te beheren. In dezelfde geest biedt Mahout programmeervriendelijke abstracties van complexe statistische algoritmen, klaar voor implementatie met het Hadoop-framework.

Machine Leren met Mahout in Hadoop - dummies

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...