Video: Susan Etlinger: What do we do with all this big data? 2024
De discipline voor het leren van machines heeft een rijke en uitgebreide catalogus van technieken. Mahout brengt een reeks statistische hulpmiddelen en algoritmen naar de tafel, maar het bevat slechts een fractie van die technieken en algoritmen, omdat het een uitdaging is om deze modellen om te zetten naar een MapReduce-raamwerk.
In de loop van de tijd zal Mahout zeker doorgaan met het uitbreiden van zijn statistische toolbox, maar tot die tijd moeten alle datawetenschappers en statistici op de hoogte zijn van alternatieve statistische modelleringssoftware - dat is waar R in komt.
De R-taal is een krachtige en populaire open-source statistische taal en ontwikkelingsomgeving. Het biedt een rijk analytisch ecosysteem dat data-wetenschappers kan helpen met data-exploratie, visualisatie, statistische analyse en computing, modellering, machine learning en simulatie. De R-taal wordt vaak gebruikt door statistici, data miners, data-analisten en (tegenwoordig) data-wetenschappers.
R taalprogrammeurs hebben toegang tot de Comprehensive R Archive Network (CRAN) -bibliotheken die, vanaf het moment van schrijven, meer dan 3000 statistische analysepakketten bevat. Deze add-ons kunnen in elk willekeurig R-project worden opgenomen en bieden uitgebreide analytische hulpmiddelen voor het uitvoeren van classificatie, regressie, clustering, lineaire modellering en meer gespecialiseerde algoritmen voor het leren van machines.
De taal is toegankelijk voor mensen die bekend zijn met eenvoudige soorten gegevensstructuren - vectoren, scalaires, gegevensframes (matrices) en dergelijke - die vaak worden gebruikt door statistici en programmeurs.
Out of the box, een van de belangrijkste valkuilen bij het gebruik van de R-taal is het gebrek aan ondersteuning voor het uitvoeren van gelijktijdige taken. Statistische taalhulpmiddelen zoals R blinken uit in rigoureuze analyse, maar missen schaalbaarheid en native ondersteuning voor parallelle berekeningen.
Deze systemen zijn niet-distribueerbaar en zijn niet ontwikkeld om schaalbaar te zijn voor de moderne petabyte-wereld van big data. Voorstellen om deze beperkingen te overwinnen, moeten de reikwijdte van R uitbreiden tot meer dan in het geheugen wordt geladen en omgevingen voor de uitvoering van enkele computers, terwijl de flair van R wordt gehandhaafd voor gemakkelijk inzetbare statistische algoritmen.