Inhoudsopgave:
Video: Sampling: Simple Random, Convenience, systematic, cluster, stratified - Statistics Help 2024
In veel gevallen zal big data-analyse worden gepresenteerd aan de eindgebruiker via rapporten en visualisaties. Omdat de onbewerkte gegevens onbegrijpelijk gevarieerd kunnen zijn, moet u vertrouwen op analysetools en -technieken om de gegevens op een zinvolle manier te presenteren.
Nieuwe applicaties komen beschikbaar en zullen grofweg in twee categorieën vallen: op maat of semi-aangepast.
Aangepaste toepassingen voor big data-analyse
Over het algemeen wordt een aangepaste toepassing gemaakt voor een specifiek doel of een gerelateerde reeks doelen. Voor big data-analyse is het doel van ontwikkeling van aangepaste applicaties het versnellen van de tijd voor besluitvorming of actie.
R-omgeving
De "R" -omgeving is gebaseerd op de "S" -statistieken en analysetaal die in de jaren 90 door Bell Laboratories zijn ontwikkeld. Het wordt onderhouden door het GNU-project en is beschikbaar onder de GNU-licentie.
Hoewel het een uitdaging is om volledig te begrijpen, maken de diepte en flexibiliteit het een aantrekkelijke keuze voor ontwikkelaars van analytische apps en "krachtige gebruikers". "Bovendien onderhoudt het CRAN R-project een wereldwijde set File Transfer Protocol en webservers met de meest recente versies van de R-omgeving. Een commercieel ondersteunde, zakelijke versie van R is ook verkrijgbaar bij Revolution Analytics.
Meer specifiek is R een geïntegreerd pakket softwaretools en -technologieën die zijn ontworpen om aangepaste applicaties te maken die worden gebruikt om gegevensmanipulatie, berekening, analyse en visuele weergave te vergemakkelijken. Naast andere geavanceerde functies, ondersteunt het
-
Effectieve componenten voor gegevensverwerking en manipulatie.
-
Operators voor berekeningen op matrices en andere soorten geordende gegevens.
-
Hulpmiddelen die specifiek zijn voor een breed scala aan gegevensanalyses.
-
Geavanceerde visualisatiemogelijkheden.
-
S programmeertaal ontworpen door programmeurs, voor programmeurs met veel bekende constructies, waaronder conditionals, loops, door de gebruiker gedefinieerde recursieve functies en een breed scala aan invoer- en uitvoerfaciliteiten.
R is goed geschikt voor individuele, aangepaste toepassingen voor analyse van big data-bronnen.
Google Prediction API
De Google Prediction API is een voorbeeld van een opkomende klasse toepassingen voor big data-analyse. Het is beschikbaar op de website van Google-ontwikkelaars en is goed gedocumenteerd en voorzien van verschillende mechanismen voor toegang via verschillende programmeertalen. Om u te helpen aan de slag te gaan, is het zes maanden vrij beschikbaar.
De voorspellings-API is vrij eenvoudig. Het zoekt naar patronen en vergelijkt deze met proscriptieve, prescriptieve of andere bestaande patronen.Terwijl het zijn patroonaanpassing uitvoert, leert het ook. "Hoe meer je het gebruikt, hoe slimmer het wordt.
Voorspelling wordt geïmplementeerd als een RESTful API met taalondersteuning voor. NET, Java, PHP, JavaScript, Python, Ruby en vele anderen. Google biedt ook scripts voor toegang tot de API en een clientbibliotheek voor R.
Predictieve analyse is een van de krachtigste potentiële mogelijkheden van big data en de Google Prediction API is een zeer nuttige tool voor het maken van aangepaste applicaties.
Semi-aangepaste toepassingen voor big data-analyse
In werkelijkheid wordt wat veel mensen ervaren als aangepaste toepassingen, feitelijk gemaakt met behulp van "verpakte" componenten of componenten van derden, zoals bibliotheken. Het is niet altijd nodig om een nieuwe applicatie volledig te coderen. Voor het gebruik van verpakte applicaties of componenten moeten ontwikkelaars of analisten code schrijven om deze componenten samen te voegen tot een werkende, aangepaste applicatie. Om de volgende redenen is dit een goede benadering:
-
Snelheid tot implementatie: Omdat u niet elk onderdeel van de toepassing hoeft te schrijven, kan de ontwikkelingstijd aanzienlijk worden verkort.
-
Stabiliteit: Het gebruik van goed geconstrueerde, betrouwbare componenten van derden kan helpen om de aangepaste toepassing veerkrachtiger te maken.
-
Betere kwaliteit: Verpakte componenten zijn vaak onderworpen aan hogere kwaliteitsnormen omdat ze worden geïmplementeerd in een grote verscheidenheid aan omgevingen en domeinen.
-
Meer flexibiliteit: Als een beter component wordt geleverd, kan het worden omgezet in de toepassing, waardoor de levensduur, aanpasbaarheid en bruikbaarheid van de aangepaste toepassing wordt verlengd.
Een ander type semi-aangepaste toepassing is een toepassing waarbij de broncode beschikbaar is en voor een bepaald doel is aangepast. Dit kan een efficiënte aanpak zijn, omdat er nogal wat voorbeelden van applicatiebouwstenen beschikbaar zijn om op te nemen in uw semi-aangepaste toepassing:
-
TA-Lib: De bibliotheek met technische analyse wordt veel gebruikt door softwareontwikkelaars die behoefte hebben aan technische analyse van financiële marktgegevens uitvoeren. Het is beschikbaar als open source onder de BSD-licentie, waardoor het kan worden geïntegreerd in semi-aangepaste toepassingen.
-
JUNG: Het Java Universal Network Graph-framework is een bibliotheek die een gemeenschappelijk raamwerk biedt voor analyse en visualisatie van gegevens die kunnen worden weergegeven door een grafiek of netwerk. Het is handig voor analyse van sociale netwerken, belangrijkheidsmaatregelen en datamining. Het is beschikbaar als open source onder de BSD-licentie.
-
GeoTools: Een open source geospatiale toolkit voor het manipuleren van GIS-gegevens in vele vormen, het analyseren van ruimtelijke en niet-ruimtelijke attributen of GIS-gegevens, en het creëren van grafieken en netwerken van de gegevens. Het is beschikbaar onder de GPL2-licentie, waardoor integratie in semi-aangepaste toepassingen mogelijk is.