Kijken naar de grondbeginselen van statistiek, machinaal leren en wiskundige methoden in gegevenswetenschap - dummy's

Deel van Data Science For Dummies Cheatsheet > Als statistieken zijn beschreven als de wetenschap van het afleiden van inzichten uit data, wat is dan het verschil tussen een statisticus en een data scientist? Goede vraag! Hoewel veel taken in de gegevenswetenschap nogal wat statistische kennis vereisen, is de reikwijdte en breedte van de kennis en vaardigheden van een gegevenswetenschapper anders dan die van een statisticus. De belangrijkste verschillen worden hieronder beschreven.

Deskundigheid van het onderwerp:

Een van de belangrijkste kenmerken van gegevenswetenschappers is dat ze een geavanceerde expertise bieden op het gebied waarop zij hun analysemethoden toepassen. Gegevenswetenschappers hebben dit nodig, zodat ze de implicaties en toepassingen van de gegevensinzichten die ze genereren, echt kunnen begrijpen. Een data-wetenschapper moet voldoende vakkennis hebben om de significantie van hun bevindingen te kunnen identificeren en onafhankelijk beslissen hoe verder te gaan in de analyse.

Daarentegen hebben statistici meestal een ongelooflijk diepe kennis van statistieken, maar zeer weinig expertise in de onderwerpen waarop ze statistische methoden toepassen. Meestal zijn statistici verplicht om externe materiedeskundigen te raadplegen om echt inzicht te krijgen in de betekenis van hun bevindingen en om te kunnen beslissen wat de beste manier is om verder te gaan in een analyse.

Methodes voor het leren van wiskunde en machine:
Statistici vertrouwen meestal op statistische methoden en processen bij het afleiden van inzichten uit gegevens. Datawetenschappers moeten daarentegen uit een breed scala aan technieken putten om gegevensinzichten te verkrijgen. Deze omvatten statistische methoden, maar omvatten ook benaderingen die niet zijn gebaseerd op statistieken - zoals die in wiskunde, clustering, classificatie en niet-statistische benaderingen van machine-learning. Het belang van statistische knowhow zien

Je hoeft niet naar buiten te gaan om een graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:

Lineaire regressie

: Lineaire regressie is handig voor het modelleren van de relaties tussen een afhankelijke variabele en een of meerdere onafhankelijke variabelen. Het doel van lineaire regressie is het ontdekken (en kwantificeren van de sterkte van) belangrijke correlaties tussen afhankelijke en onafhankelijke variabelen. Tijdreeksanalyse:
Tijdreeksanalyse omvat het analyseren van een verzameling gegevens over attribuutwaarden in de tijd, om toekomstige instanties van de meting te voorspellen op basis van de eerdere waarnemingsgegevens. Monte Carlo-simulaties:
De Monte Carlo-methode is een simulatietechniek die u kunt gebruiken om hypothesen te testen, parameterschattingen te genereren, scenario-uitkomsten te voorspellen en modellen te valideren. De methode is krachtig omdat deze kan worden gebruikt om zeer snel 1 tot 10, 000 (of meer) simulatiesamples te simuleren voor alle processen die u probeert te evalueren. Statistieken voor ruimtelijke gegevens:
Een fundamentele en belangrijke eigenschap van ruimtelijke gegevens is dat deze niet willekeurig is. Het is ruimtelijk afhankelijk en automatisch gecorreleerd. Bij het modelleren van ruimtelijke gegevens, vermijd statistische methoden die ervan uitgaan dat uw gegevens willekeurig zijn. Kriging en krige zijn twee statistische methoden die u kunt gebruiken om ruimtelijke gegevens te modelleren. Met deze methoden kunt u voorspellende oppervlakken voor volledige studiegebieden produceren op basis van verzamelingen bekende punten in de geografische ruimte. Werken met methoden voor clustering, classificatie en machine-learning

Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af te leiden uit) onbewerkte gegevensreeksen.

Clustering is een bepaald type machine learning - zonder toezicht machine learning, om precies te zijn, wat betekent dat de algoritmen moeten leren van niet-gelabelde gegevens en als zodanig moeten ze inferentiële methoden gebruiken om te ontdekken correlaties. Classificatie

wordt daarentegen bewaakte machine learning genoemd, wat betekent dat de algoritmen leren van gelabelde gegevens. In de volgende beschrijvingen worden enkele van de meer basale clustering- en classificatiebenaderingen geïntroduceerd: k-means clustering:

U implementeert over het algemeen k-means-algoritmen om datapunten van een gegevensset onder te verdelen in clusters op basis van de dichtstbijzijnde gemiddelde waarden. Om de optimale verdeling van uw gegevenspunten in clusters te bepalen, zodat de afstand tussen punten in elk cluster wordt geminimaliseerd, kunt u k-means clustering gebruiken. algoritmen van de dichtstbijzijnde buren:
Het doel van een naaste buuranalyse is om naar een dichtstbijzijnde punt in de ruimte of naar een dichtstbijzijnde numerieke waarde te zoeken en deze te lokaliseren, afhankelijk van het kenmerk dat u gebruikt voor de vergelijkingsbasis. Beoordeling van de kerneldichtheid:
Een alternatieve manier om clusters in uw gegevens te identificeren, is om een functie voor het gladstrijken van de dichtheid te gebruiken. Kernel-dichtheidschatting (KDE) werkt door een kernel een weegfunctie te plaatsen die nuttig is voor het kwantificeren van dichtheid - op elk gegevenspunt in de gegevensverzameling en vervolgens de kernels te sommeren om een kerneldichtheidsraming te genereren voor de algehele regio. Wiskundige methoden in de mix houden

Er wordt veel gezegd over de waarde van statistieken in de praktijk van data science, maar toegepaste wiskundige methoden worden zelden genoemd. Om eerlijk te zijn, wiskunde is de basis van alle kwantitatieve analyses. Het belang ervan moet niet worden onderschat. De twee volgende wiskundige methoden zijn met name nuttig in de gegevenswetenschap.

Multi-criteria besluitvorming (MCDM):

MCDM is een benadering voor wiskundige besluitvormingsmodellen die u kunt gebruiken wanneer u verschillende criteria of alternatieven hebt die u tegelijkertijd moet evalueren bij het nemen van een beslissing. Markov-ketens
: een Markov-keten is een wiskundige methode die een reeks willekeurig gegenereerde variabelen samenvoegt die de huidige staat representeren om te modelleren hoe veranderingen in huidige toestandsvariabelen toekomstige toestanden beïnvloeden.

Kijken naar de grondbeginselen van statistiek, machinaal leren en wiskundige methoden in gegevenswetenschap - dummy's

Inhoudsopgave:

Video: Inleiding Sociologie HC1 - Inleiding 2024

Je hoeft niet naar buiten te gaan om een graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:

Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af te leiden uit) onbewerkte gegevensreeksen.

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon Rebel T3-serie camera's: het scherm met scherminstellingen uitschakelen - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Grammatica controleren in Word 2007 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Bewerkers keuze

Omgaan met de nieuwe Excel 2007-bestandsindelingen - dummies

Ontcijferen Foutwaarden in Excel 2016 Formules - dummies

Bepalen welke gegevens moeten worden weergegeven in uw Excel Financial Model - dummies

Foutwaarden in Excel 2010-formules herkennen - Dummies

Bewerkers keuze

IPhone & iPad Webontwerp voor Dummy's Cheat Sheet - dummies

Lijst- en extensie-eigenschappen van Cascading Style Sheets (CSS) - dummies

Ervoor zorgen dat uw aanbiedingen waardevol zijn voor uw e-mailmarketing Klanten - dummies

Zorg ervoor dat uw e-mailmarketing voldoet aan de spamwetgeving - dummies

Populaire categorieën

Inhoudsopgave:

Video: Inleiding Sociologie HC1 - Inleiding 2024

Je hoeft niet naar buiten te gaan om een ​​graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:

Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af ​​te leiden uit) onbewerkte gegevensreeksen.

Bewerkers keuze

Bewerkers keuze

Bewerkers keuze

Bewerkers keuze

Bewerkers keuze

Populaire categorieën

Je hoeft niet naar buiten te gaan om een graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:

Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af te leiden uit) onbewerkte gegevensreeksen.