Inhoudsopgave:
- Je hoeft niet naar buiten te gaan om een graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:
- Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af te leiden uit) onbewerkte gegevensreeksen.
- Er wordt veel gezegd over de waarde van statistieken in de praktijk van data science, maar toegepaste wiskundige methoden worden zelden genoemd. Om eerlijk te zijn, wiskunde is de basis van alle kwantitatieve analyses. Het belang ervan moet niet worden onderschat. De twee volgende wiskundige methoden zijn met name nuttig in de gegevenswetenschap.
Video: Inleiding Sociologie HC1 - Inleiding 2024
Deel van Data Science For Dummies Cheatsheet > Als statistieken zijn beschreven als de wetenschap van het afleiden van inzichten uit data, wat is dan het verschil tussen een statisticus en een data scientist? Goede vraag! Hoewel veel taken in de gegevenswetenschap nogal wat statistische kennis vereisen, is de reikwijdte en breedte van de kennis en vaardigheden van een gegevenswetenschapper anders dan die van een statisticus. De belangrijkste verschillen worden hieronder beschreven.
-
Een van de belangrijkste kenmerken van gegevenswetenschappers is dat ze een geavanceerde expertise bieden op het gebied waarop zij hun analysemethoden toepassen. Gegevenswetenschappers hebben dit nodig, zodat ze de implicaties en toepassingen van de gegevensinzichten die ze genereren, echt kunnen begrijpen. Een data-wetenschapper moet voldoende vakkennis hebben om de significantie van hun bevindingen te kunnen identificeren en onafhankelijk beslissen hoe verder te gaan in de analyse.
-
Statistici vertrouwen meestal op statistische methoden en processen bij het afleiden van inzichten uit gegevens. Datawetenschappers moeten daarentegen uit een breed scala aan technieken putten om gegevensinzichten te verkrijgen. Deze omvatten statistische methoden, maar omvatten ook benaderingen die niet zijn gebaseerd op statistieken - zoals die in wiskunde, clustering, classificatie en niet-statistische benaderingen van machine-learning. Het belang van statistische knowhow zien
Je hoeft niet naar buiten te gaan om een graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:
Lineaire regressie
-
: Lineaire regressie is handig voor het modelleren van de relaties tussen een afhankelijke variabele en een of meerdere onafhankelijke variabelen. Het doel van lineaire regressie is het ontdekken (en kwantificeren van de sterkte van) belangrijke correlaties tussen afhankelijke en onafhankelijke variabelen. Tijdreeksanalyse:
-
Tijdreeksanalyse omvat het analyseren van een verzameling gegevens over attribuutwaarden in de tijd, om toekomstige instanties van de meting te voorspellen op basis van de eerdere waarnemingsgegevens. Monte Carlo-simulaties:
-
De Monte Carlo-methode is een simulatietechniek die u kunt gebruiken om hypothesen te testen, parameterschattingen te genereren, scenario-uitkomsten te voorspellen en modellen te valideren. De methode is krachtig omdat deze kan worden gebruikt om zeer snel 1 tot 10, 000 (of meer) simulatiesamples te simuleren voor alle processen die u probeert te evalueren. Statistieken voor ruimtelijke gegevens:
-
Een fundamentele en belangrijke eigenschap van ruimtelijke gegevens is dat deze niet willekeurig is. Het is ruimtelijk afhankelijk en automatisch gecorreleerd. Bij het modelleren van ruimtelijke gegevens, vermijd statistische methoden die ervan uitgaan dat uw gegevens willekeurig zijn. Kriging en krige zijn twee statistische methoden die u kunt gebruiken om ruimtelijke gegevens te modelleren. Met deze methoden kunt u voorspellende oppervlakken voor volledige studiegebieden produceren op basis van verzamelingen bekende punten in de geografische ruimte. Werken met methoden voor clustering, classificatie en machine-learning
Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af te leiden uit) onbewerkte gegevensreeksen.
Clustering is een bepaald type machine learning - zonder toezicht machine learning, om precies te zijn, wat betekent dat de algoritmen moeten leren van niet-gelabelde gegevens en als zodanig moeten ze inferentiële methoden gebruiken om te ontdekken correlaties. Classificatie
wordt daarentegen bewaakte machine learning genoemd, wat betekent dat de algoritmen leren van gelabelde gegevens. In de volgende beschrijvingen worden enkele van de meer basale clustering- en classificatiebenaderingen geïntroduceerd: k-means clustering:
-
U implementeert over het algemeen k-means-algoritmen om datapunten van een gegevensset onder te verdelen in clusters op basis van de dichtstbijzijnde gemiddelde waarden. Om de optimale verdeling van uw gegevenspunten in clusters te bepalen, zodat de afstand tussen punten in elk cluster wordt geminimaliseerd, kunt u k-means clustering gebruiken. algoritmen van de dichtstbijzijnde buren:
-
Het doel van een naaste buuranalyse is om naar een dichtstbijzijnde punt in de ruimte of naar een dichtstbijzijnde numerieke waarde te zoeken en deze te lokaliseren, afhankelijk van het kenmerk dat u gebruikt voor de vergelijkingsbasis. Beoordeling van de kerneldichtheid:
-
Een alternatieve manier om clusters in uw gegevens te identificeren, is om een functie voor het gladstrijken van de dichtheid te gebruiken. Kernel-dichtheidschatting (KDE) werkt door een kernel een weegfunctie te plaatsen die nuttig is voor het kwantificeren van dichtheid - op elk gegevenspunt in de gegevensverzameling en vervolgens de kernels te sommeren om een kerneldichtheidsraming te genereren voor de algehele regio. Wiskundige methoden in de mix houden
Er wordt veel gezegd over de waarde van statistieken in de praktijk van data science, maar toegepaste wiskundige methoden worden zelden genoemd. Om eerlijk te zijn, wiskunde is de basis van alle kwantitatieve analyses. Het belang ervan moet niet worden onderschat. De twee volgende wiskundige methoden zijn met name nuttig in de gegevenswetenschap.
Multi-criteria besluitvorming (MCDM):
-
MCDM is een benadering voor wiskundige besluitvormingsmodellen die u kunt gebruiken wanneer u verschillende criteria of alternatieven hebt die u tegelijkertijd moet evalueren bij het nemen van een beslissing. Markov-ketens
-
: een Markov-keten is een wiskundige methode die een reeks willekeurig gegenereerde variabelen samenvoegt die de huidige staat representeren om te modelleren hoe veranderingen in huidige toestandsvariabelen toekomstige toestanden beïnvloeden.