Huis Persoonlijke financiën Kijken naar de grondbeginselen van statistiek, machinaal leren en wiskundige methoden in gegevenswetenschap - dummy's

Kijken naar de grondbeginselen van statistiek, machinaal leren en wiskundige methoden in gegevenswetenschap - dummy's

Inhoudsopgave:

Video: Inleiding Sociologie HC1 - Inleiding 2024

Video: Inleiding Sociologie HC1 - Inleiding 2024
Anonim

Deel van Data Science For Dummies Cheatsheet > Als statistieken zijn beschreven als de wetenschap van het afleiden van inzichten uit data, wat is dan het verschil tussen een statisticus en een data scientist? Goede vraag! Hoewel veel taken in de gegevenswetenschap nogal wat statistische kennis vereisen, is de reikwijdte en breedte van de kennis en vaardigheden van een gegevenswetenschapper anders dan die van een statisticus. De belangrijkste verschillen worden hieronder beschreven.

Deskundigheid van het onderwerp:
  • Een van de belangrijkste kenmerken van gegevenswetenschappers is dat ze een geavanceerde expertise bieden op het gebied waarop zij hun analysemethoden toepassen. Gegevenswetenschappers hebben dit nodig, zodat ze de implicaties en toepassingen van de gegevensinzichten die ze genereren, echt kunnen begrijpen. Een data-wetenschapper moet voldoende vakkennis hebben om de significantie van hun bevindingen te kunnen identificeren en onafhankelijk beslissen hoe verder te gaan in de analyse.

    Daarentegen hebben statistici meestal een ongelooflijk diepe kennis van statistieken, maar zeer weinig expertise in de onderwerpen waarop ze statistische methoden toepassen. Meestal zijn statistici verplicht om externe materiedeskundigen te raadplegen om echt inzicht te krijgen in de betekenis van hun bevindingen en om te kunnen beslissen wat de beste manier is om verder te gaan in een analyse.

    Methodes voor het leren van wiskunde en machine:
  • Statistici vertrouwen meestal op statistische methoden en processen bij het afleiden van inzichten uit gegevens. Datawetenschappers moeten daarentegen uit een breed scala aan technieken putten om gegevensinzichten te verkrijgen. Deze omvatten statistische methoden, maar omvatten ook benaderingen die niet zijn gebaseerd op statistieken - zoals die in wiskunde, clustering, classificatie en niet-statistische benaderingen van machine-learning. Het belang van statistische knowhow zien

Je hoeft niet naar buiten te gaan om een ​​graad in statistiek te krijgen om gegevenswetenschap te oefenen, maar je moet in ieder geval bekend raken met enkele meer fundamentele methoden die worden gebruikt in statistische gegevensanalyse. Deze omvatten:

Lineaire regressie

  • : Lineaire regressie is handig voor het modelleren van de relaties tussen een afhankelijke variabele en een of meerdere onafhankelijke variabelen. Het doel van lineaire regressie is het ontdekken (en kwantificeren van de sterkte van) belangrijke correlaties tussen afhankelijke en onafhankelijke variabelen. Tijdreeksanalyse:

  • Tijdreeksanalyse omvat het analyseren van een verzameling gegevens over attribuutwaarden in de tijd, om toekomstige instanties van de meting te voorspellen op basis van de eerdere waarnemingsgegevens. Monte Carlo-simulaties:

  • De Monte Carlo-methode is een simulatietechniek die u kunt gebruiken om hypothesen te testen, parameterschattingen te genereren, scenario-uitkomsten te voorspellen en modellen te valideren. De methode is krachtig omdat deze kan worden gebruikt om zeer snel 1 tot 10, 000 (of meer) simulatiesamples te simuleren voor alle processen die u probeert te evalueren. Statistieken voor ruimtelijke gegevens:

  • Een fundamentele en belangrijke eigenschap van ruimtelijke gegevens is dat deze niet willekeurig is. Het is ruimtelijk afhankelijk en automatisch gecorreleerd. Bij het modelleren van ruimtelijke gegevens, vermijd statistische methoden die ervan uitgaan dat uw gegevens willekeurig zijn. Kriging en krige zijn twee statistische methoden die u kunt gebruiken om ruimtelijke gegevens te modelleren. Met deze methoden kunt u voorspellende oppervlakken voor volledige studiegebieden produceren op basis van verzamelingen bekende punten in de geografische ruimte. Werken met methoden voor clustering, classificatie en machine-learning

Machinaal leren is de toepassing van computationele algoritmen om te leren van (of patronen af ​​te leiden uit) onbewerkte gegevensreeksen.

Clustering is een bepaald type machine learning - zonder toezicht machine learning, om precies te zijn, wat betekent dat de algoritmen moeten leren van niet-gelabelde gegevens en als zodanig moeten ze inferentiële methoden gebruiken om te ontdekken correlaties. Classificatie

wordt daarentegen bewaakte machine learning genoemd, wat betekent dat de algoritmen leren van gelabelde gegevens. In de volgende beschrijvingen worden enkele van de meer basale clustering- en classificatiebenaderingen geïntroduceerd: k-means clustering:

  • U implementeert over het algemeen k-means-algoritmen om datapunten van een gegevensset onder te verdelen in clusters op basis van de dichtstbijzijnde gemiddelde waarden. Om de optimale verdeling van uw gegevenspunten in clusters te bepalen, zodat de afstand tussen punten in elk cluster wordt geminimaliseerd, kunt u k-means clustering gebruiken. algoritmen van de dichtstbijzijnde buren:

  • Het doel van een naaste buuranalyse is om naar een dichtstbijzijnde punt in de ruimte of naar een dichtstbijzijnde numerieke waarde te zoeken en deze te lokaliseren, afhankelijk van het kenmerk dat u gebruikt voor de vergelijkingsbasis. Beoordeling van de kerneldichtheid:

  • Een alternatieve manier om clusters in uw gegevens te identificeren, is om een ​​functie voor het gladstrijken van de dichtheid te gebruiken. Kernel-dichtheidschatting (KDE) werkt door een kernel een weegfunctie te plaatsen die nuttig is voor het kwantificeren van dichtheid - op elk gegevenspunt in de gegevensverzameling en vervolgens de kernels te sommeren om een ​​kerneldichtheidsraming te genereren voor de algehele regio. Wiskundige methoden in de mix houden

Er wordt veel gezegd over de waarde van statistieken in de praktijk van data science, maar toegepaste wiskundige methoden worden zelden genoemd. Om eerlijk te zijn, wiskunde is de basis van alle kwantitatieve analyses. Het belang ervan moet niet worden onderschat. De twee volgende wiskundige methoden zijn met name nuttig in de gegevenswetenschap.

Multi-criteria besluitvorming (MCDM):

  • MCDM is een benadering voor wiskundige besluitvormingsmodellen die u kunt gebruiken wanneer u verschillende criteria of alternatieven hebt die u tegelijkertijd moet evalueren bij het nemen van een beslissing. Markov-ketens

  • : een Markov-keten is een wiskundige methode die een reeks willekeurig gegenereerde variabelen samenvoegt die de huidige staat representeren om te modelleren hoe veranderingen in huidige toestandsvariabelen toekomstige toestanden beïnvloeden.

Kijken naar de grondbeginselen van statistiek, machinaal leren en wiskundige methoden in gegevenswetenschap - dummy's

Bewerkers keuze

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Hoe u uw LinkedIn-profiel kunt vermarkten voor de markt - dummies

Wanneer het komt om het voordeel dat u van LinkedIn krijgt te maximaliseren, bent u uw grootste pleitbezorger. Hoewel je netwerk van connecties je helpt te groeien, gebeurt veel van je marketing zonder dat je erbij betrokken bent. Nadat je je profiel hebt aangemaakt, worden die en andere LinkedIn-activiteit van je gelezen en beoordeeld door de ...

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Hoe u uw LinkedIn-netwerk kunt bouwen voordat u naar een nieuwe stad gaat - dummies

Deze dagen, wanneer u naar een nieuwe stad moet verhuizen, kunt u er veel plannen voor maken op LinkedIn en op internet. Je kunt de buurten onderzoeken, de schoolsystemen bekijken en online naar huizen gaan. Je kunt een stap verder gaan als je van plan bent om naar een andere ...

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

Hoe u uw LinkedIn-contactinstellingen controleert - dummies

U zeker wilt dat u de juiste instellingen selecteert contactinstellingen voor uw LinkedIn-profiel. Als u bijvoorbeeld op zoek bent naar een nieuwe baan, wilt u er zeker van zijn dat de optie voor Carrièremogelijkheden is gecontroleerd. Wanneer u klaar bent om uw contactinstellingen te controleren, volgt u deze stappen: Ga naar ...

Bewerkers keuze

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Canon EOS Rebel XS / 1000D voor Dummy's Cheat Sheet - dummies

Uw Canon EOS Rebel XS / 1000D heeft alle functies die u kunt gebruiken om fantastische foto's te maken. Je moet de beeldmodus instellen op het onderwerp van je foto en de Canon EOS Rebel XS / 1000D laat je volledig of gedeeltelijk automatisch gaan met de belichtingsinstellingen.

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Canon Rebel T3-serie camera's: Live-modus Autofocus in Live View - dummies

Live-modus Met autofocus kunt u de focus instellen op uw Canon EOS Rebel T3 of T3i zonder tijdelijk het voorbeeld van de monitor te verliezen. Bovendien, in plaats van het selecteren van negen autofocuspunten, verplaatst u eenvoudig een enkel scherpstelpunt over uw onderwerp. Aan de andere kant is de autofocus van de Live-modus merkbaar langzamer dan in de Quick-modus, en ...

Bewerkers keuze

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Wijzigt Hoe tekstgrootte te wijzigen in Word 2016 - dummies

Tekstgrootte wordt ingesteld in uw Word 2016 document gebaseerd over de meting van de oude letterzetter, ook wel punten genoemd. Hier zijn enkele aandachtspunten waarmee u rekening moet houden bij het opmaken van tekst in Word: hoe groter de puntgrootte, hoe groter de tekst. De meeste gedrukte tekst is 10 of 12 punten lang. Koppen zijn meestal 14 ...

Grammatica controleren in Word 2007 - dummies

Grammatica controleren in Word 2007 - dummies

Naast het controleren op correcte spelling, kunt u met Word 2007 ook om uw documenten te bewijzen om grammaticale fouten te voorkomen. U kunt de grammaticasuggesties van Word bekijken terwijl u door het document bladert, of u kunt een traditionele spellingcontrole uitvoeren. Word biedt u zelfs de kans om de gemarkeerde fout te onderzoeken en meer te leren van ...

Spelling controleren terwijl u typt in Word 2013 - dummies

Spelling controleren terwijl u typt in Word 2013 - dummies

Woord 2013 heeft een interne bibliotheek vol met ontelbare woorden, allemaal correct gespeld. Telkens wanneer u een woord typt, wordt het vergeleken met dat woordenboek. Wanneer het woord niet wordt gevonden, wordt dit als verdacht gemarkeerd in uw document. Het merk is een rode zigzaglijn. Mijn advies: blijf typen. Laat de "rode zigzag van een ...